距離上一次博客更新,已悄然過(guò)去整整一年時(shí)光。為避免“SEO每天一貼”演變?yōu)椤岸嗄暌毁N”,恰逢周年之際,決定重新拾起鍵盤(pán),與各位探討這個(gè)深耕于數(shù)字營(yíng)銷(xiāo)領(lǐng)域的小話(huà)題。回望這一年,全球局勢(shì)經(jīng)歷了諸多動(dòng)蕩,各類(lèi)事件的發(fā)展走向尚未明晰,但其對(duì)世界格局、國(guó)家走向乃至個(gè)體生活產(chǎn)生的深遠(yuǎn)影響已毋庸置疑,大到令人感慨萬(wàn)千卻又無(wú)從下筆,索性回歸SEO的專(zhuān)業(yè)視角,聚焦一個(gè)看似微小卻值得玩味的技術(shù)細(xì)節(jié)。
前不久,一位國(guó)內(nèi)頭部電商企業(yè)SEO部門(mén)負(fù)責(zé)人向我咨詢(xún)了若干問(wèn)題,其中關(guān)于搜索結(jié)果數(shù)量差異的疑問(wèn)尤為引人深思,因其涉及Google搜索算法的底層邏輯,非一兩語(yǔ)能闡明,故撰此文作系統(tǒng)解答,或可為同行從業(yè)者提供些許參考。
他的問(wèn)題源于《SEO實(shí)戰(zhàn)密碼》中關(guān)于詞頻與密度的論述:當(dāng)Google搜索“新加坡旅游”時(shí),“新加坡”返回8520萬(wàn)結(jié)果,“旅游”返回3.42億結(jié)果;但他實(shí)際查詢(xún)時(shí),“新加坡旅游”返回1.31億結(jié)果,“新加坡旅游 -旅游”返回4360萬(wàn)結(jié)果,而“新加坡旅游 -新加坡”卻返回0結(jié)果——為何排除“新加坡”后無(wú)結(jié)果?這顯然與常規(guī)算法邏輯相悖。
經(jīng)核實(shí),其描述完全屬實(shí)。書(shū)中引用的早期數(shù)據(jù)已隨時(shí)間推移發(fā)生變化:“新加坡”當(dāng)前結(jié)果數(shù)為2.18億,“旅游”達(dá)8.02億,數(shù)量級(jí)雖增長(zhǎng)顯著,但“旅游”因使用范圍更廣,結(jié)果數(shù)始終遠(yuǎn)高于“新加坡”的核心邏輯未變,這與搜索引擎對(duì)詞匯通用性的基礎(chǔ)判斷相符。至于“新加坡旅游”的查詢(xún)結(jié)果差異(1.31億與9040萬(wàn)),可歸因于地理位置、個(gè)性化推薦等算法變量的影響,數(shù)值波動(dòng)在合理范圍內(nèi)。
多詞組合查詢(xún)時(shí),搜索引擎默認(rèn)采用“邏輯與”(AND)運(yùn)算機(jī)制,即返回結(jié)果需同時(shí)包含查詢(xún)中的所有關(guān)鍵詞,因此結(jié)果數(shù)量必然小于或等于各關(guān)鍵詞單獨(dú)搜索結(jié)果的最小值。這一邏輯在“新加坡旅游 -新加坡”的查詢(xún)中得到印證:理論上,該查詢(xún)意為“包含‘新加坡’與‘旅游’的頁(yè)面”減去“包含‘新加坡’的頁(yè)面”,結(jié)果應(yīng)為0,實(shí)際也確實(shí)如此。
然而,“新加坡旅游 -旅游”返回4360萬(wàn)結(jié)果的現(xiàn)象則打破了常規(guī)認(rèn)知。按理,排除“旅游”后,剩余結(jié)果應(yīng)僅為包含“新加坡”但不包含“旅游”的頁(yè)面,數(shù)量應(yīng)為0。為探究異常原因,上海網(wǎng)站優(yōu)化公司深入分析頁(yè)面內(nèi)容后發(fā)現(xiàn),返回結(jié)果中的“旅游”多為繁體“旅遊”。這揭示出一個(gè)關(guān)鍵機(jī)制:Google在處理查詢(xún)?cè)~時(shí),會(huì)對(duì)關(guān)鍵詞進(jìn)行繁體字、異體字乃至同義詞的智能擴(kuò)展,而排除指令“-”后的詞則需嚴(yán)格匹配,不做擴(kuò)展。因此,“-旅游”僅排除簡(jiǎn)體“旅游”,未排除繁體“旅遊”,最終結(jié)果實(shí)質(zhì)等同于“新加坡旅遊”的查詢(xún)量(當(dāng)前4560萬(wàn),與4360萬(wàn)高度吻合)。
進(jìn)一步驗(yàn)證發(fā)現(xiàn),“新加坡”本身無(wú)繁體/異體字形態(tài),故“新加坡旅游 -新加坡”無(wú)法通過(guò)擴(kuò)展獲得結(jié)果;而“馬來(lái)西亞”具備繁體“馬來(lái)西亞”,查詢(xún)“馬來(lái)西亞旅游 -馬來(lái)西亞”時(shí),返回結(jié)果多為繁體頁(yè)面;同樣無(wú)繁體字差異的“日本”,“日本旅游 -日本”查詢(xún)結(jié)果確為0,印證了關(guān)鍵詞是否具備繁體/異體字形態(tài)是影響排除指令結(jié)果的關(guān)鍵變量。
若需徹底排除“旅游”及其繁體形式,需明確指定“新加坡旅游 -旅遊 -旅游”,此時(shí)結(jié)果確為0(盡管Google仍會(huì)推送相關(guān)廣告)。值得注意的是,當(dāng)使用雙引號(hào)進(jìn)行嚴(yán)格匹配查詢(xún),如“"新加坡旅游 -旅遊 -旅游"”時(shí),雙引號(hào)內(nèi)的所有內(nèi)容被視為不可分割的整體字符串,減號(hào)失去指令功能,僅作為普通標(biāo)點(diǎn),此時(shí)系統(tǒng)對(duì)“新加坡旅游 -旅遊 -旅游”進(jìn)行同義詞擴(kuò)展,實(shí)際匹配的是包含“新加坡旅游”及其繁體、異體形式的頁(yè)面,最終返回9條結(jié)果,均為頁(yè)面中連續(xù)出現(xiàn)完整字符串“新加坡旅游 旅游旅游”的頁(yè)面。
對(duì)比百度發(fā)現(xiàn),其在處理同義詞、異體字時(shí)更為寬泛,例如“新加坡旅游”可能包含“新加坡游玩”等近義詞,而“新加坡旅游 -新加坡”雖非無(wú)結(jié)果,但僅返回600余條(多為英文頁(yè)面),核心邏輯與Google相似,但細(xì)節(jié)處理存在差異。
這類(lèi)對(duì)搜索算法細(xì)節(jié)的探究,雖未必直接轉(zhuǎn)化為即時(shí)的SEO優(yōu)化策略,卻是理解搜索引擎技術(shù)內(nèi)核、提升邏輯推理能力的重要訓(xùn)練,它促使上海網(wǎng)站優(yōu)化公司跳出表面數(shù)據(jù)差異,深入探究算法背后的語(yǔ)言處理邏輯與指令匹配機(jī)制,為未來(lái)應(yīng)對(duì)更復(fù)雜的搜索場(chǎng)景奠定認(rèn)知基礎(chǔ)。