通過百度快照分析中文分詞和百度排名
2015-10-08 來自: 陜西印象信息技術(shù)有限公司 瀏覽次數(shù):3327
很多站長抱怨百度算法反復(fù)無常,排名忽上忽下,鮮少有人去仔細的研究和分析百度排名背后的意義。小生就先來拋磚引玉,談一談通過百度快照來分析中文分詞和百度排名的關(guān)聯(lián)。由于并非搜索引擎***人士,只是通過快照現(xiàn)象得出的個人觀察結(jié)論,不***準確,只為廣大站長起一個去認真觀察分析的引子而已。
小生覺得有必要先解釋下中文分詞的概念。百科定義:中文分詞 (Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照***的規(guī)范重新組合成詞序列的過程。
之所以會有中文分詞,是因為漢語語法的特殊性。中文分詞對于搜索引擎來說,***重要的就在于相關(guān)性排序,中文分詞的好壞,常常直接影響到對搜索結(jié)果的網(wǎng)頁排名,尤其是百度的中文分詞對搜索排名的影響。據(jù)百科解釋,現(xiàn)有的中文分詞算法有基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法這三類。
當然,百度的搜索結(jié)果排名并不是單純的中文分詞,也不僅僅是單一的一種中文分詞,往往是三種分詞算法的綜合應(yīng)用。
百度快照是個神奇的東西,可以解決或者了解網(wǎng)站以及百度的很多內(nèi)容。除了可以快速查看某個無法打開或者打開速度特別慢的頁面,還可以查看網(wǎng)頁被百度收錄情況,也可以用來識別一些友情鏈接頁面,當然也可以用來了解百度中文分詞的一些情況。我們來看一下一些關(guān)鍵詞的搜索結(jié)果的百度快照頁面。
1、短關(guān)鍵詞
以搜索“百度快照”為例,從表面看,搜索結(jié)果中對“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是網(wǎng)站權(quán)重高排在首頁。
打開第1個百度快照頁面,可以看到“百度快照”四個字被***標識,并且快照頁面有“百度快照”關(guān)鍵字的正向***da匹配。
打開第二個百度快照頁面,可以看到“百度快照”四個字同樣被***標識,并且快照頁面有“百度快照”關(guān)鍵字的正向***da匹配。
再來在百度搜索“中文分詞”,可以看到首頁第1個快照頁面“中文分詞”關(guān)鍵詞***標識,頁面關(guān)鍵字是正向***da匹配。
2、長尾關(guān)鍵詞
以“小說閱讀網(wǎng)”為例,以下是首頁搜索結(jié)果展示。
打開第1個百度快照頁面,可以看到“小說閱讀網(wǎng)”關(guān)鍵詞被***標識,頁面關(guān)鍵字是正向***da匹配。其它也大抵如此。
但也有并非是完全匹配詞,打開第三個百度快照頁面,“小說閱讀網(wǎng)”五個字被黃藍青三色分開標識,分別拆成“小說”、“閱讀”“網(wǎng)”三個詞,快照頁面也沒有對這五個字完全匹配。
搜索一下其它詞匯,首頁搜索結(jié)果大部分的百度快照頁面也大都如此,不在此一一展示,大家平時可以多觀察一下看看。
我們或許可以看出兩個情況:
1、百度首頁排名的網(wǎng)站有一個共同點:頁面對于搜索的關(guān)鍵詞基本是正向***da匹配。即排名首頁網(wǎng)站的頁面大多對于所搜索關(guān)鍵詞正向***da匹配。
2、對于中文分詞,通過長尾詞搜索,可以看出百度對于關(guān)鍵詞或者說長尾詞是如何拆分的。
百度快照顏色有何意義?
另外,還有個探索性問題,對于百度快照中關(guān)鍵詞拆分中的顏色代表何意?一般有黃、藍、青、紅四種主要顏色。
小生分析:***代表所搜關(guān)鍵詞的主關(guān)鍵詞,即一個短語或者詞組的側(cè)***,是用戶搜索的主體;紅色代表所搜索關(guān)鍵詞的內(nèi)容,是用戶要搜索主體的***;藍色則是對主體的解釋,起到輔助說明作用;青色一般是輔助詞,可有可無。
當然這是小生的一種猜測性分析,不正確之處大家可以一起交流。(由于無法上傳圖片,各位如有興趣,可以自行搜索查看結(jié)果)
本文由北漂書生博客原創(chuàng)http://www.361blog.com/seo/433.html,交流與分享網(wǎng)絡(luò)營銷知識。