搜索引擎收錄方法
2015-10-08 來自: 陜西印象信息技術(shù)有限公司 瀏覽次數(shù):3113
搜索引擎收錄
1基本概述
搜索引擎收錄是搜索引擎收錄一個網(wǎng)站頁面具體的數(shù)量值,收錄的數(shù)量越多,收錄的時間越快,證明此網(wǎng)站對搜索引擎比較友好。
比較常用的搜索引擎收錄有baidu(百度)google(谷歌)yahoo(雅虎)sogou(搜狗)youdao(有道)soso(搜搜)bing(必應(yīng))。
2收錄原理
收集待索引網(wǎng)頁的url
Internet上存在的網(wǎng)頁數(shù)量***是個天文數(shù)字,每天新增的網(wǎng)頁也不計其數(shù),搜索引擎需要首先找到要索引收錄的對象。
具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區(qū)別存在爭議——至于是否叫這么兩個名字更是眾說紛紜,當然,名字本身并不重要——至少到目前為止。
主流的看法是,在Google的robots中,的確存在著相當部分專門為真正的索引收錄頁準備“素材”的robots——在這里我們姑且仍稱之為FreshBot吧
——它們的任務(wù)便是每天不停地掃描Internet,以發(fā)現(xiàn)并維護一個龐大的url列表供DeepBot使用,換言之,當其訪問、讀取其一個網(wǎng)頁時,目的并不在于索引這個網(wǎng)頁,而是找出這個網(wǎng)頁中的所有鏈接。
——當然,這樣似乎在效率上存在矛盾,有點不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網(wǎng)頁時不具備“排它性”。
也即是說,位于Google不同的數(shù)據(jù)中心的多個robots可能在某個很短的時間周期,比如說一天甚至一小時,訪問同一個頁面,而DeepBot在索引、緩存頁面時則不會出現(xiàn)類似的情況。
即Google會限制由某個數(shù)據(jù)中心的robots來完成這項工作的,而不會出現(xiàn)兩個數(shù)據(jù)中心同時索引網(wǎng)頁同一個版本的情況,如果這種說法沒有破綻的話,則似乎可以從服務(wù)器訪問日志中時??梢钥吹皆醋圆煌琁P的GoogleBot在很短的時間內(nèi)多次訪問同一個網(wǎng)頁證明FreshBot的存在。
因此,有時候發(fā)現(xiàn)GoogleBot頻繁訪問網(wǎng)站也不要高興得太早,也許其根本不是在索引網(wǎng)頁而只是在掃描url。
FreshBot記錄的信息包括網(wǎng)頁的url、TimeStamp(網(wǎng)頁創(chuàng)建或更新的時間戳),以及網(wǎng)頁的Head信息(注:這一點存在爭議,也有不少人相信FreshBot不會去讀取目標網(wǎng)頁信息的,而是將這部分工作交由DeepBot完成。
不過,筆者傾向于前一種說法,因為在FreshBot向DeepBot提交的url列表中,會將網(wǎng)站設(shè)置禁止索引、收錄的頁面排除在外,以提***率,而網(wǎng)站進行此類設(shè)置時除使用robots.txt外還有相當部分是通過mata標簽中的“noindex”實現(xiàn)的,不讀取目標網(wǎng)頁的head似乎是無法實現(xiàn)這一點的),如果網(wǎng)頁不可訪問,比如說網(wǎng)絡(luò)中斷或服務(wù)器故障,F(xiàn)reshBot則會記下該url并擇機重試,但在該url可訪問之前,不會將其加入向DeepBot提交的url列表。
總的來說,F(xiàn)reshBot對服務(wù)器帶寬、資源的占用還是比較小的。最后,F(xiàn)reshBot對記錄信息按不同的優(yōu)先級進行分類,向DeepBot提交,根據(jù)優(yōu)先級不同,主要有以下幾種:
A:新建網(wǎng)頁;B:舊網(wǎng)頁/新的TimeStamp,即存在更新的網(wǎng)頁C:使用301/302重定向的網(wǎng)頁;D:復(fù)雜的動態(tài)url:如使用多個參數(shù)的動態(tài)url,Google可能需要附加的工作才能正確分析其內(nèi)容。
——隨著Google對***頁支持能力的提高,這一分類可能已經(jīng)取消;E:其他類型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作;
F:舊網(wǎng)頁/舊的TimeStamp,即未更新的網(wǎng)頁,注意,這里的時間戳不是以Google搜索結(jié)果中顯示的日期為準,而是與Google索引數(shù)據(jù)庫中的日期比對;G:錯誤的url,即訪問時返回404回應(yīng)的頁面;
優(yōu)先級按由A至G的順序排列,依次降低。需要強調(diào)的是,這里所言之優(yōu)先級是相對的,比如說同樣是新建網(wǎng)頁,根據(jù)指向其的鏈接質(zhì)量、數(shù)量的不同,優(yōu)先級也有著很大的區(qū)別,具有源自相關(guān)的網(wǎng)站鏈接的網(wǎng)頁具有較高的優(yōu)先級。
此外,這里所指的優(yōu)先級僅針對同一網(wǎng)站內(nèi)部的頁面,事實上,不同網(wǎng)站也有有著不同的優(yōu)先級,換言之,對網(wǎng)站中的網(wǎng)頁而言,即使其***di優(yōu)先級的404url,也可能比許多其他網(wǎng)站優(yōu)先級***gao的新建網(wǎng)頁更具優(yōu)勢。
網(wǎng)頁的索引與收錄
接下來才進入真正的索引與收錄網(wǎng)頁過程。從上面的介紹可以看出,F(xiàn)reshBot提交的url列表是相當龐大的,根據(jù)語言、網(wǎng)站位置等不同,對特定網(wǎng)站的索引工作將分配至不同的數(shù)據(jù)中心完成。
整個索引過程,由于龐大的數(shù)據(jù)量,可能需要幾周甚至更長時間才能完成。
正如上文所言,DeepBot會首先索引優(yōu)先級較高的網(wǎng)站/網(wǎng)頁,優(yōu)先級越高,出現(xiàn)在Google索引數(shù)據(jù)庫及至最終出現(xiàn)在Google搜索結(jié)果頁面中的速度便越快。
對新建網(wǎng)頁而言,只要進入到這個階段,即使整個索引過程沒有完成,相應(yīng)的網(wǎng)頁便已具備出現(xiàn)在Google索引庫中的可能,相信許多朋友在Google中使用“site”搜索時常??吹綐俗檠a充結(jié)果只顯示網(wǎng)頁url或只顯示網(wǎng)頁標題與url但沒有描述的頁面,此即是處于這一階段網(wǎng)頁的正常結(jié)果。
當Google真正讀取、分析、緩存了這個頁面后,其便會從補充結(jié)果中逃出而顯示正常的信息。
——當然,前提是該網(wǎng)頁具有足夠的鏈接,特別是來自網(wǎng)站的鏈接,并且,索引庫中沒有與該網(wǎng)頁內(nèi)容相同或近似的記錄(DuplicateContent過濾)。
對動態(tài)url而言,雖然如今Google宣稱在對其處理方面已不存在障礙,不過,可以觀察到的事實仍然顯示動態(tài)url出現(xiàn)在補充結(jié)果中的幾率遠大于使用靜態(tài)url的網(wǎng)頁,往往需要更多、更有價值的鏈接才能從補充結(jié)果中逸出。
而對于上文中之“F”類,即未更新的網(wǎng)頁,DeepBot會將其時間戳與Google索引數(shù)據(jù)庫中的日期比對,確認盡管可能搜索結(jié)果中相應(yīng)頁面信息未來得及更新但只要索引了版本即可——考慮網(wǎng)頁多次更新、修改的情況——;至于“G”類即404url,則會查找索引庫中是否存在相應(yīng)的記錄,如果有,將其刪除。
數(shù)據(jù)中心間的同步
前文我們提到過,DeepBot索引某個網(wǎng)頁時會由特定的數(shù)據(jù)中心完成,而不會出現(xiàn)多個數(shù)據(jù)中心同時讀取該網(wǎng)頁,分別獲得網(wǎng)頁最近版本的情況,這樣,在索引過程完成后,便需要一個數(shù)據(jù)同步過程,將網(wǎng)頁的版本在多個數(shù)據(jù)中心得到更新。
這就是之前的GoogleDance。不過,在BigDaddy更新后,數(shù)據(jù)中心間的同步不再象那樣集中在特定的時間段,而是以一種連續(xù)的、時效性更強的方式進行。
3影響收錄
網(wǎng)站標題
網(wǎng)站標題、描述、關(guān)鍵詞的寫法在站長們的心目中一直是很慎重的一件事情,直接關(guān)系到網(wǎng)站的排名與流量,而且這三大標簽在網(wǎng)站上線之后不能輕易修改,這就需要站長們事先做好準備,如果說事先沒有考慮好,上線之后又去修改的話百度會認為你的網(wǎng)站不穩(wěn)定,剛上線就修改關(guān)鍵標簽,有嫌疑,然后就把你的網(wǎng)站丟進沙盒,慢慢考察,此時想要百度收錄網(wǎng)站至少要等到一個月之后,而且保證這段時間每天給網(wǎng)站添加高質(zhì)量的文章。
外部鏈接
增加外部鏈接,能讓搜索引擎有效地抓取和收錄網(wǎng)頁。
外鏈方法
我們都知道了為網(wǎng)站增加外部鏈接有這么多的好處了,那么我們應(yīng)該如何為網(wǎng)站增加更多、更具價值的外部鏈接呢?
下面總結(jié)幾種比較有效增加網(wǎng)站外鏈的方法:
1,自己主動性地增加鏈接;
2,交換友情鏈接,比較容易簡單的辦法;
3,提交分類目錄、網(wǎng)絡(luò)書簽,簡單未必十分有效;
4,購買文本鏈接,需要有***成本投入,且鏈接不持久;
5,組建鏈接網(wǎng)絡(luò),建立網(wǎng)站群、博客群,投入成本高,耗時較長,后期效果明顯;
網(wǎng)站內(nèi)容
原創(chuàng)的網(wǎng)站內(nèi)容更容易被收錄,采集、復(fù)制他人信息等做法一般很難收錄。
原創(chuàng)文章的***da好處,就是可以一舉多得,可以增加網(wǎng)站被搜索引擎收錄的概率,也可提升網(wǎng)站優(yōu)化排名。
4百度特點
1.基于字詞結(jié)合的信息處理方式 巧妙解決了中文信息的理解問題,地提高了搜索的準確性和查全率。
2.支持主流的中文編碼 包括gbk(漢字內(nèi)碼擴展規(guī)范)、gb2312(簡體)、big5(繁體),并且能夠在不同的編碼之間轉(zhuǎn)換?!?/p>
3.智能相關(guān)度算法 采用了基于內(nèi)容和基于超鏈分析相結(jié)合的方法進行相關(guān)度評價,能夠客觀分析網(wǎng)頁所包含的信息,從而***da限度保證了檢索結(jié)果相關(guān)性。
4.檢索結(jié)果更直觀 能標示豐富的網(wǎng)頁屬性(如標題、網(wǎng)址、時間、大小、編碼、摘要等),并突出用戶的查詢串,便于用戶判斷是否閱讀原文。
5.百度搜索支持二次檢索 可在上次檢索結(jié)果中繼續(xù)檢索,逐步縮小查找范圍,直至達到***小、***準確的結(jié)果集。利于用戶更加方便地在海量信息中找到自己真正感興趣的內(nèi)容。
6.相關(guān)檢索詞智能推薦技術(shù) 在用戶第1次檢索后,會提示相關(guān)的檢索詞,幫助用戶查找更相關(guān)的結(jié)果,統(tǒng)計表明可以促進檢索量提升10-20%.
7.高性能服務(wù)器和本地化服務(wù)器 運用多線程技術(shù)、***的搜索算法、穩(wěn)定的unix平臺、和本地化的服務(wù)器,保證了***的響應(yīng)速度。百度搜索引擎在中國境內(nèi)提供搜索服務(wù),可大大縮短檢索的響應(yīng)時間(一個檢索的平均響應(yīng)時間小于0.5秒)
8.可以提供多種服務(wù)方式 可以在7天之內(nèi)完成網(wǎng)頁的更新,是目前更新時間***、數(shù)據(jù)量***da的中文搜索引擎。
9.檢索結(jié)果輸出類別聚合 支持內(nèi)容類聚、網(wǎng)站類聚、內(nèi)容類聚+網(wǎng)站類聚等多種方式。支持用戶選擇時間范圍,提高用戶檢索效率。
10.智能性、可擴展的搜索技術(shù) 擁有目前世界上***da的中文信息庫,為用戶提供***準確、***廣泛、***ju時效性的信息提供了堅實基礎(chǔ)。
11.結(jié)構(gòu)、算法等的優(yōu)化 分布式結(jié)構(gòu)、精心設(shè)計的優(yōu)化算法、容錯設(shè)計保證系統(tǒng)在大訪問量下的高可用性、高擴展性、高性能和高穩(wěn)定性。
12.高可配置性使得搜索服務(wù)能夠滿足不同用戶的需求。
13.***的網(wǎng)頁動態(tài)摘要顯示技術(shù)。
14.獨有百度快照。
15.支持多種高級檢索語法,使用戶查詢效率更高、結(jié)果更準。已支持“+”(and)、“-”(not)、“|”(or)、“site:”、“domain:”、“intitle:”、“inurl”,還將繼續(xù)增加其它***的搜索語法。
5優(yōu)化方法
增加外鏈并被更快收錄的方法
1.通過優(yōu)化網(wǎng)站程序推廣,也就是所謂的SEO
2.競價排名
3.多發(fā)原創(chuàng)性的文章
4.提升PR值。
5.在高質(zhì)量的網(wǎng)站發(fā)布帶有鏈接的軟文,引導(dǎo)搜索引擎前來光顧,進而實現(xiàn)收錄。
6.網(wǎng)站要有規(guī)律的更新,每次更新文章要不少于2篇。
7.網(wǎng)站打開速度和空間的穩(wěn)定性也是影響網(wǎng)站收錄的因素。
8.增加網(wǎng)站自身的權(quán)重,是更快收錄的根本原因。
6提高收錄
基本當搜索引擎收錄了站點之后,并且也已經(jīng)能夠看到搜索引擎收錄的數(shù)量,所希望的***是讓搜索引擎收錄更多的頁面。如果要提高搜索引擎的收錄量,大量增加網(wǎng)站內(nèi)容是其一。更多要做的是為搜索引擎的蜘蛛程序打造一個良好的網(wǎng)站結(jié)構(gòu)。 想要提高站點的收錄率,可以采取以下幾個方法:
提高外鏈
外鏈是SEO的良藥,無論是提高搜索引擎排名還是提高網(wǎng)站的收錄量,特別是高質(zhì)量的外部鏈接。鏈接建設(shè)的工作,要伴隨搜索引擎優(yōu)化方案的開始至結(jié)束。
增加原創(chuàng)
原創(chuàng)性的內(nèi)容,一旦被搜索引擎收錄之后,此類的內(nèi)容頁面就不是那么容易被搜索引擎刪除。如果是重復(fù)率太高的網(wǎng)站內(nèi)容,即使是讓搜索引擎收錄之后,也很容易被搜索引擎定期清理掉。讓網(wǎng)站保持一定比例的原創(chuàng)內(nèi)容,能夠培養(yǎng)網(wǎng)站的權(quán)重以及確保搜索引擎不會收錄了又刪除這些頁面。
優(yōu)化結(jié)構(gòu)
優(yōu)化網(wǎng)站內(nèi)部鏈接,良好的網(wǎng)站結(jié)構(gòu)會讓蜘蛛順著鏈接,一層層的讀取網(wǎng)站的內(nèi)容。網(wǎng)站結(jié)構(gòu)差的網(wǎng)站,會讓蜘蛛感覺走進了迷宮。如果你的網(wǎng)站很龐大,***hao是建立清晰的網(wǎng)站導(dǎo)航、的網(wǎng)站地圖等用戶體驗應(yīng)用,這樣做能夠引導(dǎo)蜘蛛也方便網(wǎng)站的用戶。
研究蜘蛛
搜索引擎的蜘蛛程序是一只有思維、有辨別能力的蜘蛛。我們別把它當成單純的網(wǎng)站內(nèi)容搬運工,它在讀取你內(nèi)容的時候,它會對這些內(nèi)容進行價值以及其他方面的辨別。作為網(wǎng)站的管理員,要研究蜘蛛的規(guī)則、爬取規(guī)律等,與搜索引擎的蜘蛛打交道也是重要的一門學問。 對于提高網(wǎng)站的頁面收錄數(shù)量,我們要讓自己變得更加主動。換句話說,就是自己掌握主動權(quán)。與其坐等蜘蛛上門,不如引導(dǎo)收錄。
網(wǎng)站地圖
網(wǎng)站地圖又稱站點地圖,它就是一個頁面,上面放置了網(wǎng)站上所有頁面的鏈接。大多數(shù)人在網(wǎng)站上找不到自己所需要的信息時,可能會將網(wǎng)站地圖作為一種補救措施。搜索引擎蜘蛛非常喜歡網(wǎng)站地圖。
為什么要建立網(wǎng)站地圖呢?大多數(shù)人都知道網(wǎng)站地圖對于提高用戶體驗有好處:它們?yōu)榫W(wǎng)站訪問者指明方向,并幫助迷失的訪問者找到他們想看的頁面。對于搜索引擎優(yōu)化,網(wǎng)站地圖的好處就更多了:
1.為搜索引擎蜘蛛提供可以瀏覽整個網(wǎng)站的鏈接。
2.為搜索引擎蜘蛛提供一些鏈接,指向動態(tài)頁面或者采用其他方法比較難以到達的頁面。
3.作為一種潛在的著陸頁面,可以為搜索流量進行優(yōu)化。
4.如果訪問者試圖訪問網(wǎng)站所在域內(nèi)并不存在的URL,那么這個訪問者就會被轉(zhuǎn)到“無法找到文件”的錯誤頁面,而網(wǎng)站地圖可以作為該頁面的“準”內(nèi)容。
7新站收錄
百度不收錄新站的解決方法:
(1)***hao等網(wǎng)站的所有內(nèi)容都完工后再上傳到網(wǎng)站空間
?。?)網(wǎng)站上傳后,到百度提交下網(wǎng)站:幾大搜索引擎的網(wǎng)站登錄入口
(3)到百度搜藏注冊3-5個賬號,然后收藏網(wǎng)址
(4)到樂收,好望角等網(wǎng)絡(luò)收藏夾收藏網(wǎng)址
(5)到百度貼吧,A5等權(quán)重高的網(wǎng)站發(fā)布鏈接誘餌(帶上自己的網(wǎng)址),引誘百度蜘蛛過來爬去
(6)第1個月每天有規(guī)律的更新2-5篇原創(chuàng)文章
(7)不要采取SEO方式優(yōu)化
基本上按照上面的操作步驟,1-30天內(nèi)都能收錄首頁。如果過了1個月,網(wǎng)址還沒有收錄,您可以嘗試把首頁的布局做個改版。