當(dāng)搜索引擎蜘蛛抓取網(wǎng)站的時候,每一次都會有一個返回碼,表示本條內(nèi)容抓取的狀態(tài),我們可以通過網(wǎng)站日志中查看這些返回碼信息,來提升青島網(wǎng)站建設(shè)的優(yōu)化效果。
你把IIS日志從空間下到自己電腦,然后用文本工具打開;
2010-05-1415:52:03W3SVC1121。187。5。143GET/category-8-b0-min1100-max2200.html-80-220.181.7.74Baiduspider+(+baidu/search/spider.htm)20000分析下20000組成部分sc-status(協(xié)議狀態(tài))sc-substatus(協(xié)議子狀態(tài))sc-win32-status(Win32狀態(tài)碼)
sc-status(協(xié)議狀態(tài)):200連接成功
sc-substatus(協(xié)議子狀態(tài)):0成功
sc-win32-status(Win32狀態(tài)碼):0代表抓取成功并帶回數(shù)據(jù)庫;64指定的網(wǎng)絡(luò)名不再可用
1:在這個訪問記錄里面121.187.5.143是你服務(wù)器的IP地址,220.181.7.74是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html為蜘蛛訪問你的頁面80是端口GET是打開方式W3SVC1是記錄的文件夾,這里說明,bd蜘蛛已經(jīng)訪問了你的category-8-b0-min1100-max2200.html這個頁面,那么最重要的是最后面的這個參數(shù)20000。
2、20000成功訪問該頁面,0代表抓取成功并帶回數(shù)據(jù)庫。這個時候你就放心了,這個頁面已經(jīng)被bd收錄,但是還沒有釋放出來,bd更新時就可能釋放出來。
3:200064網(wǎng)絡(luò)上流傳著這么三種解釋
第164為K站的前兆。
第264的出現(xiàn)只是64位操作系統(tǒng)。
第三:網(wǎng)絡(luò)不可達,由于某種原因無法完全打開頁面,或者網(wǎng)絡(luò)不穩(wěn)定這些原因,導(dǎo)致蜘蛛無法帶回頁面或者說不抓取該頁面,
所以200064的解釋也應(yīng)該為:訪問了該頁面,但并沒有任何抓取也沒有帶回數(shù)據(jù)庫。這種原因多為空間不穩(wěn)定、服務(wù)器不穩(wěn)定。
或者說是蜘蛛訪問了但快照不更新
4:30400這個返回碼代表蜘蛛訪問的頁面沒有更新,和他之前來的時候是一樣的,所以看到這個不要擔(dān)心,蜘蛛來過,只不過你沒有更新,所以他也不愿意帶走這個頁面。
5:40400這個是代表404頁面,但是有個很嚴(yán)重的問題,這個返回碼告訴我們,蜘蛛來到了404頁面并把他帶走了
,要是這樣的話基本上你要倒霉了,要你有太多的404,那么蜘蛛就會不斷是抓取,不斷的帶走,這樣會造成無數(shù)的重復(fù)頁面,最終導(dǎo)致K站或者降權(quán),
正確的返回碼是404064這就代表蜘蛛沒有抓取你這個頁面。(好像是內(nèi)容有死鏈的意思)
6:500錯誤500錯誤是服務(wù)器內(nèi)部錯誤,是由程序的錯誤造成的,我不懂程序,但是500錯誤是會給你減分的,這點基本的邏輯都可以想的到,要發(fā)現(xiàn)500錯誤,馬上查看是哪個頁面的,然后去修正以下錯誤吧!
7:302要在日志中發(fā)現(xiàn)302的返回碼也是需要注意的,302為臨時重定向,要你是長期的將這個頁面重定向到另一個頁面,麻煩你使用301永久重定向,要是302的話bd蜘蛛下次來還會訪問這個頁面,這樣又會造成復(fù)制大量頁面的問題,結(jié)果肯定是K,所以,抽空檢查以下。
每個網(wǎng)絡(luò)蜘蛛都有自己的名字,在抓取網(wǎng)頁的時候,都會向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時候會發(fā)送一個請求,這個請求中就有一個字段為User-agent,用于標(biāo)識此網(wǎng)絡(luò)蜘蛛的身份。例如Google網(wǎng)絡(luò)蜘蛛的標(biāo)識為GoogleBot,Baidu網(wǎng)絡(luò)蜘蛛的標(biāo)識為BaiDuSpider,Yahoo網(wǎng)絡(luò)蜘蛛的標(biāo)識為InktomiSlurp。
返回碼大全:
2xx成功200正常;請求已完成。201正常;緊接POST命令。202正常;已接受用于處理,但處理尚未完成。203正常;部分信息—返回的信息只是一部分。204正常;無響應(yīng)—已接收請求,但不存在要回送的信息。3xx重定向301已移動—請求的數(shù)據(jù)具有新的位置且更改是永久的。302已找到—請求的數(shù)據(jù)臨時具有不同URI。303請參閱其它—可在另一URI下找到對請求的響應(yīng),且應(yīng)使用GET方法檢索此響應(yīng)。304未修改—未按預(yù)期修改文檔。305使用代理—必須通過位置字段中提供的代理來訪問請求的資源。306未使用—不再使用;保留此代碼以便將來使用。4xx客戶機中出現(xiàn)的錯誤400錯誤請求—請求中有語法問題,或不能滿足請求。401未授權(quán)—未授權(quán)客戶機訪問數(shù)據(jù)。402需要付款—表示計費系統(tǒng)已有效。403禁止—即使有授權(quán)也不需要訪問。404找不到—服務(wù)器找不到給定的資源;文檔不存在。407代理認證請求—客戶機首先必須使用代理認證自身。415介質(zhì)類型不受支持—服務(wù)器拒絕服務(wù)請求,因為不支持請求實體的格式。5xx服務(wù)器中出現(xiàn)的錯誤500內(nèi)部錯誤—因為意外情況,服務(wù)器不能完成請求。501未執(zhí)行—服務(wù)器不支持請求的工具。502錯誤網(wǎng)關(guān)—服務(wù)器接收到來自上游服務(wù)器的無效響應(yīng)。503無法獲得服務(wù)—由于臨時過載或維護,服務(wù)器無法處理請求。
如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過來過,什么時候過來的,以及讀了多少數(shù)據(jù)等等。
根據(jù)不同的IP我們可以分析網(wǎng)站是個怎樣的狀態(tài).下面就按照我IIS日記上的百度蜘蛛IP為例:123.125.68.*這個蜘蛛經(jīng)常來,別的來的少,表示網(wǎng)站可能要進入沙盒了,或被者降權(quán)。220.181.68.*每天這個IP段只增不減很有可能進沙盒或K站。220.181.7.*、123.125.66.*代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西。121.14.89.*這個ip段作為度過新站考察期。203.208.60.*這個ip段出現(xiàn)在新站及站點有不正?,F(xiàn)象后。210.72.225.*這個ip段不間斷巡邏各站。125.90.88.*廣東茂名市電信也屬于百度蜘蛛IP主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的。220.181.108.95這個是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網(wǎng)站會天天隔夜快照,絕對錯不了的,我保證。220.181.108.92同上98%抓取首頁,可能還會抓取其他(不是指內(nèi)頁)220.181段屬于權(quán)重IP段此段爬過的文章或首頁基本24小時放出來。123.125.71.106抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。220.181.108.91屬于綜合的,主要抓取首頁和內(nèi)頁或其他,屬于權(quán)重IP段,爬過的文章或首頁基本24小時放出來。220.181.108.75重點抓取更新文章的內(nèi)頁達到90%,8%抓取首頁,2%其他。權(quán)重IP段,爬過的文章或首頁基本24小時放出來。220.181.108.86專用抓取首頁IP權(quán)重段,一般返回代碼是30400代表未更新。123.125.71.95抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。123.125.71.97抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。220.181.108.89專用抓取首頁IP權(quán)重段,一般返回代碼是30400代表未更新。220.181.108.94專用抓取首頁IP權(quán)重段,一般返回代碼是30400代表未更新。220.181.108.97專用抓取首頁IP權(quán)重段,一般返回代碼是30400代表未更新。220.181.108.80專用抓取首頁IP權(quán)重段,一般返回代碼是30400代表未更新。220.181.108.77專用抓首頁IP權(quán)重段,一般返回代碼是30400代表未更新。123.125.71.117抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。220.181.108.83專用抓取首頁IP權(quán)重段,一般返回代碼是30400代表未更新。注:以上IP尾數(shù)還有很多,但段位一樣的123.125.71.*段IP代表抓取內(nèi)頁收錄的權(quán)重比較低.可能由于你采集文章或拼文章暫時被收錄但不放出來.(意思也就是說待定)。220.181.108.*段IP主要是抓取首頁占80%,內(nèi)頁占30%,這此爬過的文章或首頁,絕對24小時內(nèi)放出來和隔夜快照的,這點我可以保證!一般成功抓取返回代碼都是20000返回30400代表網(wǎng)站沒更新,蜘蛛來過,如果是200064別擔(dān)心這不是K站,可能是網(wǎng)站是動態(tài)的,所以返回就是這個代碼。
|