下載日志,再使用工具editplus打開日志
一、查看有沒有大量重復訪問的IP
一般這種IP都是搜索引擎抓取IP段,比如谷歌蜘蛛抓?。℅ooglebot),百度蜘蛛抓取(Baiduspider、Baiduspider-render)。
注意:Baiduspider-render是訪問網站的 CSS、Javascript 和圖片信息。
如果查看到這個蜘蛛出現的次數很多,而客戶網站圖片又比較大,則消耗的流量就會增加,建議把圖片處理小。
IP段:
谷歌蜘蛛(Googlebot):
百度蜘蛛(Baiduspider):
百度蜘蛛(Baiduspider-render):
針對以上的異常蜘蛛抓取,處理方法如下:
1、在后臺robots禁止谷歌抓取
User-agent: Googlebot
Disallow: /
參考位置,加在這里:
2、調低百度蜘蛛抓取頻率。
登陸百度站長調整。
3、還有個方法,就是幫屏蔽這些抓取IP(僅限客戶自有服務器)。
二、移動端抓取
思途cms系統,后臺做的robots屏蔽僅針對PC端,手機端沒做。
但可以把robots屏蔽里面的代碼另存為txt文檔,上傳到服務器手機端根目錄下。
主要就是1、2點,屏蔽搜索引擎的大量抓取,再觀察后續流量是否降低。
其他處理(針對網站優化)
三、屏蔽列表頁抓取
為什么要屏蔽搜索引擎抓取列表頁?
原因:列表頁url很長,收錄也沒內容,對于排名沒作用,還會分散權重
看日志里,搜索引擎訪問的頁面鏈接地址,分辨列表頁:
以上這些就是列表頁,可以看到搜索引擎抓取了很多列表頁。
Disallow: /*-*
Disallow: /*?*
用這段代碼,屏蔽搜索引擎抓取列表頁。
可以加在這個位置:
四、處理404頁面
訪問日志中如看到大量404頁面,就要去百度站長提交處理死鏈
在HTTP/1.1 后面,是404就表示訪問的頁面已經不在了,死頁面,要處理;
后面顯示200,就表示正常抓取,頁面存在
其他要點:
在網址后面+robots.txt 可以不登錄后臺就看到它的robots設置。
會員評論