一、Robots功能:
用于約定允許,還是禁止搜索引擎抓取網站內容。
二、概念:
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
三、通常具有以下作用:
(1)在robots中提供SiteMap(網站地圖),為搜索引擎指路,方便搜索引擎抓取網頁內容;
(2)屏蔽網站中一些不必要的網頁,如:搜索結果頁,幫助內容頁等;
(3)屏蔽網站比較大的文件,如:視頻、圖片等,節省服務器帶寬;
(4)屏蔽網站內的一些死鏈接,利于搜升搜索引擎排名提升。
說明(1)
一般網站都會提供網站地圖,便于搜索引擎更好的理解網站的結構,以及理解網頁的重要性關系,思途系統即提供了自動網站地圖功能,自動存放在網站根目錄下。
引導搜索引擎前往抓取的語句:
User-agent: *
Allow:/Sitemap.xml
(注:思途CMS系統提供sitemap生成工具,位置:站長工具 > Sitemap)
說明(2)
列表頁,搜索頁,往往是多條件組合出來的頁面,排列組合下來,數量眾多,重復度高;
網站底部的幫助欄目往往與網站目標關鍵詞無關,從搜索算法角度來講,建議禁止抓取為好。
禁止抓取語句示例:
User-Agent: *
Disallow: /*-* (備注:多條件列表頁)
Disallow: /*?* (備注:搜索頁面以及帶?號的所有頁面)
Disallow: /*help* (備注:底部幫助頁面)
Disallow:/*servers* (備注:底部導航)
說明(3)
視頻,圖片等都很大,搜索引擎爬蟲來抓取時,就會下載這些內容,搜索引擎數量重多,如:百度、google、360、搜狗等等。加上爬行頻次高時,一天會來很多次,這樣就會不斷的請求下載服務器上的這些資源,占用服務器流量。有時會出現網站沒有真實的用戶訪問,但服務器商統計的流量也會很高,往往就是這些原因導致的。
解決這個問題的方法,一般包括:
1、使用外部圖片、視頻服務器;(思途有提供三方服務器支持)
2、壓縮圖片(思途有提供圖片壓縮算法)、視頻大小;
3、禁止搜索引擎抓取。
禁止抓取的語句:
禁止搜索引擎抓取以下格式圖片語句:
User-Agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
說明(4)
網站因為改版,原來的一些鏈接訪問不了,或者錯誤填寫了網址,這些都會帶來錯誤鏈接,即死鏈接,搜索引擎抓取到這些頁面,算法會認為網站的用戶體驗不好,經營者不夠用心等,從而可能降低網站的關鍵排名,因此,利用思途后臺死鏈生成功能,獲取鏈接,通過站長平臺進行死鏈提交,就有利于提升搜索引擎對網站的評價(排名)
禁止某錯誤網址被抓取語句:
User-Agent: *
Disallow: /http://www.xxx.com/aaa.html
(注:思途CMS系統有提供404Sitemap,死鏈地圖生成工具,位置:站長工具 > 死鏈排查。當死鏈頁面數量比較多時,可以使用百度站長工具,提供的批量404頁面提交功能。百度404頁面提交禁止抓取的方法)
首先點擊生成死鏈,生成后點擊復制鏈接地址,到站長平臺進行地址提交。
四、設置位置:
后臺--站長工具--robots設置
更多幫助:
更多Robots的編寫方法:
會員評論