了解過搜索引擎爬蟲抓取爬行的可能會有一個比較清晰的答案,是的就是幫助爬蟲盡可能的抓取頁面,只有被讀取到的頁面才有可能被收錄。
扁平化的結(jié)構(gòu)將網(wǎng)站的頁面盡可能的直接展示在蜘蛛爬蟲面前或者很容易被爬蟲發(fā)現(xiàn),不需要一個層級一個層級的深入挖掘,除非知名站點或大型網(wǎng)站能夠享有這種特權(quán)。因為整個互聯(lián)網(wǎng)的數(shù)據(jù)量是相當龐大的,而每天更新的信息量現(xiàn)有的蜘蛛資源都很難去實現(xiàn)完全抓取,還有些頁面每天會被蜘蛛重復(fù)抓取,所以這就需要蜘蛛舍棄一些,所以也就出現(xiàn)了抓取策略,對低質(zhì)量的網(wǎng)站降低抓取量,很難發(fā)現(xiàn)新頁面的網(wǎng)站將資源全都消耗在頁面的重復(fù)抓取上面。
贊
5
有一點幫助
1
沒有幫助
參與評論