常見(jiàn)的robots.txt文件用法實(shí)例:
1、禁止所有搜索引擎抓取網(wǎng)站的任何部分
User-agent: *
Disallow: /
這是禁止所有目錄和文件被所有搜索引擎收錄。網(wǎng)站還沒(méi)上線時(shí),有的會(huì)先屏蔽所有蜘蛛抓取。
2、允許所有的spider抓?。ɑ蛘咭部梢越ㄒ粋€(gè)空的robots.txt文件)
User-agent: *
Allow: /
這是允許所有搜索引擎抓取網(wǎng)站的任何部分,既然是允許所有文件被抓取,可以不用創(chuàng)建robtos.txt文件,即默認(rèn)全部允許抓取。
3、禁止spider抓取特定目錄
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
這是禁止所有的spider抓取a、b、c目錄。這個(gè)規(guī)則我們最常用到,比如網(wǎng)站的程序后臺(tái)、程序目錄等都可以禁止spider抓取,以減少spider無(wú)意義的浪費(fèi)我們的空間資源。
4、禁止spider抓取搜索結(jié)果頁(yè)面
User-agent: *
Disallow: /so_article?*
如果你網(wǎng)站的搜索結(jié)果頁(yè)面URL格式如:/so_article?keyword=搜索關(guān)鍵字,則按以上格式進(jìn)行屏蔽,注意最后帶了一個(gè)星號(hào)*,代表屏蔽so_article?帶頭的所有URL。
對(duì)于大部分網(wǎng)站,常用的就是以上4種情況。
擴(kuò)展閱讀: