網(wǎng)站robots協(xié)議及robots.txt 文件寫法

Robots之所以稱之為協(xié)議就是因為它不是 “命令” 而是跟搜索引擎爬蟲間的單方面協(xié)議。因而 robots 中的設(shè)置并不意味著100%的生效,但那些知名君子如 Google Yahoo Bing Baidu 等搜索引擎都支持,所謂小人們不管也罷。

Robots 協(xié)議有什么作用呢?

robots協(xié)議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓??;可以屏蔽一些網(wǎng)站中比較大的文件,如:圖片,音樂,視頻等,節(jié)省服務(wù)器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容;設(shè)置網(wǎng)站地圖連接,方便引導(dǎo)蜘蛛爬取頁面。

讓我們來了解下 Robots 都有哪些寫法

User-agent: * 這里的 * 代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm“為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow: /ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以”.htm”為后綴的URL。 
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
Sitemap: 網(wǎng)站地圖 告訴爬蟲這個頁面是網(wǎng)站地圖
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。當(dāng)搜索引擎的爬蟲們進入網(wǎng)站時首先會檢查該網(wǎng)站中是否存在 robots.txt 這個文件,如果爬蟲找到這個文件,它就會根據(jù)這個文件的內(nèi)容,來確定它訪問權(quán)限的范圍。

THE END
亚洲中文色欧另类欧美,久久久久久久激情,亚洲 日韩 欧美 另类 国产,中文字幕高清无码男人的天堂 www.sucaiwu.net