User-agent: *
Disallow: /dede/
但是,如果有人要破解網(wǎng)站的話,通過robots文件很容易就知道了后臺地址,清楚了網(wǎng)站的結(jié)構(gòu)。這對網(wǎng)站安全造成了威脅,我們并不希望這樣!下面有兩種方法解決這個問題
User-agent: *
Disallow: /d*/
這種的寫法是禁止所有的搜索引擎抓取根目錄下d開頭的目錄。那么,當你的后臺是dede5的時候,還有誰會猜得到呢?
User-agent: *
Disallow: /de/
這樣寫是禁止所有的搜索引擎抓取根目錄下de開頭的目錄。如果你的其他欄目有de開頭的,你就要在robots.txt文件里面多寫一個字母。
]]>Robots 協(xié)議有什么作用呢?
robots協(xié)議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓?。豢梢云帘我恍┚W(wǎng)站中比較大的文件,如:圖片,音樂,視頻等,節(jié)省服務器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容;設置網(wǎng)站地圖連接,方便引導蜘蛛爬取頁面。
讓我們來了解下 Robots 都有哪些寫法
User-agent: * 這里的 * 代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm“為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow: /ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以”.htm”為后綴的URL?!?br />
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
Sitemap: 網(wǎng)站地圖 告訴爬蟲這個頁面是網(wǎng)站地圖
robots.txt文件應該放置在網(wǎng)站根目錄下。當搜索引擎的爬蟲們進入網(wǎng)站時首先會檢查該網(wǎng)站中是否存在 robots.txt 這個文件,如果爬蟲找到這個文件,它就會根據(jù)這個文件的內(nèi)容,來確定它訪問權(quán)限的范圍。