說起 robots.txt 文件,很多網站的站長都非法的熟悉,尤其是一些專門研究SEO的從業者們。今天借助這篇博文,詳細介紹一下 robots.txt 文件的作用與書寫方法。

robots.txt是一個寫有 robots 協議的文件,它被放置于網站的根目錄下,通過網址的形式就可以被訪問到。別看它小,但它的作用可不小。

robots.txt怎么寫,robots.txt作用,robots.txt寫法

robots.txt文件的作用

国产视频app1、用來告訴搜索引擎的蜘蛛哪些頁面能被抓取,哪些頁面不能被抓取;

国产视频app2、屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;

国产视频app3、屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;

4、設置網站地圖連接,方便引導蜘蛛爬取頁面。

Robots 協議中的幾個參數

1、自定義搜索引擎

国产视频appUser-agent:來定義搜索引引擎的。如下面代碼:

User-agent: Baiduspider  //百度蜘蛛
User-agent: Googlebot   //谷歌蜘蛛
User-agent: *       //*為通配符,表示所有的蜘蛛

注意:以上代碼中,出現的漢字為注釋說明,在實際的寫法中,不能出現。

2、禁止抓取

国产视频appDisallow:用來指示,要禁止抓取的目錄,或文件。

Disallow: /a/       //禁止抓去a目錄下的任何文件
Disallow: /b/c/      //禁止抓取b目錄中c目錄下的任何文件 
Disallow: index.html   //禁止抓取 index.html 文件

可使用通配符來表示要禁止抓取的目錄或文件

Disallow: /*.css$   //禁止抓取所有CSS文件
Disallow: /*.js$   //禁止抓取所有js文件
Disallow: /*.php$   //禁止抓取所有php文件
Disallow: /*?*     //禁止抓取所有還有參數的文件,比如動態文件
Disallow: /        //禁止抓取所有目錄以及文件

注意:*表示所有,$表示結尾

3、允許抓取

国产视频appAllow:用來表示,允許要抓取的文件或者目錄(一般是配合 Disallow 使用)

Allow: /    //允許抓取所有目錄及文件
Allow: /a/   //允許抓取a目錄

robots.txt 寫法舉例

1、禁止百度抓取網站所有內容

User-agent: Baiduspider
Disallow:/

2、禁止所有搜索引擎訪問

User-agent: *
Disallow: /

3、只允許某個搜索引擎訪問,如下,只允許百度蜘蛛抓取

User-agent: *
Disallow: /
User-agent: Baiduspider
Disallow:

補充資料:

1、以下為淘寶的 robots.txt 中協議的寫法,

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /ershou
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /
User-Agent:  *

Disallow:  /

国产视频app淘寶的 robots.txt 文件中,對一些常用的搜索引擎做了個性化的設置,并利用 Allow 參數 規定了其可以訪并抓取的目錄文件

2、京東商城的 robots.txt 中協議的寫法

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /