robots.txt

唐爱平的blog 2019-06-21

什么是 robots.txt

robots.txt 是一个纯文本 txt 文件,主要是为百度蜘蛛准备的,与我们用户没有丝毫关系,它是百度蜘蛛访问网站的时候要查看的第一个文件,robots.txt 文件告诉百度蜘蛛在服务器上什么文件是可以被查看的,哪些网页可以收录,哪些不允许收录,对与 seo 优化而言,放置一个 robots.txt 是对搜索引擎有好的表现,robots.txt 必须放置在一个站点的根目录下,且文件名必须全部小写。

robots.txt 作用

robots.txt 主要作用是保障网络安全与网站隐私,百度蜘蛛遵循 robots.txt 协议。通过根目录中创建的纯文本文件 robots.txt,网站就可以声明哪些页面不想被百度蜘蛛爬行并收录,每个网站都可以自主控制网站是否愿意被百度蜘蛛收录,或者指定百度蜘蛛只收录指定的内容。当百度蜘蛛访问某个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中的内容来确定访问的范围。

robots.txt 文件的格式

  • User-agent:_ 空白处为定义搜索引擎的类型;

  • Crawl-delay:_ 空白处为定义抓取延迟;

  • Disallow:_ 空白处为定义禁止搜索引擎收录的地址;

  • Allow:_ 空白处为定义允许搜索引擎收录的地址;

  1. 禁止所有 SE(搜索引擎)收录网站的某些目录:

    • User-agent: *

    • Disallow: / 目录名 1/

    • Disallow: / 目录名 2/

    • Disallow: / 目录名 3/

  2. 禁止某个 SE(搜索引擎)收录本站,例如禁止百度:

    • User-agent: Baiduspider

    • Disallow: /

  3. 禁止所有 SE(搜索引擎)收录本站:

    • User-agent: *

    • Disallow: /

相关推荐