唐爱平的blog 2019-06-21
robots.txt 是一个纯文本 txt 文件,主要是为百度蜘蛛准备的,与我们用户没有丝毫关系,它是百度蜘蛛访问网站的时候要查看的第一个文件,robots.txt 文件告诉百度蜘蛛在服务器上什么文件是可以被查看的,哪些网页可以收录,哪些不允许收录,对与 seo 优化而言,放置一个 robots.txt 是对搜索引擎有好的表现,robots.txt 必须放置在一个站点的根目录下,且文件名必须全部小写。
robots.txt 主要作用是保障网络安全与网站隐私,百度蜘蛛遵循 robots.txt 协议。通过根目录中创建的纯文本文件 robots.txt,网站就可以声明哪些页面不想被百度蜘蛛爬行并收录,每个网站都可以自主控制网站是否愿意被百度蜘蛛收录,或者指定百度蜘蛛只收录指定的内容。当百度蜘蛛访问某个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中的内容来确定访问的范围。
User-agent:_ 空白处为定义搜索引擎的类型;
Crawl-delay:_ 空白处为定义抓取延迟;
Disallow:_ 空白处为定义禁止搜索引擎收录的地址;
Allow:_ 空白处为定义允许搜索引擎收录的地址;
禁止所有 SE(搜索引擎)收录网站的某些目录:
User-agent: *
Disallow: / 目录名 1/
Disallow: / 目录名 2/
Disallow: / 目录名 3/
禁止某个 SE(搜索引擎)收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
禁止所有 SE(搜索引擎)收录本站:
User-agent: *
Disallow: /
最近,一个名叫 Magi 的搜索引擎成了重点关注对象,据称这个搜索引擎和我们常见的搜索引擎很不一样,有一种程序员们钟爱的 X 冷淡风格。于是我们打开 Magi 看了看。确实,这个页面看着就很让人舒爽。