认识爬虫

etedyh 2019-12-27

爬虫分为两种:
1.通用爬虫。
2.聚焦爬虫。

通用爬虫:搜索引擎用的爬虫系统。
一.目标:爬取所有网站的网页下载下来,存放到本地服务器里形成备份。

二.抓取流程:
a.首选选取一部分已有的url,把这些url放到待爬取队列。
b.从队列里取出这些URL,然后解析DNS得到主机IP,然后去找个IP对应的服务器里下载HTML页面,保存到搜索引擎的服务器里。
之后把这个爬过的URL放入已爬过的队列。
c.分析这些网页内容,找出网页里其他的url连接,继续执行第二部,直到爬虫任务结束。

三.搜索引擎如何获取一个新网站的URL
1.主动提交
2.在其他网站里设置网站的外链
3.搜索引擎和DNS服务器合作,可以快速收录网站。

四,通用爬虫并不是万物皆可爬,需要遵守规则。
Robots协议:协议会指明通用爬虫可以爬取的网页权限。
Robots.txt 并不是所有爬虫的遵守,一般只有大型的搜索引擎爬虫才会遵守。

个人自己写的爬虫就不管了!

五:工作流程:爬取网页--存储数据--内容处理--提供检索/排名服务

六搜索引擎排名:
1.PageRank值:根据网站的流量(点击量/浏览量/人气)统计流量越高,排名越高,越值钱。
2.竞价排名:谁给钱多,谁排名高。

七缺点:
1.只能提供文本相关的内容(HTML,WORD,PDF)等等,不能提供多媒体(音乐,图片,视频)和二进制文件(程序,脚本...)
2.提供的结果千篇一律,不能针对不同背景不同领域的结果。
3.不能理解人类语义上的检索。

聚焦爬虫:程序员写的针对某种内容的爬虫。
面向主题爬虫,面向需要爬虫:会针对某种特定的内容爬取信息,尽可能和需求相关。

相关推荐