网络爬虫介绍

davidchang 2019-11-18

什么是爬虫

网络爬虫也叫网络蜘蛛,是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。简单来讲就是模拟浏览器请求网页。

爬虫的用处

  • Web爬虫作为搜索引擎的重要组成部分
  • 建立数据集以用于研究,业务和其他目的。比如:
       ①收集营销数据,对营销方案决策提供辅助。
       ②分析网民对某件事物的评价,比如新闻事件、电影、书籍等。
       ③分析行业发展趋势,比如房价、薪资水平。
       ④社会计算方面的统计和预测,比如票房。

知识准备

http协议

  • 常用的请求方法GET、POST等
  • 常见的状态码200 OK、400 Bad Request、401 Unauthorized、403 Forbidden、404 Not Found、500 Internal Server Error、503 Server Unavailable等
  • 常用的请求报头:

网络爬虫介绍

前端知识

  • 对HTML、CSS、JavaScript等有一定的掌握

爬虫语言

  • 选择爬虫用的语言,比如python, 掌握python的基本语法、包的下载与使用

爬虫的基本步骤

目标分析-》发送请求-》解析响应页面-》存储内容-》数据分析

python爬虫用到的库

请求库

  • requests: requests库是python的一个第三方请求库,基于urllib库(python用于HTTP请求的自带标准库)改写而成,因此相比urllib库requests更富人性化、便捷性,是爬虫逻辑中使用最频繁的HTTP请求库。
  • Selenium:一个自动化测试工具库,利用它可以执行浏览器特定的动作,比如跳转、输入、点击、下拉等。
  • aiohttp:提供异步Web服务,提高爬虫...

解析库

  • BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它将html的标签文件解析成树结构,然后方便的获取到指定标签的对应属性。BeautifulSoup除了支持Python标准库中的HTML解析器之外,还支持一些第三方的解析器,BeautifulSoup官方推荐使用lxml作为解析器。BeautifulSoup()的构造方法需要传入两个参数:

soup = BeautifulSoup("<html>data</html>",'lxml') //第一个参数是一段网页代码或一个网页文件,第二个参数是解析网页的库,这里使用lxml库.
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象。
    ①Tag:Tag 对象与XML或HTML原生文档中的tag相同,比如soup.p表示p标签
    ②Attributes:一个tag可能有很多个属性. 比如<p class="boldest"> tag的属性的操作方法与字典相同: tag['class']
    ③find()方法是找到文档中符合条件的第一个元素,直接返回该结果。元素不存在时返回None
    ④find_all()方法是找到文档中所有符合条件的元素,以列表的形式返回。元素不存在时返回空列表
    ⑥CSS选择器的使用方法与CSS定位标签的方式相似,主要有.class 和 #id

  • 使用正则表达式,python中的re模块可使用正则表达式进行匹配。
  • pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析html文档

存储内容

  • 数据库,如MySql、MongoDB
  • 文件

数据分析库

  • jieba:是目前最好的 Python 中文分词组件,支持 3 种分词模式:精确模式、全模式、搜索引擎模式,同时支持繁体分词、自定义词典。
  • numpy:高性能科学计算和数据分析的基础包,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
  • pandas:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
  • matplotlib 数据可视化工具,可生成各种2D图像。

简单示例

环境搭建

  • 安装python3.6.5
  • 使用pip install xx 命令依次安装requests、lxml、beautifulsoup4、jieba、numpy、pandas、matplotlib、wordcloud

初阶爬虫示例介绍

  • 爬取豆瓣上关于《权力的游戏第七季》的所有短评
requrl = 'https://movie.douban.com/subject/' + movieId + '/comments' +'?' +'start=' + str(start) + '&limit=20' 
    response = requests.get(requrl) #发送请求
    if response.status_code == 200:
        html = response.text   # 获取响应html内容  
        soup = BeautifulSoup(html, 'lxml') # 构建BeautifulSoup对象,使用lxml作为解析器 
        comment_div_lits = soup.find_all('div', class_='comment')   # 找到对应标签及属性
        for item in comment_div_lits: # 循环
            comment = item.find_all('span', class_='short')[0].string # 获取评论内容
            eachCommentList.append(comment) # 添加到list列表
        return eachCommentList # 返回列表

爬虫框架scrapy

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,用户只需要定制开发几个模块就可以轻松的实现一个爬虫。Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

scrapy组件列表

  • Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
  • Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
  • Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
  • Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
  • Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
  • Downloader Middlewares(下载中间件):位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
  • Spider Middlewares(Spider中间件):介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。

网络爬虫介绍

scrapy运行流程

  • 1、引擎启动触发事务
  • 2、引擎从调度器中取出一个链接(URL)用于接下来的抓取
  • 3、引擎把URL封装成一个请求(Request)传给下载器
  • 4、下载器把资源下载下来,并封装成应答包(Response)
  • 5、爬虫解析Response
  • 6、解析出的实体(Item),则交给实体管道进行进一步的处理
  • 7、解析出的是链接(URL),则把URL交给调度器等待抓取

创建项目步骤

  • 1、使用pip install xx命令安装scrapy、Twisted(异步网络框架处理网络通讯)
  • 2、进入您打算存储代码的目录中,运行下列命令:scrapy startproject tutorial # tutorial为项目名称,自行定义

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

  • scrapy.cfg: 项目的配置文件
  • tutorial/: 该项目的python模块
  • tutorial/items.py: 项目的目标实体文件
  • tutorial/pipelines.py: 项目的管道文件.
  • tutorial/settings.py: 项目的设置文件.
  • tutorial/spiders/: 存储爬虫代码目录

spiders目录下新建爬虫文件:

import scrapy

class testSpider(scrapy.Spider):
    name = "tutorial"
    allowed_domains = ["baidu.com"]
    start_urls = (
        'https://www.baidu.com/',
    )

    def parse(self, response):
        pass

反爬虫与反反爬虫介绍

常见的反爬虫

1、通过网页的请求头

  • User-Agent:这个是保存用户访问该网站的浏览器的信息,例如Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36,requests库本身的headers里没有User-Agent,所以网站可以拒绝掉没有User-Agent或者频繁使用一个User-Agent的请求。
  • Referer:当浏览器发送请求时,一般都会带上这个,表示当前请求是由哪个链接进来的。网站也可以拒绝没有Referer或者频繁使用同个Referer的请求。
  • authorization:有的网站还会有这个请求头,这个是在用户在访问该网站的时候就会分配一个id给用户,然后在后台验证该id有没有访问权限从而来进行发爬虫。

2、用户访问网站的ip

当不断地使用一个ip来访问一个网站时,网页后台也会判断你是一个机器,把你的ip封掉。

3、验证码

当频繁请求一个网址,比如登录时,会出现验证码。

反反爬虫策略

1.添加请求头

在请求头headers添加请求头,比如可以网上找别人整理的User-Agent列表,请求时从列表里随机取出使用。

2.使用代理ip

网上有一些免费的代理ip,比如https://www.xicidaili.com/等,但使用的人太多了也经常被封掉,可以自己爬取一些免费代理ip建成ip池,请求的时候从ip池随机取出使用。也可以购买付费的ip,质量比较高。

3.处理验证码

对于比如登录时只要验证一次的简单图片验证码,可以把验证码图片下载下来,手动输入;对于类似滑块验证码,可以用selenium库模拟用户滑动解锁;对于更复杂的验证码可接入收费的打码平台。

相关推荐