增量式爬虫

概念：监测网站数据更新的情况。

核心：去重！！！

主要有两种情况：

深度爬取类型

深度爬取类型的网站中需要对详情页的url进行记录和检测

记录:将爬取过的详情页的url进行记录保存
- url存储到redis的set中

检测：如果对某一个详情页的url发起请求之前先要取记录表中进行查看，该url是否存在，存在的话认为着这个url已经被爬取过了。

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from zjs_moviePro.items import ZjsMovieproItem

class MovieSpider(CrawlSpider):
    name = ‘movie‘
    conn = Redis(host=‘127.0.0.1‘,port=6379)
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://www.4567tv.tv/index.php/vod/show/id/6.html‘]

    rules = (#/index.php/vod/show/id/6/page/2.html
        Rule(LinkExtractor(allow=r‘id/6/page/\d+\.html‘), callback=‘parse_item‘, follow=False),
    )

    
    def parse_item(self, response):
        li_list = response.xpath(‘/html/body/div[1]/div/div/div/div[2]/ul/li‘)
        for li in li_list:
            name = li.xpath(‘./div/div/h4/a/text()‘).extract_first()
            detail_url = ‘https://www.4567tv.tv‘+li.xpath(‘./div/div/h4/a/@href‘).extract_first()
            ex = self.conn.sadd(‘movie_detail_urls‘,detail_url)
            if ex == 1:#向redis的set中成功插入了detail_url
                print(‘有最新数据可爬......‘)
                item = ZjsMovieproItem()
                item[‘name‘] = name
                yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={‘item‘:item})
            else:
                print(‘该数据已经被爬取过了！‘)
                
                
    def parse_detail(self,response):
        item = response.meta[‘item‘]
        desc = response.xpath(‘/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()‘).extract_first()
        item[‘desc‘] = desc

        yield item

非深度爬取类型

核心名词：数据指纹

一组数据的唯一标识

增量式爬虫

增量式爬虫

深度爬取类型

非深度爬取类型

chenqunhui

相关推荐

9.11、mysql增量备份和增量恢复介绍

离线数据全量导入与增量导入方案

服务器正确的备份方式，按这个做了保证万无一失

Android增量升级简单实现,附源码

sphinx 增量索引

[Android] 动态加载组件实现客户端增量更新

Win10：如何借助Windows手动更新下载安装增量更新

微软将为Win10预览版进行增量更新明年年初推出Win10消费者预览版

移动端的增量更新 - 点滴

iOS端实现React Native差异化增量更新

gulp4增量编译

大前端时代下的微前端架构：增量升级、代码解耦、独立部署

移动app增量升级测试需注意的问题

使用KETTLE从mysql同步增量数据到oracle

前端遇上 Go：静态资源增量更新的新实践

史上最快、最强大的 Gradle 5.0 发布，新特性全解！

大规模数据集增量处理系统 Apache Fluo

数据结构与算法大全 | 希尔排序

Oracle物化视图增量刷新测试

使用RMAN增量备份来更新传输表空间

Linux下的增量备份小程序

Coreseek 增量索引模拟实时索引

ElasticSearch MySQL 增量同步

FreeBSD系统下rsync + SSH增量备份文件

mysql增量备份及断点恢复脚本实例

elasticsearch logstash jdbc 配置增量更新

Oracle物化视图，物化视图日志，增量刷新同步远程数据库

Mac平台与Windows平台下AndroidStudio增量升级