Python Scrapy图片爬取原理及代码实例

荒乱的没日没夜 2020-06-14

1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道

在管道文件对图片进行下载和持久化存储

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src

      yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径

3.管道类的修改

原本管道类继承的object，处理item对象使用时process_item方法，该方法不能发送请求，要想对图片地址发送请求，需要继承ImagesPipeline类，然后重写该类中的三个方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

  #对某一个媒体资源进行请求发送
  #item就是接收到的spider提交过来的item
  def get_media_requests(self, item, info):
    yield scrapy.Request(item['src'])

  #制定媒体数据存储的名称
  def file_path(self, request, response=None, info=None):
    name = request.url.split('/')[-1]
    print('正在下载：',name)
    return name

  #将item传递给下一个即将给执行的管道类
  def item_completed(self, results, item, info):
    return item

: 荒乱的没日没夜

相关推荐

Python初学者请注意！别这样直接运行python命令，否则电脑等于“裸奔”

Python已经成为全球最受欢迎的编程语言之一。原因当然是Python简明易用的脚本语法，只需把一段程序放入.py文件中，就能快速运行。而且Python语言很容易上手模块。这样设计的好处是，初学者能够非常方便地执行命令。但是对攻击者来说，这等于是为恶意程序

FlySky 0喜欢 / 15评论 2020-11-02

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 0喜欢 / 11评论 2020-10-26

让我们来谈谈python中的prettyprint和pprint

当你开始学习python编程的时候，你做的第一件事是什么?相信我们都已经通过“Hello World”程序开始了我们的python之旅。在python中，它可以在一行中完成：。但是，在使用print()函数打印字典、列表或任何其他复杂数据类型时，您是否遇到

taiyangshenniao 0喜欢 / 0评论 2020-10-05

Python中的高阶概念属性：五个你应该搞明白的知识点

在现代编程世界中，面向对象编程语言在改变软件开发中的设计和实现模式方面发挥了进化作用。作为OOP家族的重要成员，Python在过去10年左右逐渐流行起来。与其他OOP语言一样，Python围绕大量不同的对象操作其数据，包括模块、类和函数。在Python中，

flycony 0喜欢 / 0评论 2020-09-23

Python进阶版：定义类时应用的9种最佳做法

本文转载自公众号“读芯术”。作为一种OOP语言，Python通过支持以对象为主的各种功能来处理数据和功能。尽管可以使用内置数据类型，而且无需创建任何自定义类就能编写一组函数，但随着项目范围的扩大，代码可能会越来越难维护。这些单独代码部分的主题并不相同，尽管

jacktangj 0喜欢 / 0评论 2020-09-18

逐步展开Python详细教学—共享Python经验

在我们开始正文之前，我想知道您为什么学习Python。通过评论来分享你的学习经验和学习过程。我们会在内容中逐步针对读者进行Python讲解。Python编程语言是一种面向对象的语言，这意味着它可以模拟真实世界的实体。Python编程语言诞生于20世纪80年

YENCSDN 0喜欢 / 0评论 2020-09-15

通过代码实例了解Python sys模块

# fetch sys.argv[1] but without the first two characters. This program prints files to the standard output.这个程序用来模仿linux中的cat命令。

lsjweiyi 0喜欢 / 0评论 2020-09-14

基于python实现简单C/S模式代码实例

C/S模式就是指客bai户端/服务器模式，du是计算机软件协同工作的一种模式。由于Web浏览器的兴起，B/S模式逐步取代了daoC/S模式，被更广泛地应用。PC机的资源没有大型、中型甚至小型主机丰富，但将多台PC机联成网，必然会增加资源含量，各个用户都在网

digwtx 0喜欢 / 0评论 2020-09-14

基于python实现简单网页服务器代码实例

# create server, ip is empty, port is 8000, handle function is application. 它实现了wsgi接口，我们只需要定一个wsgi处理函数来处理得到的请求就可以了。用python来实现这些

拾毅者 0喜欢 / 0评论 2020-09-14

python输入中文的实例方法

方法二：unicode()转码，声明是gbk，对文字打印指明是utf-8即可，不强调是gbk编码。

AwesomeCyber 0喜欢 / 0评论 2020-09-14

python文件排序的方法总结

在python环境中提供两种排序方案：用库函数sorted()对字符串排序，它的对象是字符；用函数sort()对数字排序，它的对象是数字，如果读取文件的话，需要进行处理。从图片可以清晰的看出，文件名是按字符排序的。可以看出，文件名是按数字排序的；顺便提下，

zlxcsdn 0喜欢 / 0评论 2020-09-13

三分钟看懂Python和Java的区别

随着人工智能的火爆，Python和Java一直在各种流行编程语言中名列前茅。其实Java和Python有些相似，因为很多编程语言之间是互通的。Java现在还是第一，不知道Python未来会不会超越Java，但是现在有些人不明白Python和Java的区别。

weiiron 0喜欢 / 0评论 2020-08-17

Python代码注释规范代码实例解析

注释就是对代码的解释和说明，其目的是让人们能够更加轻松地了解代码。注释是编写程序时，写程序的人给一个语句、程序段、函数等的解释或提示，能提高程序代码的可读性。在有处理逻辑的代码中，源程序有效注释量必须在20％以上。单行注释可以作为单独的一行放在被注释代码行

amazingbo 0喜欢 / 0评论 2020-08-16

Python编写memcached启动脚本代码实例

memcached是一套分布式的高速缓存系统，由LiveJournal的Brad Fitzpatrick开发，但被许多网站使用。这是一套开放源代码软件，以BSD license授权发布。memcached缺乏认证以及安全管制，这代表应该将memcached

郗瑞强 0喜欢 / 0评论 2020-08-16

Python读取xlsx数据生成图标代码实例

labels=[item[0] for item in lst_total] #使用列表生成式，得到饼图的标签。pit.rcParams['font.family']=['SimHei'] #单独的表格乱码的处理方式

lispython 0喜欢 / 0评论 2020-08-16

大数据获取案例：Python网络爬虫实例

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。用来获取新冠肺炎的实时数据。使用的工具PyCharm新建Python文件，命名为get_data使用爬虫最常用的request模

fengling 0喜欢 / 0评论 2020-08-15

盘点 Python 10 大常用数据结构（上篇）

如果你还处于Python入门阶段，通常只需掌握list、tuple、set、dict这类数据结构，做到灵活使用即可。因为相比于list, tuple实例更加节省内存，这点尤其重要。并且set内允许增删元素，且效率很高。但是值得注意，dict占用字节数是li

xiesheng 0喜欢 / 0评论 2020-08-02

python 类与对象

实例变量就是对象个体特有的“数据”。在定义_init_() 方法时，它的第一个参数应该是self，之后的参数用来初始化实例变量。调用构造方法是不需要传入self参数。类方法可以访问类变量和其他类方法，但不能访问其他实例方法和实例变量。在上面例子中，cls.

葫芦小金刚 0喜欢 / 0评论 2020-07-28

Python staticmethod() 函数

python staticmethod 返回函数的静态方法。/usr/bin/python # -*- coding: UTF-8 -*- class C: @staticmethod def f(): print; C.f(); # 静态方法无需实例化

StevenSun空间 0喜欢 / 0评论 2020-07-26

python中的类

它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。class Person:#object 是python中的基类，所有自定义的类都是基于object，可写可不写。2 name=‘zhangsan‘ # name 就是Person

Jonderwu 0喜欢 / 0评论 2020-07-19

python面向对象，类

类中的函数叫方法。对象是数据和操作的封装。　　　　多继承少修改。　　　　面向对象编程最灵活的地方，动态绑定。　　必须使用class关键字。　　类名必须使用大驼峰命名。　　类定义完成后，就产生了一个类对象，绑定到了ClassName上。MyClass()实际

Greatemperor 0喜欢 / 0评论 2020-07-18

python 内置函数

class Role: def __init__:#内置函数，程序启动自动调用 self.name = name self.role = role self.weapon = weapon se

outwater 0喜欢 / 0评论 2020-07-05

让你的代码更赏心悦目，介绍10个重要的Python技巧

Python可以说是近5年来增长速度最快、应用最广泛的，并且是世界范围内最受欢迎的编程语言之一；今天，我来给大家讲讲10个我个人觉得非常实用，但并不是所有人都知道的Python编程技巧；Python语言在设计之初，其实就有在考虑他语法的简洁性和可读性；可能

ciqingloveless 0喜欢 / 0评论 2020-07-03

python crawler 爬虫学习资料【干货】

演示了从种子站点开始，爬取所有网页链接和图片链接的方法，异步爬虫的实现方法，以及Scrapy实现爬虫方法，并做了几种爬虫性能上的对比。How to Create a Web Crawler From Scratch in Python. How To De

JnX 0喜欢 / 0评论 2020-06-27

python之面向对象4

#:创建我们的类‘‘‘类的作用描述一个人的形象‘‘‘class persion: def __init__: self.name = name self.age = age self.rmb = rmb

生物信息学 0喜欢 / 0评论 2020-06-22

python + selenium 刷B站播放量的实例代码

首先做up主最直接的就是做视频，当你的粉丝过1000或者视频总播放超过10万时可以申请创造激励，申请创造激励之后，你的原创视频播放会给你带来收益，平均1000播放3元左右，根据你视频的质量上下浮动，如果你的视频被顶上首页那很自然的你的视频你会获得大量的流量

allentony 0喜欢 / 0评论 2020-06-14

Python call详解

关于 call 方法，不得不先提到一个概念，就是可调用对象，我们平时自定义的函数、内置函数和类都属于可调用对象，但凡是可以把一对括号()应用到某个对象身上都可称之为可调用对象，判断对象是否为可调用对象可以用函数 callable. 如果在类中实现了 cal

JackLang 0喜欢 / 0评论 2020-06-14

[Python自学] PyQT5-QLabel、QLineEdit、QTextEdit控件

将鼠标停在控件上，可以显示一个提示的信息。QToolTip.setFont # 设置提示信息的字体。除了给窗口可以添加提示信息，给其他控件也是可以添加的，方法一致。label1.setText # 设置label1的文本内容。在以上代码中，我们创建了四

kikaylee 0喜欢 / 0评论 2020-06-12

Python-面向对象

Python从设计之初就已经是一门面向对象的语言，正因为如此，在Python中创建一个类和对象是很容易的。本章节我们将详细介绍Python的面向对象编程。如果你以前没有接触过面向对象的编程语言，那你可能需要先了解一些面向对象语言的一些基本特征，在头脑里头形

adamlovejw 0喜欢 / 0评论 2020-06-11

Python中的魔法方法(一)

print#通过结果可以看到这里如果是正常的创建一个类，是可以通过对象来增加自身的属性。# 现在加入slots这个魔法函数查看效果。这里可以看到，通过slots来控制对象的一个属性创建，输出了name,但如果实例本身想要创建一个新的属性的时候就会抛出异常。

清水寺小僧 0喜欢 / 0评论 2020-06-10

通俗易懂之Python 面向对象中的方法及属性

def walk: #实例方法，a = A()--a.walk(). @staticmethod #静态方法, A().sta(). @property #静态属性, a = A()--a.pro. def __privatefunc:#私有方法,只有内部

HongKongPython 0喜欢 / 0评论 2020-06-09

Python语言及其应用PDF高清完整版免费下载|百度云盘|python基础教程PDF电子书

本书介绍Python 语言的基础知识及其在各个领域的具体应用，基于最新版本3.x。书中首先介绍了Python 语言的一些必备基本知识，然后介绍了在商业、科研以及艺术领域使用Python 开发各种应用的实例。文字简洁明了，案例丰富实用，是一本难得的Pytho

GhostLWB 0喜欢 / 0评论 2020-06-08

《21天学通Python》PDF免费下载|百度网盘|python零基础知识入门学习方法

《21天学通Python》全面、系统、深入地讲解了Python编程基础语法与高级应用。在讲解过程中，通过大量实际操作的实例将Python语言知识全面、系统、深入地呈现给读者。此外，作者专门为本书录制了大量的配套教学视频，让读者通过分析实例、运行实例尽快熟悉

xmwang0 0喜欢 / 0评论 2020-06-08

python面向对象(一)

# 基本格式,类中的方法与函数类似，但是参数中多了self参数。<__main__.boj object at 0x0000000002808978> q<__main__.boj object at 0x00000000021E8978

小方哥哥 0喜欢 / 0评论 2020-06-07

如何在交互式环境中执行Python程序

相信接触过Python的小伙伴们都知道运行Python脚本程序的方式有多种，目前主要的方式有：交互式环境运行、命令行窗口运行、开发工具上运行等，其中在不同的操作平台上还互不相同。今天，小编讲些Python基础的内容，以Windows下交互式环境为依托，演示

typhoonpython 0喜欢 / 0评论 2020-06-06

python_面向对象_组合

# 什么时候使用组合：当两个类之间的关系是：什么有什么的关系 : 班级有学生学生有班级班级有课程图书有作者学生有成绩。linux_course.price=15000 #组合的好处，只需要修改作为属性的类对象的属性值，就可以修改到所有将此对象

laohyx 0喜欢 / 0评论 2020-06-02

Python的私有变量和私有方法

默认情况下，Python中的成员函数和成员变量都是公开的,在python中没有类似public,private等关键词来修饰成员函数和成员变量。其实，Python并没有真正的私有化支持，但可用下划线得到伪私有。尽量避免定义以下划线开头的变量！

LULUBAO 0喜欢 / 0评论 2020-06-02

python （call）详解

关于 __call__ 方法，不得不先提到一个概念，就是可调用对象。我们平时自定义的函数、内置函数和类都属于可调用对象，但凡是可以把一对括号()应用到某个对象身上都可称之为可调用对象，判断对象是否为可调用对象可以用函数 callable. 你也许已经知道，

JamesRayMurphy 0喜欢 / 0评论 2020-06-01

用 Python 实现每秒处理 120 万次 HTTP 请求

用 Python 做到每秒处理上百万次 HTTP 请求，可能吗？也许不能，但直到最近，这已成为现实。很多公司都在为了提升程序的执行性能和降低服务器的运营成本，而放弃 Python 去选择其它编程语言，其实这样做并不是必须，因为 Python 完全可以胜任这

JakobHu 0喜欢 / 0评论 2020-05-27

分别给Python类和实例增加属性和方法

#给类增加一个属性name. #而其它的实例对象并没有set_score方法。print s.score #‘Student‘ object has no attribute ‘score‘

zhuquan0 0喜欢 / 0评论 2020-05-25

Python 条件语句

Python条件语句是通过一条或多条语句的执行结果来决定执行的代码块。Python程序语言指定任何非0和非空值为true，0 或者 null为false。其中"判断条件"成立时（非零），则执行后面的语句，而执行内容可以多行，以缩进来区分

xirongxudlut 0喜欢 / 0评论 2020-05-17

Python面向对象

self.db_info = {‘user‘: user, ‘password‘: password, "db": db, "port": port, ‘charset‘: charset,self.conn = p

taiyangshenniao 0喜欢 / 0评论 2020-05-12

基于python实现上传文件到OSS代码实例

在python环境中，输入一下内容，如果有错误信息，则说明扩展库安装不成功，默认安装oss2的时候会安装扩展库。# 阿里云主账号AccessKey拥有所有API的访问权限，风险很高。# Endpoint以杭州为例，其它Region请按实际情况填写。# 必须

zjLink 0喜欢 / 0评论 2020-05-09

Python reduce函数作用及实例解析

在python3中，内置函数中已经没有reduce了。要使用reduce，需要从functools模块里引入。可以看到，reduce有三个参数，第一个是函数function，第二个是序列sequence，第三个是initial，为初始值，默认为None

猛禽的编程艺术 0喜欢 / 0评论 2020-05-08

Python MongoDB Limit

要限制 MongoDB 中的结果，我们使用limit()方法。limit()方法接受一个参数，定义的数字表示返回的文档数。{‘_id‘: 1, ‘name‘: ‘John‘, ‘address‘: ‘Highway37‘}. {‘_id‘: 6, ‘nam

Laozizuiku 0喜欢 / 0评论 2020-05-09

Python Try Except

try块允许您测试代码块以查找错误。finally块允许您执行代码，无论 try 和 except 块的结果如何。当我们调用 Python 并发生错误或异常时，通常会停止并生成错误消息。您可以根据需要定义任意数量的 exception 块，例如，假如您要为

czsay 0喜欢 / 0评论 2020-05-09

python-类的基本使用

class Dog(): # 类以class开头，类的名字使用驼峰体命名。不加()为经典类，加()为新式类。def __init__: # 初始化方法，实例化的时候会自动执行，会进行一些初始化工作。看我使用d.say_hello(),并没有传递任何的参数

chenlxhf 0喜欢 / 0评论 2020-05-06

python 面向对象（三）

类是现实世界或思维世界的实体在计算机中的反映。它将数据以及这些数据上的操作封装在一起。把类比作一个模版，通过这个模版可以产生很多个对象。Step 1.在实例化后几个对象不相同

wangqing 0喜欢 / 0评论 2020-05-05

python基础 13 类命名空间于对象、实例的命名空间，组合方法

在obj.name会先从 obj 自己的名称空间里找name，找不到则去类中找，类也找不到就找父类...最后都找不到就抛出异常。self.name = name # 每一只狗都有自己的昵称;# 狗可以咬人，这里的狗也是一个对象。self.weapon =

bcbeer 0喜欢 / 0评论 2020-05-02