在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

baifanwudi 2020-10-25

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

/前言/

上一篇文章我们讲述了网页结构和Xpath表达式语法知识，感兴趣的小伙伴可以戳这篇文章：网页结构的简介和Xpath语法的入门教程。我们了解到Xpath表达式最好是通过自己进行网页分析和针对性的选取唯一性的标签进行定位，可以提高提取效率，而且还不容易出错。

有了Xpath表达式基础之后，这篇文章我们将通过Xpath表达式来进行提取数据，具体教程如下，仍然以之前的网站为例进行说明，我们的目标数据是标题、发布日期、主题、正文内容、点赞数、收藏数、评论数等。具体的教程如下。

/具体实现/

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）
1、针对标题，在上篇文章中就有提及，其Xpath表达式有多种，任选其一即可，在scrapy shell脚本下进行调试，得到标题的提取方式，并写入到爬虫主体文件中。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

2、接下来是发布日期的提取，仍然是以交互式的方式实现网页与源码之间的交互，如下图所示。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

3、而且标签“entry-meta-hide-on-mobile”具有全局唯一性，可以很方便的定位到元素。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

4、根据网页结构，我们可轻易的写出发布日期的Xpath表达式，可以在scrapy shell中先进行测试，再将选择器表达式写入爬虫文件中，详情如下图所示。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）
这里有部分杂质信息，需要利用strip()和replace()函数剔除多余的杂质，还日期一个“清白”。

5、关于文章主题标签的Xpath表达式，可以看到其在网页结构上处于日期的下方，如下图所示。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

因此可以通过更改一下发布日期的Xpath表达式，即可获取到文章主题标签。

6、文章主题标签处于a标签下，如下图所示。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

获取到整个列表之后，利用join函数将数组中的元素以逗号连接生成一个新的字符串叫tags，然后写入Scrapy爬虫文件中去。

7、对于点赞数，其分析方法同之前一致，找到唯一的一个标签“vote-post-up”即可定位到数据。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

8、细心的小伙伴可能会看到“vote-post-up”属性并不是class标签中唯一一个属性，所以一开始的Xpath表达式匹配的内容为空。

这里给大家安利一个小技巧，如果标签中存在多个属性，且属性是唯一的时候，可以利用contains函数进行助攻，其用法是'//span[contains(@class,"vote-post-up")，务必要多加练习，否则容易忘记。根据网页结构写出Xpath表达式，调试的过程如下图所示。

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

取出的点赞数是个字符串，需要利用int()将其强制转换为数字。

未完待续~~~，下一篇文章将继续分享Xpath表达式数据采集方法。

: baifanwudi

相关推荐

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），没来得及上车的小伙伴可以戳进去看看，今天继续上篇的内容往下进行。至此，关于Xpath表达式的具体应用教程先告一段落。

paleyellow 0喜欢 / 0评论 2020-10-25

基于xpath选择器、PyQuery、正则表达式的格式清理工具详解

finnaxu 0喜欢 / 0评论 2020-09-04

PHP xpath提取网页数据内容代码解析

DOMDocument，DOMXpath，其中初始化 loadHtml一般都会报很多警告，但是并不影响使用，用@屏蔽错误。其中 $node 为 DOMElement 对象。

LxyPython 0喜欢 / 0评论 2020-08-17

Selenium 获取Select元素的选中值

obj_select = Select #强制类型转换为Select类型

Reiki 0喜欢 / 0评论 2020-07-28

Python爬虫 - scrapy框架的基本操作

scrapy异步的爬虫框架。c. 进入下载目录，执行 pip3 install Twisted?只可以将parse方法的返回值存储到指定后缀的文本文件中。# #xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要

fangjack 0喜欢 / 0评论 2020-06-25

selenium（9）- Xpath的详细使用

XPath 用于在 XML 文档中通过元素和属性进行导航。在Web UI自动化中，其实用Xpath的定位元素的优先级并不高，但它是万能的；所以如果用其他方式无法定位时，可以用Xpath进行定位。所以不推荐使用绝对路径的写法。跟Python的列表一样，通过[

云之高水之远 0喜欢 / 0评论 2020-06-20

Chrome - XPath Helper插件使用手工拖拽方式无法正常安装的解决办法

方法一. 将下载好的XPath-Helper.crx文件拖拽入Chrome扩展页面，按照提示进行下一步操作；将下载好的XPath-Helper.crx文件后缀更改为XPath-Helper.rar；在Chrome扩展页面点击，选择解压后的XPath-Hel

maowenbei 0喜欢 / 0评论 2020-06-10

2020，8种必备Selenium编写自动化用例的技巧

有时，与提供更好的灵活性或解决问题的更好方法相比，这种多功能性导致代码更加复杂。在编写自动化代码时，重要的是我们能够清楚地描述自动化测试的目标以及我们如何实现它。话虽如此，编写“干净的代码”以提供更好的可维护性和可读性很重要。编写干净的代码也不是一件容易的

tiankele0 0喜欢 / 0评论 2020-06-09

XPath提取猫眼电影

XML称为可扩展标记语言，XML是互联网数据传输的重要工具，它可以跨越互联网任何的平台，不受编程语言和操作系统的限制，可以说它是一个拥有互联网最高级别通行证的数据携带者。HTML 和 XML的区别在于HTML主要用来显示数据，XML是用来传输数据。XML都

Andrewjdw 0喜欢 / 0评论 2020-05-29

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

前几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。正则表达式为我们提供了抓

zengni 0喜欢 / 0评论 2020-05-29

appium自动化中元素定位碰到的问题一

今天在练习appium自动化时，碰到一个问题。1，首先：xpath定位的时候，数字是从1开始计算的，不是从0开始计算的。上面例子中的“5”和“2”，表示：第五个和第二个。哪怕前端代码中显示是第4列，但是我们要知道是第五个。2，appium中的xpath定位

Alanxz 0喜欢 / 0评论 2020-05-28

爬取python之禅

‘‘‘helloBeautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than comp

yogoma 0喜欢 / 0评论 2020-05-28

Appium（二）定位方式

Appium两种定位方式，一种是继承selenium的定位方式，还是一种是Androiduiaumator2的定位方式。常用的定位方法基本就是上面的几种，还有一些不怎么常用的就不再列出，如image等，至于上线的xpath等下会单独列出说明。（二）、Uia

freerocker 0喜欢 / 0评论 2020-05-26

Scrapy数据解析和持久化

c. 进入下载目录，执行 pip3 install Twisted?- 5.在管道类中的process_item方法负责接收item对象，然后对item进行任意形式的持久化存储。- 如果管道文件中定义了多个管道类，爬虫类提交的item会给到优先级最高的管道

andrewwf 0喜欢 / 0评论 2020-05-08

爬虫6 使用xpath语法，解析HTML

　　1. 使用爬取的页面数据，来定义一个对象。　　2. 使用xpath来解析这个对象中的标签树。# ‘//p[@class="author"]/a[1]/text()‘: 某p标签，class属性为“author”，下面的第一个a标签，

我欲疾风前行 0喜欢 / 0评论 2020-04-30

python爬取优美图库海量图片，附加代码，一键爬取

优美高清图片为大家提供高清美女套图赏析,非高清不录入,大家的网速要给力。今天教大家爬取优美图库网站中高质量的图片！！如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？获取方式，私信小编 “ 资料 ”，即可免费获

坚持是一种品质 0喜欢 / 0评论 2020-04-25

python_selenium元素定位_xpath(2)

　　selenium自动化脚本最基础的就是元素定位和元素操作，下面就以百度为例介绍最常见的xpath定位方式。　　这些就是xpath定位最常用的，至于怎么选择使用就看自己具体的使用情况了。

Wmeng0 0喜欢 / 0评论 2020-04-07

【Python3 爬虫】XPath Helper的安装与使用

先解压xpath-helper.rar,下载后的压缩包如下图：。将xpath-helper.crx的后缀名修改为.rar后继续解压，解压后得到下图：。看到上图后，点击，点击选择解压的文件即可。此时，已经安装成功，如下图：。打开谷歌浏览器，通过快捷键ctrl

sunzhihaofuture 0喜欢 / 0评论 2020-03-27

Python爬虫系列之 xpath：html解析神器

通过前面的文章，我们已经知道了如何获取网页和下载文件，但是前面我们获取的网页都是未经处理的，冗余的信息太多，无法进行分析和利用。说到信息筛选我们立马就会想到正则表达式，不过今天我们不讲正则表达式。当然，这并不是说正则不好，只是正则不适合爬虫和新手。别担心，

RuoShangM 0喜欢 / 0评论 2020-03-23

scrapy爬取美剧天堂排名100

# 这个方法必须返回一个 Item 对象，被丢弃的 item 将不会被之后的 pipeline 组件所处理。# 可选实现，当 spider 被开启时，这个方法被调用。

javaraylu 0喜欢 / 0评论 2020-03-23

python爬虫（十二） XPath语法

之前学习得是如何进行网络请求，现在开始学习如何进行数据提取。在火狐浏览器中，首先要有一个try xpath插件，例如要找网页中所有得div，就在插件中搜索。就会把所有的div圈出来：。根节点下没有div,所以数量为0.div为子孙节点，html为子节点,b

千锋 0喜欢 / 0评论 2020-02-29

xPath和html基础扫盲

　　一种网页的标准、规范。编写网页文档的主要语言。　　统一资源定位器，可以准确指出文件所在位置及浏览器处理它的方式。

qsdnet我想学编程 0喜欢 / 0评论 2020-02-15

爬虫之BS&Xpath

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单

jacktangj 0喜欢 / 0评论 2020-01-29

Python爬虫：数据解析之 xpath

hilary0 0喜欢 / 0评论 2020-01-25

xpath定位.py

from selenium import webdriverdriver = webdriver.Chrome()driver.maximize_window()ele = driver.get("http://www.baidu.com&quo

Feastaw 0喜欢 / 0评论 2020-01-18

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取（lxml xpath+requests）

因为教程的demo网站糗事百科已经gg，所以我就只好随便找了个网站练手。首先哦f12分析下网站源码，要获取的内容和分页网址，因为我们获取的内容都是文字，且都显式显示在网页上，很容易得出规律：。我们要获取的鬼故事内容页面的链接 <a>标签，在&l

Kwong 0喜欢 / 0评论 2020-01-12

python代理池的构建3——爬取代理ip

detail. xpath:组内XPATH,获取代理IP详情的信息XPATH,格式为: {‘ip‘:‘xx‘, ‘pot‘:‘xx‘,‘area‘:‘xx‘}. class BaseSpider: #定义一个最基础的爬虫，后面爬取专门网站的爬虫继承这个基

zluxingzhe 0喜欢 / 0评论 2020-01-10

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库

分析url后发现srart=后面的数字，以25的步长递增，最大为225，所以可以利用这个条件来发Request请求。这里用spider类，执行命令:scrapy genspider doubanMovie "movie.douban.com&qu

ZHANGRENXIANG00 0喜欢 / 0评论 2020-01-10

python 爬取豆瓣电影top250 存储到mysql

`name` text COMMENT ‘电影名称‘,`director` text COMMENT ‘导演‘,`actor` text COMMENT ‘演员‘,`style` text COMMENT ‘风格‘,`country` text COMME

achiverhai 0喜欢 / 0评论 2020-01-05

selenium自动化之xpath定位必会技能

相信写过ui自动化，对xpath定位感觉会特别亲戚，那么下面给大家分享些我们常常在写脚本时易忽略的一些小细节和技巧。首先使用xpath定位时切忌

tiankele0 0喜欢 / 0评论 2020-01-05

Xpath编码问题解决

不要直接简单的将爬取的网页设置为utf-8,先通过print输出看看爬取的是什么编码，每个网页采用的编码不同，

swiftwwj 0喜欢 / 0评论 2020-01-02

Python爬虫基础——XPath语法的学习与lxml模块的使用

所以，如果你可以根据自己的需要进行选择。注意：XPath的索引从1开始。div_x_s = html_x.xpath # 直接从HTML中取则不用加.category1 = div_x.xpath[0] # 记得加.category2_s = div_

pythonxuexi 0喜欢 / 0评论 2019-12-20

scrapy框架（二）

Scrapy提供基于lxml库的解析机制，它们被称为选择器。因为，它们“选择”由XPath或CSS表达式指定的HTML文档的某部分。Scarpy选择器的API非常小，且非常简单。Scrapy选择器是通过scrapy.Selector类，通过传递文本或者Te

MiracleZhao 0喜欢 / 0评论 2019-12-22

Python 高级应用程序设计任务

每页数据有100条数据，共5页，数据总量为500条，通过F12检查页面，发现所需要爬取的数据都是静态的。爬虫程序主体要包括以下各部分，要附源代码及较详细注释，并在每部分程序后面提供输出结果的截图。‘Accept‘: ‘text/html,applicati

zhangpan 0喜欢 / 0评论 2019-12-21

xpath：

from selenium import webdriverb = webdriver.Firefox()#路径读取方式一：# b.get(r"C:\我的代码\selenium自动化测试\test.htm

wanwanwandj 0喜欢 / 0评论 2019-12-17

小白学 Python 爬虫（19）：Xpath 基操

前面两篇我们介绍了 Requests 的使用，原本是想再来一个实战的，正准备搞事情的时候想起来上次实战还给自己挖了一个坑， Xpath 还没介绍，还是乖乖的先介绍解析库吧。XPath ，全称 XML Path Language ，即 XML 路径语言，它是

sdwylry 0喜欢 / 0评论 2019-12-16

python+selenium实现发送一封带附件的邮件

self.driver = webdriver.Chrome(executable_path = "e:\\chromedriver.exe"). ")

Kakoola 0喜欢 / 0评论 2019-12-09

jmeter压测学习5-XPath提取器

有些web项目是前后端不分离的，返回的内容不是那种纯进口返回json格式，返回的是一个HTML页面。Use Tidy：当需要处理的页面是HTML格式时，必须选中该选项，当需要处理的页面是XML或XHTML格式时，取消选中该选项。添加头部管理器，参数类型为：

xinjing0 0喜欢 / 0评论 2019-11-30

Python知识点 - Xpath提取某个标签，需要转换为HTML。

# lxml转Html. from lxml import etree. from HTMLParser import HTMLParser. def lxml_to_html(text:etree):. content = etree.tostring(

爱好HtmlCssJs 0喜欢 / 0评论 2019-11-25

如何解决python xpath爬取页面得到空列表（语法都对的情况下）

很多网页呈现给我们的静态页面，但是实际上是由服务器端的动态页面生成的。再加上网站设有反爬虫机制，所以抓取到的页面不一定和源码相同。从源码里copy xpath，不一定能取到数据！非常的简单，从百度首页上，抓取“新闻”这两个字。然后我们试一下打印“百度一下“

Bloddy 0喜欢 / 0评论 2019-11-03

scrapy爬取猫眼电影排行榜

做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架.之后打开maoyan.py文件,编写爬虫文件,记得导入items.py文件的MaoyanItem类,并

andrewwf 0喜欢 / 0评论 2019-10-29

2. weddriver的定位方法

首页在网页上鼠标右键选择检查并点击，查看需要定位的元素。

wanwanwandj 0喜欢 / 0评论 2019-10-21

Selenium Tutorial -5 How to Identify Web Elements Using Selenium Xpath and Other

In theprevious tutorial, we introduced you with another automation testing tool named as Firebug. We also created our own automa

xiangxiaojun 0喜欢 / 0评论 2015-06-30

python爬取Ajax动态加载网页过程解析

常见的反爬机制及处理方式。解决方案: 通过F12获取headers,传给requests.get()方法。python中正则处理headers和formdata. 向二级页面链接发请求得到响应内容，并查看嵌入的JS代码

ministech 0喜欢 / 0评论 2019-09-05

python lxml中etree的简单应用

我一般都是通过xpath解析DOM树的时候会使用lxml的etree，可以很方便的从html源码中得到自己想要的内容。这里主要介绍一下我常用到的两个方法，分别是etree.HTML()和etree.tostrint()。etree.HTML()可以用来解析

loverlucky 0喜欢 / 0评论 2019-05-10

Python网络爬虫之爬取微博热搜

热搜的排名都在<td class=td-01 ranktop>的里(注意置顶微博是没有排名的！先设置url地址，然后模拟浏览器防止被认出是爬虫程序。这里利用了python的切片。这里还是没能做到完全对齐。。。

sunzhihaofuture 0喜欢 / 0评论 2019-04-18

谈谈html页面的解析(一)

如今，互联网上的信息越来越多，互联网的信息已经成为一个越来越大的矿山，这个里面有黄金也有垃圾，我们坐在这个矿山上，如何挖掘其中的金子，已经越来越受到重视，而这个挖掘过程的第一步就是需要将这些非结构化的数据转变为结构化的数据。最简单的搜索的爬虫需要这种转变，

RedGuyanluo 0喜欢 / 0评论 2012-09-04

Java解析XML对比（DOM/SAX/JDOM/DOM4j/XPath）

优点： a、无需将整个xml文档载入内存，因此消耗内存少 b、可以注册多个ContentHandler缺点： a、不能随机的访问xml中的节点 b、不能修改文档3、JDOM是纯Java的处理XML的API，其API中大量使用Collections类，优点：

realhero 0喜欢 / 0评论 2014-04-30

dom4j通过xpath查询xml

XPath使用路径表达式在XML文档中选取节点。bookstore//book选择所有属于bookstore元素的后代的book元素，而不管它们位于bookstore之下的什么位置。谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。

kenvie 0喜欢 / 0评论 2012-06-13