Python 网页抓取

bcbeer 2018-04-08

import json
import os
import requests
import bs4
from lxml import etree

# 模拟真实浏览器标头
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
                  '(KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
}

# 获取专辑页数
def get_album(url):
    res = requests.get(url, headers=header)
    soup = bs4.BeautifulSoup(res.text, "html.parser")
    # pagingBar_page为开发者模式下查看到的页码标识
    elems = soup.select('a[class^="pagingBar_page"]')
    print("本频道共有{}个页面".format(len(elems)-1))
    for i in elems:
        if i.text == "下一页":
            continue
        print("正在下载第{}/{}个页面".format(i.text, len(elems)-1))

        if i.text != "1":
            url = "http://www.ximalaya.com" + i.attrs["href"]

        get_url(url)

def get_url(url):
    res = requests.get(url, headers=header)
    soup = bs4.BeautifulSoup(res.text, "html.parser")
    # sound_id为开发者模式下查看到的页码标识
    elems = soup.select('li[sound_id]')

    for i in range(len(elems)):
        murl = 'http://www.ximalaya.com/tracks/{}.json'.format(elems[i].attrs["sound_id"])
        html = requests.get(murl, headers=header).text
        dic = json.loads(html)
        try:
            print("正在下载第{}/{}文件,文件名{}:{}。".format(i+1, len(elems),
                                                     elems[i].attrs["sound_id"],dic["title"]))
            get_m4a(dic["play_path"], elems[i].attrs["sound_id"])
        except:
            print("下载{}/{}文件,文件名{}:{}时失败。".format(i + 1, len(elems),
                                                     elems[i].attrs["sound_id"], dic["title"]))


def get_m4a(url, id):
    folder = "郭德纲相声"    # 自定义文件夹名称
    res = requests.get(url)
    file = open(os.path.join(folder, os.path.basename(id)), 'wb')
    for chunk in res.iter_content(100000):
        file.write(chunk)
    file.close()


if __name__ == '__main__':
    url = "http://www.ximalaya.com/1000202/album/2667276/"  # 专辑地址
    get_album(url)

: bcbeer

相关推荐

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 0喜欢 / 0评论 2020-11-11

认识网页抓取：一切都交给AI，还是加点“人情味”？

“互联网上有很多数据”，这么说太保守了。事实上，2020年，“数字宇宙”预计将拥有40万亿字节或40泽字节的信息，一个泽字节拥有的数据足以填满大约五分之一曼哈顿大小的数据中心。网络机器人能以令人难以置信的速度抓取网页，提取所需的相关信息。但很遗憾，随着网络

AI启蒙研究院 0喜欢 / 5评论 2020-10-23

认识网页抓取：一切都交给AI，还是加点“人情味”？

本文转载自公众号“读芯术”。可供分析的信息如此之多，将收集数据的任务留给AI就显得合情合理了。网络机器人能以令人难以置信的速度抓取网页，提取所需的相关信息。但很遗憾，随着网络人工智能日益普及，网络机器人还是逐渐被污名化了。此外，某些web用户以不道德的方式

kkkmmmjjjj 0喜欢 / 10评论 2020-10-22

手把手教你使用Python抓取并存储网页数据！

爬虫是Python的一个重要的应用，使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据，本文将基于爬取B站视频热搜榜单数据并存储为例，详细介绍Python爬虫的基本流程。如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程，那么应该仔细阅读本文!

huang00 0喜欢 / 0评论 2020-10-12

python+selenium操作chrome浏览器抓取网页解决方案

tm_price = t_selector.xpath(‘//*[@id="J_StrPriceModBox"]/dd/span/text()‘).extract_first(). next=%2Fexplore"). bro

Safari浏览器 0喜欢 / 0评论 2020-01-18

盘点用Java抓取HTTP服务器和FTP服务器的网页数据或图片等数据的实用技巧

在信息时代，常常需要通过编程的方式来灵活整理各种网络数据。首先涉及到如何方便准确地抓取网络数据。下面盘点用Java程序来访问HTTP服务器以及FTP服务器的各种实用技巧。主要介绍了Java Socket、java.net.URL类、Selenuim软件包、

登峰小蚁 0喜欢 / 0评论 2020-01-11

Python 抓取网页tag操作

soup.find_all，返回符合条件的所有标签，查找不到则返回[]，可以传递标签名，标签属性，关键字参数，函数，True等。tag[‘class‘] ，获取标签的class属性值，list类型，例如：[‘orange‘, ‘login‘]

chouliqingke 0喜欢 / 0评论 2019-12-17

Python 网页抓取

print("正在下载第{}/{}文件,文件名{}:{}。

kevinweijc 0喜欢 / 0评论 2018-04-08

htmlparser网页抓取

logger.info("分析网站首页的新闻列表，内容为所有网页新闻地址的HTML内容。

RedGuyanluo 0喜欢 / 0评论 2016-02-03

定向抓取漫谈

网络爬虫又称为网络蜘蛛是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分starturl开始，按照一定的策略开始爬取，爬取到的新的url在放入到爬取队列之中，然后进行新一轮的爬取，直到

haocxy 0喜欢 / 0评论 2013-12-12

selenium驱动firefox抓取网页数据，在firefox内存优化和速度优化方面的努力

使用默认frofile，启动firefox 内存600M，几个小时之后彪到一个G。目前查到的优化项，正在努力中&尝试中......，各种尝试如果都不行，目前想到的终极解决方案：爬取一定量的页面之后关闭当前线程对应的firefox窗口，开启新窗口！

Batkid0 0喜欢 / 0评论 2015-03-04

Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误

这个方法不一定有效，具体根据服务器的返回情况。如果服务器忽略此属性则此方法无效。

javaraylu 0喜欢 / 0评论 2012-06-19

网页数据抓取

这招没有过多久，人们就开始模仿浏览器或者google、baidu这样的爬虫。但是最后自己又摸索出来一条路子，就是用按键精灵控制360定时删除cookie。

YichengGu 0喜欢 / 0评论 2010-12-21

搜索引擎蜘蛛爬虫原理

网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚

greatking 0喜欢 / 0评论 2010-07-22

Python 抓取网页乱码原因分析

在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题：运行环境的字符编码和网页的字符编码不一致。因为多数网站采用 utf-8 编码，而不少人又是用 windows，所有这种情况相当常见。如果你发

小方哥哥 0喜欢 / 0评论 2019-07-01

搜索引擎蜘蛛算法与蜘蛛程序构架

如果网站管理员发现某个蜘蛛有问题，就通过其标识来和其所有者联系。网络蜘蛛在下载网页的时候，会去识别网页的HTML代码，在其代码的部分，会有META标识。通过这些标识，可以告诉网络蜘蛛本网页是否需要被抓取，还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。

aikaibo 0喜欢 / 0评论 2013-04-05

网络爬虫定向抓取漫谈

网络爬虫又称为网络蜘蛛是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始，按照一定的策略开始爬取，爬取到的新的url在放入到爬取队列之中，然后进行新一轮的爬取，直

fangjack 0喜欢 / 0评论 2012-02-01

用phantomjs和shell写抓取网页图片的脚本

最近自己写程序的时候经常素材不够用，想去网上扒现成的图片，要扒很多的图片，这种重复劳动让我又想偷懒看能不能用程序自动化实现。找到了比较适合我用的两个工具—— phantomjs 和 shell 。phantomjs http://phantomjs.org

凌云客 0喜欢 / 0评论 2019-06-27

网页异步ajax数据抓取几种解决方案

使用Casperjs加载页面，然后保存文件，再使用你熟练语言解析，你也可以少去保存，直接解析.网页上通过ajax异步加载的数据有什么办法抓取到吗？

ajaxhe 0喜欢 / 0评论 2014-10-11

python3使用urllib抓取用户名密码登陆的网页

values = {'username': username, 'password': password}. with open('test.txt', 'w+', encoding='utf-8') as f:. #cookie_jar.save(ign

zhongranxu 0喜欢 / 0评论 2019-06-26

利用iframe实现ajax跨域请求，抓取网页中ajax数据

如何利用网页ajax请求暴露出来的接口去抓取网页数据？很多爬虫都能实现这个功能。不过今天要来和大家八一八单从前端的角度，利用js解决这个问题。同时，内嵌的iframe中无法进行跨域通信的，也就是说不同域的iframe是无法互相读取数据的。iframe跨域通

小傻 0喜欢 / 0评论 2019-06-20

浅谈搜索引擎蜘蛛抓取网页规则

种子URL入手，如图所示，经过一步步的工作，最后将网页入库保存。当然，勤劳的蜘蛛可能需要做更多的工作，比如：网页去重以及网页反作弊等。已经被蜘蛛抓取到的网页内容，放在肚子里了。通过以上划分，我们可以很清楚的理解搜索引擎蜘蛛的工作及面临的挑战。蜘蛛通过种子U

seoyanjiu 0喜欢 / 0评论 2013-08-26

提高网页关键词搜索引擎排名的5个方法

但现在不是那么回事了，就像下面的图一样，搜索引擎的爬虫抓取时会有多个进入点，并且每个进入点都同样重要，然后再从这些进入点向外扩散，进行抓取。下面要讲到一个被很多SEO们误解的重要概念。确认网站上没有那些让PageRank降低的页面。如果你能制作这样值得链接

ycsx0 0喜欢 / 0评论 2009-12-07

Go语言通过http抓取网页的方法

本文实例讲述了Go语言通过http抓取网页的方法。分享给大家供大家参考。具体实现方法如下：。}希望本文所述对大家的Go语言程序设计有所帮助。

myspace 0喜欢 / 0评论 2015-03-03

JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

1、匹配html中img标签的正则：<img.*src=(.*?

shqhope 0喜欢 / 0评论 2014-08-27

想成为python爬虫大神,必须先弄懂这些!（文末附赠教程分享）

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这主要对爬虫以及抓取系统进行一个简单的概述。此外，将这些URL放进已抓取URL队列。

神码不是浮云 0喜欢 / 0评论 2019-03-05

Python爬虫如何才能高效地爬取海量数据（文末附赠教程分享）

大到各类搜索引擎，小到日常数据采集，都离不开网络爬虫。爬虫的基本原理很简单，遍历网络中网页，抓取感兴趣的数据内容。这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据，然后会一步步逐渐完善爬虫的抓取功能。我们使用python 3.x作为我们的开发语言，有一点

远哥的小迷弟 0喜欢 / 0评论 2019-03-05

Python分布式爬虫！带你随意抓取网页上的女神!（文末附赠教程）

下面是一个超级计算机的排行榜，如果我们能拥有其中任意一个，那么我们就不需要搞什么分布式系统。可是我们买不起，即使买得起，也交不起电费，所以我们只好费脑子搞分布式。现在每个Crawler_core实例都有了待处理的任务，接下来就要对每个任务的url进行处理了

tmaczt 0喜欢 / 0评论 2019-03-05

2019年七大最佳的网页抓取工具

互联网不断涌现出新的信息，新的设计模式和大量的数据。将这些数据组织到一个独特的库中并非易事。不过，有大量优秀的网页抓取工具可供使用。ProxyCrawl使用Proxy Crawl API，你可以抓取Web上的任何网站/平台。有代理支持，绕过验证码，以及基于

starwmx0 0喜欢 / 0评论 2019-01-30

搜索引擎技术之网络爬虫

网络爬虫技术是搜索引擎架构中更为根本的数据技术，通过网络爬虫技术，我们可以将互联网中数以百亿计的网页信息保存到本地，形成一个镜像文件，为整个搜索引擎提供数据支撑。网络爬虫获取网页信息的方式和我们平时使用浏览器访问网页的工作原理是完全一样的，都是根据HTTP

mzdanvy 0喜欢 / 0评论 2018-08-07

python爬虫小案例带你入门爬虫+19年最新python学习资料分享！

大到各类搜索引擎，小到日常数据采集，都离不开网络爬虫。爬虫的基本原理很简单，遍历网络中网页，抓取感兴趣的数据内容。这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据，然后会一步步逐渐完善爬虫的抓取功能。我们使用python 3.x作为我们的开发语言，有一点

yangj0 0喜欢 / 0评论 2019-02-22

Python爬虫开发的3大难题，别上了贼船才发现，水有多深！

写爬虫，是一个非常考验综合实力的活儿。有时候，你轻而易举地就抓取到了想要的数据；有时候，你费尽心思却毫无所获。有些网站登录过程很简单，把账户、密码发给服务器，服务器验证通过返回表示已登录的cookies。当然只要我自己技术够硬，没有什么能难到你的，而想要获

dhissy 0喜欢 / 0评论 2019-04-30

十年python大牛收藏网络爬虫的基本原理（附python教程分享）

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。而且得到主机的ip，并将URL相应的网页下载下来。对于待抓取URL队列中的全部页面依照现金数进行排序。

cbyacq 0喜欢 / 0评论 2019-03-28

用Python解析李小璐的微博，看Python是如何抓取网页的

近年来，随着我国人民日子水平不断提高，明星们的日子也不是那么高不可攀。因此，粉丝们对于明星们成婚的消息，越来越接受，胡歌的粉丝们，还整天担心胡歌找不到对象，每到情人节，一想到他孤单一人，倍觉难过。下面，我就运用Python，来看看各大媒体，是怎么谈论这个事

zhaobig 0喜欢 / 0评论 2018-01-06

Python爬虫入门，快速抓取大规模数据（第六部分）

在前面的章节中，我们以尽量少的代码演示了爬虫的基本原理。但是当我们需要完成一些复杂的大型抓取任务时，我们就需要考虑更多东西，例如爬虫的可扩展性，抓取效率等。在这个过程中有很多地方是通用的，而对于具体抓取任务有关的只是网页数据和URL提取。现在python下

hilary0 0喜欢 / 0评论 2018-06-13

Python爬虫入门，快速抓取大规模数据

大到各类搜索引擎，小到日常数据采集，都离不开网络爬虫。爬虫的基本原理很简单，遍历网络中网页，抓取感兴趣的数据内容。这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据，然后会一步步逐渐完善爬虫的抓取功能。我们使用python 3.x作为我们的开发语言，有一点

奋斗的蜗牛 0喜欢 / 0评论 2018-05-01

Python爬虫之网页图片抓取的方法

获取当前一共有多少页的图片。page_url = url + "page-" + str + "#comments"

ManyPeng 0喜欢 / 0评论 2018-07-16

Python实现抓取HTML网页并以PDF文件形式保存的方法

本文实例讲述了Python实现抓取HTML网页并以PDF文件形式保存的方法。分享给大家供大家参考，具体如下：。今天介绍将HTML网页抓取下来，然后以PDF保存，废话不多说直接进入教程。merger.write2. requests、beautifulsou

maoyongfan 0喜欢 / 0评论 2018-05-08

实例解析用Perl抓取网页和提交表格

难的讲不来，讲讲简单的。如果只是要拿到某个网页，那使用LWP::Simple里的函数是最简单的。通过调用get函数，就可以得到相关网址的内容。}非常简单易懂。拿网页内容是容易的，难的是用正则过滤需要的内容。

wanzi 0喜欢 / 0评论 2010-07-16

python抓取网页中链接的静态图片

本文实例为大家分享了python抓取网页中链接的静态图片的具体代码，供大家参考，具体内容如下。lenth = len #计算集合的个数。print imglist[i].attrs['src'] #抓取img中属性为src的信息,例如<img src

pythonwangjunji 0喜欢 / 0评论 2018-01-29

Python抓取网页图片相关代码编写方法

利用Python编程语言进行网页内容的抓取是一个比较常用的编程技术。那么，今天我们将会为大家详细介绍一下有关Python抓取网页图片的操作方法，以方便大家在实际应用中获得一些帮助。

chaochao 0喜欢 / 0评论 2010-03-04

Python抓取网页内容应用代码分析

我们今天将会通过这篇文章，为大家详细介绍一下Python抓取网页内容的两种不同方法。大家可以以此为参考对象，在实际应用中选择一种适合自己的应用方式来帮助我们完成实际开发中的需求。

Tristahong 0喜欢 / 0评论 2010-03-03

学习Python selenium自动化网页抓取器

直接入正题---Python selenium自动控制浏览器对网页的数据进行抓取，其中包含按钮点击、跳转页面、搜索框的输入、页面的价值数据存储、mongodb自动id标识等等等。mongodb中所有的存储数据都是有固定的id的，但是mongodb的id对于

Heitao00 0喜欢 / 0评论 2018-01-20

Python之多线程爬虫抓取网页图片的示例代码

嗯，我们知道搜索或浏览网站时会有很多精美、漂亮的图片。我们下载的时候，得鼠标一个个下载，而且还翻页。那么，有没有一种方法，可以使用非人工方式自动识别并下载图片。那么请使用python语言，构建一个抓取和下载网页图片的爬虫。当然为了提高效率，我们同时采用多线

oXiaoChong 0喜欢 / 0评论 2018-01-10

Python构建网页爬虫原理分析

网络爬虫是当今最常用的系统之一。最流行的例子是 Google 使用爬虫从所有网站收集信息。除了搜索引擎之外，新闻网站还需要爬虫来聚合数据源。看来，只要你想聚合大量的信息，你可以考虑使用爬虫。建立一个网络爬虫有很多因素，特别是当你想扩展系统时。这就是为什么这

wuha 0喜欢 / 0评论 2019-04-29

Python实现简单网页图片抓取完整代码实例

利用python抓取网络图片的步骤是：1、根据给定的网址获取网页源代码2、利用正则表达式把源代码中的图片地址过滤出来3、根据过滤出来的图片地址下载网络图片。getImg#从网页源代码中分析并下载保存图片进一步对代码进行了整理，在本地创建了一个“图片”文件夹

wgPython 0喜欢 / 0评论 2017-12-15

Python开发中爬虫使用代理proxy抓取网页的方法示例

本文实例讲述了Python开发中爬虫使用代理proxy抓取网页的方法。分享给大家供大家参考，具体如下：。}python的代理使用非常简单，最重要的是要找一个网络稳定可靠的代理。希望本文所述对大家Python程序设计有所帮助。

HopKins 0喜欢 / 0评论 2017-09-26

Python3实现抓取javascript动态生成的html网页功能示例

本文实例讲述了Python3实现抓取javascript动态生成的html网页功能。分享给大家供大家参考，具体如下：。究其原因，是因为urllib是瞬时抓取，它不会等javascript的加载延迟，所以页面中由javascript生成的内容，urllib读

LeoDoraemon 0喜欢 / 0评论 2017-08-22

Python实现抓取网页生成Excel文件的方法示例

本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考，具体如下：。f.close();接下来就是用Notepad++打开gongsi.csv，然后转成ANSI编码格式，保存。更多关于Python相关内容感兴趣的读者可查看本站

cling00 0喜欢 / 0评论 2017-08-05