需求分析

”笔趣看“ 是一个盗版小说网站，这里有各大知名小说网站的小说，更新速度略慢于正版网站。但是该网站只支持在线浏览，不支持小说下载，对于想要下载下来以防断网或者网速不好时也能看的童鞋来说不太友好。因此，本次练习将爬取该网站所有小说。PS：本次练习仅为学习交流，请各位童鞋支持正版。

爬取目标

本次练习将爬取 “笔趣看” 你想要的任何小说。

准备工作

本次练习将使用 requests 库（python使用最多的库）作者 kennethreitz 今年最新力作 request_html 库。集网页抓取与解析于一体。想了解更多的可以关注我，我将准备将相关文档翻译并与现有库进行对比。

请确保电脑安装了 python3.6 和requests_html。（具体安装方法请自行百度）

爬取分析

我们先随便找一本小说的第一章内容进行分析。

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

第一章内容

用代码获取全部文本信息：from requests_html import HTMLSessionurl = '()res = session.get(url)content = res.html.textprint(content)

打印内容如下：

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

网页内容

可以看到我们很轻松就获取到所有文本信息。但是有很多信息是我们不需要的，所以我们需要更精确的定位，获取指定信息。

通过谷歌浏览器的开发者工具（按F12）可以发现小说正文全在标签下的文本信息中。因此我们可以通过res.html.find('#content')来定位（定位方法与 jQuery 选择器一致，对 jQuery 不太熟悉的朋友可以通过‘菜鸟教程’大致了解下），这里我们选择的是通过 id 定位，当然也可以通过 class 定位（res.html.find('.showtxt')），但是 html 中 id 是唯一的，class 不一定是唯一的，有时会造成定位不准。有 id 建议用 id。改进后的代码如下：from requests_html import HTMLSessionurl = '()res = session.get(url)targets = res.html.find('#content')content = targets[0].textprint(content)

打印结果为：

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）