MiracleZhao 2018-10-30
Python版本:3.6.4
相关模块:
scrapy模块;
pyecharts模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
关注后私信小编 PDF领取十套电子文档书籍
这依旧是scrapy爬虫框架的一个简单应用,然后加了点数据可视化分析。
首先还是先新建一个爬虫项目:
我们需要爬的网站是:
我选的上海,想爬的信息大概是这些:
先定义一下要爬取的内容(items.py):
然后随便设置一下(settings.py):
最后写下我们的爬虫代码(spider.py):
好的,我们又很轻松地写完了我们的爬虫代码。完整爬虫项目详见相关文件。
首先让我们来看看想租上海的房子,大概每个月需要多少钱:
把房价除以面积可能更客观一点:
再来看看这些房子的朝向吧:
向南的挺多~挺好的~
还有住房类型:
算了,睡觉吧,反正租不起,不分析了。
源代码见相关文件。
使用说明
数据爬取:
cmd窗口切换到第一个anjukeSpider文件夹路径下,然后执行如下命令即可开始爬取数据并将数据保存在anjuke.json文件内了:
scrapy crawl anjuke -o anjuke.json -t json
数据分析:
在cmd窗口运行analysis.py文件即可。