用Python解析李小璐的微博,看Python是如何抓取网页的

zhaobig 2018-01-06

近年来,随着我国人民日子水平不断提高,明星们的日子也不是那么高不可攀。因此,粉丝们对于明星们成婚的消息,越来越接受,胡歌的粉丝们,还整天担心胡歌找不到对象,每到情人节,一想到他孤单一人,倍觉难过。

下面,我就运用Python,来看看各大媒体,是怎么谈论这个事情的,运用Python抓取新浪微博,根据关键字“李小璐PGONE”,能够搜索到700条热门微博(这个并非一切的,而是当前新浪微博可查询的)。

图1、新浪微博媒体发布数据截图

用Python解析李小璐的微博,看Python是如何抓取网页的

图2、热门微博生成的词云

用Python解析李小璐的微博,看Python是如何抓取网页的

从词云中,我们能够看出,这个事件中,涉及到的人物有李小璐、PGONE、贾乃亮、王思聪、卓伟、马苏,其中,最无辜的是李小冉同学,由于姓名相似,也被网友火热光临了一把。

图3、涉及的人物词频

用Python解析李小璐的微博,看Python是如何抓取网页的

图4、李小璐回复该事件的微博

用Python解析李小璐的微博,看Python是如何抓取网页的

直接抓取转发的4.5万用户谈论,然后计算词频绘制词云,如下图所示:

用Python解析李小璐的微博,看Python是如何抓取网页的

能够看到,网友们的态度主要是会集在厌恶、出轨以及相信、喜爱这两种态度上,但是呢,在网友的词频里面,竟然很少提及到PGONE,也就是说,在李小璐的微博下面,我们都是在讨论李小璐和贾乃亮的爱情啊。

下面给大家讲一个利用python实现新浪微博,爬虫抓取网页代码的例子。第一个模块,模拟登陆sina微博,创建weiboLogin.py文件,输入以下代码:

用Python解析李小璐的微博,看Python是如何抓取网页的

用Python解析李小璐的微博,看Python是如何抓取网页的

用Python解析李小璐的微博,看Python是如何抓取网页的

用Python解析李小璐的微博,看Python是如何抓取网页的

用Python解析李小璐的微博,看Python是如何抓取网页的

注意:若登陆失败,可能是你的账号在登陆的时候需要输入验证码!你在网页上登陆你的账号试试看,在账号设置里面可以设置某些地区不输入验证码。今天就分享到这里,祝刚学习python编程的小伙伴们早点成为大佬。

相关推荐