Golang爬虫爬取最简单的豆瓣电影 Top250

HavenZhao 2019-06-26

爬取豆瓣电影 Top250

爬虫是标配了，看数据那一刻很有趣。第一个就从最最最简单最基础的爬虫开始写起吧！

项目地址：https://github.com/go-crawler...

目标

我们的目标站点是豆瓣电影 Top250，估计大家都很眼熟了

本次爬取8个字段，用于简单的概括分析。具体的字段如下：

Golang爬虫爬取最简单的豆瓣电影 Top250

简单的分析一下目标源

一页共25条
含分页（共10页）且分页规则是正常的
每一项的数据字段排序都是规则且不变

开始

由于量不大，我们的爬取步骤如下

分析页面，获取所有的分页
分析页面，循环爬取所有页面的电影信息
爬取的电影信息入库

安装

$ go get -u github.com/PuerkitoBio/goquery

运行

$ go run main.go

代码片段

1、获取所有分页

func ParsePages(doc *goquery.Document) (pages []Page) {
    pages = append(pages, Page{Page: 1, Url: ""})
    doc.Find("#content > div > div.article > div.paginator > a").Each(func(i int, s *goquery.Selection) {
        page, _ := strconv.Atoi(s.Text())
        url, _ := s.Attr("href")

        pages = append(pages, Page{
            Page: page,
            Url:  url,
        })
    })

    return pages
}

2、分析豆瓣电影信息

func ParseMovies(doc *goquery.Document) (movies []Movie) {
    doc.Find("#content > div > div.article > ol > li").Each(func(i int, s *goquery.Selection) {
        title := s.Find(".hd a span").Eq(0).Text()

        ...

        movieDesc := strings.Split(DescInfo[1], "/")
        year := strings.TrimSpace(movieDesc[0])
        area := strings.TrimSpace(movieDesc[1])
        tag := strings.TrimSpace(movieDesc[2])

        star := s.Find(".bd .star .rating_num").Text()

        comment := strings.TrimSpace(s.Find(".bd .star span").Eq(3).Text())
        compile := regexp.MustCompile("[0-9]")
        comment = strings.Join(compile.FindAllString(comment, -1), "")

        quote := s.Find(".quote .inq").Text()

        ...

        log.Printf("i: %d, movie: %v", i, movie)

        movies = append(movies, movie)
    })

    return movies
}

数据

Golang爬虫爬取最简单的豆瓣电影 Top250

Golang爬虫爬取最简单的豆瓣电影 Top250

Golang爬虫爬取最简单的豆瓣电影 Top250

看到这些数据，你有什么想法呢，真是好奇 :=)

: HavenZhao

相关推荐

基于Python豆瓣自动化测试【2】

承接上一篇中最后的测试结果图，使用过的pytest-html 插件原生态的报告的话。可能会发现内容样式都有些不同。其实是做了些扩展相关设置所呈现的效果，当然可以定制的更深度一些，更加中文、本地化，又或者根据公司需要进行定向研发。这篇就如何优化、定制pyt

坚持是一种品质 0喜欢 / 0评论 2020-05-29

python爬虫-静态爬取豆瓣评论

我们写代码的步骤是第一步：判断是否设置反爬机制，第二步：先爬取整个网页，第三步：再提取想要的内容，第四步：最后保存到本地。明白了我们要做什么再一步一步的去做。返回Response对象，其存储了服务器响应的内容。打印出响应的状态码，如果为418则是设置了反爬

文山羊 0喜欢 / 0评论 2020-05-19

python爬取豆瓣影评，根据关键词生成词云图

爬取豆瓣评论是需要用户登录的，所以需要先拿到登陆相关 cookie。进入浏览器登陆豆瓣之后，按下 F12 ，拿到请求头里的 cookie 与 user-agent 的数据，保持登陆状态不要退出。简单获取《豪斯医生》的某一页影评，经过分析影评的 html 数

sunnyhappy0 0喜欢 / 0评论 2020-04-20

Python爬取网络数据——豆瓣评论

豆瓣这个网站做网络爬虫的例子教学是极好的，我这个入门者今天也来分享下自己的第一个爬虫例程~ . 1）urllib内建模块，尤其是urllib.request，可以方便的抓取网页内容。2）Requests第三方库，逐渐取代了urllib.request，适合

katyusha 0喜欢 / 0评论 2020-03-06

python获取豆瓣电影TOP250的所有电影的相关信息

说明：我才接触网络爬虫，在看《python网络爬虫入门到实践》一书时，作者写了个实例获取豆瓣电影TOP250的所有电影的电影名称，我在此基础上进行了更进一步的改进，获取了所有的相关信息，并用表格将这些信息保存下来。我们需要用到BeautifulSoup的f

typhoonpython 0喜欢 / 0评论 2020-02-16

使用scrapy编写爬虫：爬取豆瓣Top250读书的评论

以前我们写爬虫，要导入和操作不同的模块，比如requests模块、gevent库、csv模块等。而在Scrapy里，你不需要这么做，因为很多爬虫需要涉及的功能，比如麻烦的异步，在Scrapy框架都自动实现了。我们之前编写爬虫的方式，相当于在一个个地在拼零件

andrewwf 0喜欢 / 0评论 2020-01-31

【科创人独家】爱因互动洪强宁：参与创业≠创业，融到钱的那晚我失眠了

我工作这14年间，参与的全都是创业项目，但进入豆瓣后才了解到以硅谷范儿运作的方式，平等、开放。在豆瓣不仅技术提升很大，还很系统地学习了一家企业是如何运作的，之前供职过的企业相对传统一些，接触到的大都是自己眼前一小摊事儿。

ilovefrog 0喜欢 / 0评论 2019-12-27

爬虫练手项目：获取豆瓣评分最高的电影并下载

上篇博文我们学习了Python爬虫的四大库urllib ，requests ，BeautifulSoup以及selenium爬虫常用库介绍。sheet = book.add_sheet('豆瓣电影Top250', cell_overwrite_ok

hilary0 0喜欢 / 0评论 2019-12-02

世界顶级程序员的书架上都有哪些书？

在很早之前就想整理一份来自经验丰富的顶级程序员推荐阅读的书籍清单，全栈工程师Dmitry Shvetsov整理了Bob叔以及Jeff Atwood and DHH等世界知名程序员曾经在博客中推荐过的书单，下面我们就一起来看看深受大神们青睐的书籍都是哪些？《

不亦快斋 0喜欢 / 0评论 2019-07-18

Python 爬取豆瓣TOP250实战

学习爬虫之路，必经的一个小项目就是爬取豆瓣的TOP250了，首先我们进入TOP250的界面看看。可以看到每部电影都有比较全面的简介。其中包括电影名、导演、评分等。接下来，我们就爬取这些数据，并将这些数据制成EXCEL表格方便查看。首先，我们用request

wyqwilliam 0喜欢 / 0评论 2019-10-25

详解python 模拟豆瓣登录（豆瓣6.0）

最近在学习python爬虫，看到网上有很多关于模拟豆瓣登录的例子，随意找了一个试了下，发现不能运行，对比了一下代码和豆瓣网站，发现原来是豆瓣网站做了修改，增加了反爬措施。用创建好的session对象携带账号，密码去发送post请求。由于改版后的豆瓣返回的是

xiaobote 0喜欢 / 0评论 2019-04-18

微信小程序访问豆瓣电影api的实现方法

解决办法总是有的！

Chona 0喜欢 / 0评论 2019-03-31

世界顶级的程序员们告诉你：这些书都是你应该读的

在很早之前就想整理一份来自经验丰富的***程序员推荐阅读的书籍清单，全栈工程师Dmitry Shvetsov整理了Bob叔以及Jeff Atwood and DHH等世界知名程序员曾经在博客中推荐过的书单，下面我们就一起来看看深受大神们青睐的书籍都是哪些

yueloveme 0喜欢 / 0评论 2019-03-25

豆瓣的基础架构

豆瓣整个基础架构可以粗略的分为在线和离线两大块。在线的部分和大部分网站类似：前面用LVS做HA，用Nginx做反向代理，形成负载均衡的一层；应用层主要是做运算，将运算结果返回给前面的用户，DAE平台是这两年建起来的，现在大部分豆瓣的应用基本都跑在DAE上

WhatWhyHow 0喜欢 / 0评论 2015-01-14

豆瓣的系统架构

关于豆瓣的系统架构图，首先我们在Webserver上做个划分，把网站内容分为动态内容和静态内容。在豆瓣上所有的html都是动态内容，图片都是静态内容。分成两个Web服务可以做不同的调优。对动态内容，我们用的是nginx和lighttpd的混合，nginx做

huiyi00 0喜欢 / 0评论 2011-04-01

chrome插件技术开发总结

包括豆瓣精灵和RssSnack两个插件，其中前者一直有在慢慢更新，而后者是在一次大学同学技术讨论RSS相关时做的一个快速DEMO来谈插件实现的技术可能性，暂无更新了，不过这个插件使用到了jqueryUI和定制chrome插件鼠标右键的功能，具有一定的参考价

故纸堆 0喜欢 / 0评论 2010-12-27

[转]浅析豆瓣的 Google Analytics 应用

豆瓣从今年开始也加入GoogleAnalytics的统计阵营。让我们通过它加载的GoogleAnalytics源码，简单分析一下它都是怎么应用的。默认的统计函数，pageTracker 也被豆瓣改成了 _ga ，这个只是名称定义上的区别，并没有什么实质的改

ibatsiSpring 0喜欢 / 0评论 2010-02-04

微信小程序访问豆瓣电影api

解决微信小程序调豆瓣电影（小说）api时显示400、403问题以获取豆瓣热映电影为例：请求接口：我这里使用的是uni-app框架。原因是豆瓣那边设置了对小程序的访问权限解决办法总是有的！似乎可以了~我们来看看现在获取到了data没有

hengqiaqia 0喜欢 / 0评论 2019-07-01

23个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等

今天为大家整理了23个Python爬虫项目。整理的原因是，爬虫入门简单快速，也非常适合新入门的小伙伴培养信心，所有链接指向GitHub，微信不能直接打开，老规矩，可以用电脑打开。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使

刘康康 0喜欢 / 0评论 2019-07-01

golang爬取豆瓣电影TOP250(下载图片)

打开豆瓣电影TOP250，打算爬取电影的四个信息，豆瓣排名，图片，评分，电影名。}这里把ParseResponse函数作为返回值，把处理后的Movie切片返回。处理网页用到goquery的Find匹配网页元素。查看网页的元素代码，看到这几个需要获取的信息都

cleanerxiaoqiang 0喜欢 / 0评论 2019-07-01

Python爬虫框架Scrapy入门与实践之爬取豆瓣电影Top250榜单

前言爬虫就是请求网站并提取数据的自动化程序，其中请求，提取，自动化是爬虫的关键。Python作为一款出色的胶水语言自然成为了很多爬虫爱好者的首选，而使用Python开发的爬虫框架Scrapy当属目前最热门的解决方案之一。本文记录了目前网络上比较经典的Scr

cbyacq 0喜欢 / 0评论 2019-07-01

一个超便捷的豆瓣电影Chrome插件

豆瓣电影传送门我是一名豆瓣爱好者，常常在豆瓣APP上面标记想看的电影，然后在有空的时候再去找资源看。豆瓣最近新增了”在哪儿看这部电影“版块，但是仅仅收录了比较常见的几家视频网站，比如优酷、腾讯视频等，这些网站往往需要购买VIP才能观看，为了节约花在找资源上

HappyBlog 0喜欢 / 0评论 2019-06-29

【备战春招/秋招系列】Java程序员必备书单

书的内容非常多，可以说是Java程序员的必备书籍之一了。通过对Java平台设计专家所使用的技术的全面描述，揭示了应该做什么，不应该做什么才能产生清晰、健壮和高效的代码。《Head First Java.第二版》：可以说是我的Java启蒙书籍了，特别适合

韩世雷程序员 0喜欢 / 0评论 2019-06-28

Python爬虫案例：抓取豆瓣编程类高评分书籍

对于很多正在学习计算机的朋友来说，选择合适的学习材料是非常重要的。本文将通过 Python 来爬取豆瓣编程类评分大于 9.0 的书籍。此案例很适合入门爬虫的朋友学习，总共也就 3 个函数。F12 打开控制台发现，这些 li 标签正是我们的目标内容。抓取页面

Onioncy 0喜欢 / 0评论 2019-06-28

Django中使用第三方登录

OAuth2.0是什么OAuth的英文全称是Open Authorization，它是一种开放授权协议。OAuth目前共有2个版本，2007年12月的1.0版和2010年4月的2.0版，1.0版本存在严重安全漏洞，而2.0版解决了该问题。OAuth简单说就

WinterShiver 0喜欢 / 0评论 2019-06-28

浅看豆瓣网技术架构

豆瓣评审经常去逛逛，前2天看到一个将豆瓣系统架构的胶片，有感写了一下一些小字，鄙人拙见，有不对之处望各位批评指正。适合的是当前的经济能力和用户规模。从系统刚上线，到系统衰竭的那一刻。会经历用户规模迅速膨胀，稳定，下降等阶段。在不同阶段对系统资源的消耗也是不

gggwfn 0喜欢 / 0评论 2012-05-07

python爬虫实践: 豆瓣小组命令行客户端

主要特性前一阵重新组织了一下代码, 加了命令行help信息, 用起来更方便了一些初步实现了豆瓣小组及用户相关的API爬虫和请求基于requests和lxml, 没有用高阶的诸如scrapy之类的爬虫工具所有的命令行输出都是标准的json格式, 可以使用jq

87682715 0喜欢 / 0评论 2019-06-28

[小程序]撸了第一个小程序

豆瓣API这几天看了下小程序的文档，然后花了点时间写了个没什么含量的小程序。本来想自己写下API接口，但是小程序请求的域名既要求备案又要求HTTPS，太麻烦遂放弃。后来选择了豆瓣API，又发现小程序屏蔽了豆瓣的API，好在网上有大神架了代理服务器。有了豆瓣

hengqiaqia 0喜欢 / 0评论 2019-06-28

微信小程序-配置请求域名合法的问题以及豆瓣api问题

一.配置请求域名合法的问题在哪里找到配置request合法域名?

small 0喜欢 / 0评论 2019-06-27

Python爬虫之多线程下载豆瓣Top250电影图片

本次爬虫项目将分别不使用多线程和使用多线程来完成，通过两者的对比，显示出多线程在爬虫项目中的巨大优势。本文所使用的多线程用到了concurrent.futures模块，该模块是Python中最广为使用的并发库，它可以非常方便地将任务并行化。在concurr

qitong 0喜欢 / 0评论 2019-06-27

Scrapy爬虫之爬取豆瓣电影Top250图片

在用Python的urllib和BeautifulSoup写过了很多爬虫之后，本人决定尝试著名的Python爬虫框架——Scrapy.本次分享将详细讲述如何利用Scrapy来下载豆瓣电影Top250, 主要解决的问题有：。如何利用ImagesPipelin

javaraylu 0喜欢 / 0评论 2019-06-26

Python爬虫 - scrapy - 爬取豆瓣电影TOP250

系统环境System Version：Ubuntu 16.04Python Version：3.5.2Scrapy Version：1.5.0. scrapy startproject spider_douban命令执行完成后，建立了spider_doub

liuxiaohua 0喜欢 / 0评论 2019-06-26

scrapy入门教程——爬取豆瓣电影Top250！

选取什么网站来爬取呢？我们中国人，当然是用豆瓣Top250啦！第一步，搭建准备为了创造一个足够干净的环境来运行scrapy，使用virtualenv是不错的选择。>>> virtualenv -p python3.5 doubanenv首

javaraylu 0喜欢 / 0评论 2019-06-26

scrapy入门_2爬取豆瓣军事类图书（2）

前言上回讲到，爬取了豆瓣军事类图书的第一页内容，本回主要实现爬取剩余页面的内容，实现思路均参照Scrapy文档。yield response.follow找到页面中”后一页“的链接的内容，只需解析出该内容，然后调用follow函数即可了。编译执行按照上篇说

ZHANGRENXIANG00 0喜欢 / 0评论 2019-06-25

scrapy入门_2爬取豆瓣军事类图书（1）

前言上回讲到如何安装scrapy，本回将参照文档编写一个爬取豆瓣评分在8.9以上的军事类图书。新建项目打开Anaconda Prompt-->定位到新建的项目目录-->通过命令venv\Scripts\activate激活虚拟环境-->通

heyboz 0喜欢 / 0评论 2019-06-25

数人云|90%产品服务化，细说豆瓣的5年变革之路

背景今天主要分享下微服务中的Auto Scale，豆瓣2005年3月上线，是一家历史比较悠久的互联网公司，主要覆盖文化综合领域的Web、APP等各种产品，现在有豆瓣读书、豆瓣电影、豆瓣音乐等等。〓 Douban App Engine在DAE上会统一调度所

tenvainvi 0喜欢 / 0评论 2019-06-25

京东资深大佬推荐的30本经典编程书籍，从web到py到java，附PDF

赠送规则小编整理了一套pythonPDF电子书资料+python教程免费分享给你！点击小编头像进行私信”学习“即可获取这些书籍拉！希望对你们有帮助！赠送前500位哦!Python 系列如果你之前一点编程经验都没有，先看如下两本：。现在有 Python 3

zhaobig 0喜欢 / 0评论 2019-06-22

洪强宁：编程三十年，因Python结识豆瓣，想用技术改变世界

从五、六岁接触编程，到现在自己创业做 CTO，他一直在技术这片天地里驰骋。虽然他坦言自己在技术之外是一个理性甚至有些悲观的人，但是面对技术，他永远包含热情。本期二叉树视频，我们采访了洪强宁，听听一个技术乐观主义者眼中的互联网十年，是什么样？洪强宁，爱因互动

duanlove技术路途 0喜欢 / 0评论 2019-06-21

纸飞机-采用MVP架构，集合了知乎日报、果壳精选和豆瓣一刻的综合性阅读客户端

原名知乎小报，V3.0.0之后正式更名为纸飞机，是一款集合了知乎日报、果壳精选和豆瓣一刻的综合性阅读客户端。项目架构采用Google Android Architecture Blueprints [beta]. 以下所有 API 均由知乎提供，本人采

SnailDream 0喜欢 / 0评论 2019-06-21

[React Native]豆瓣电影APP Demo

看出错误的大神麻烦指点一下，感激不尽ヾ(￣▽￣)~

bailangriver 0喜欢 / 0评论 2019-06-21

解析豆瓣的网站建设技术架构

豆瓣整个基础架构可以粗略的分为在线和离线两大块。在线的部分和大部分网站类似：前面用LVS做HA，用Nginx做反向代理，形成负载均衡的一层；应用层主要是做运算，将运算结果返回给前面的用户，DAE平台是这两年建起来的，现在大部分豆瓣的应用基本都跑在DAE上面

Kwong 0喜欢 / 0评论 2015-12-06

什么样的社区是容易失败的

而keso则偏向于认为是用户。　　第一批用户也是非常挑剔的用户，会提不少意见。作为运营者来说，忽视他们的建议是值得注意的事。更重要的是，如何在不伤及他们感情的前提下“忽视”他们。　　这已经涉及到了轻重和细节的环节。魔鬼其实在轻重。运营方对“轻重”的取舍，决

lingq 0喜欢 / 0评论 2012-07-15

我说如何根据豆瓣api来理解Restful API设计的

REST全称是Representational State Transfer,表述状态转移的意思。它是在Roy Fielding博士论文首次提出。REST本身没有创造新的技术、组件或服务，它的理念就是在现有的技术之上，更好的使用现有的 web规范。每个资源

清风的Blog 0喜欢 / 0评论 2019-05-25

豆瓣高评分！学python想不绕弯路，就看这两本书

近几年来人工智能的迅速发展，python作为其目前最适合语言，受到了大量业内以及业外人员的喜爱。今天推荐的是豆瓣评分较高，受到大部分人喜爱的python入门书籍。刚学python编程的人看这两本书会让你绕许多弯路。包括最开始介绍的如何排查错误，其思路也可以

crackerzhou 0喜欢 / 0评论 2019-05-18

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

程序员在提升自己的道路，大多还是会选择阅读编程书籍这一途径，但找到一本好书就没那么容易了。通过查看各大销售网站的销量数据和评价，以及豆瓣评分和评价人数，可以帮助我们更快的挖掘出经典的计算机书籍，还有那些被人们忽视的好书。后来lanbing510再次爬了一遍

dengfeng0 0喜欢 / 0评论 2019-05-21

腾讯音乐联手豆瓣FM，在线音乐市场三国杀步入新战局

腾讯音乐与豆瓣FM的联手，将在行业激起什么涟漪？去年12月在纽交所挂牌上市后，腾讯音乐加快了行业整合的节奏。近日，DNV音乐集团旗下豆瓣FM获得腾讯音乐和挚信资本的战略投资。豆瓣FM称，此次融资后，将和腾讯音乐在产品和版权等方面展开合作，并将正式上线6.0

openGPScn的同步 0喜欢 / 0评论 2019-02-20

接口测试总结分享（http与rpc）

接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换，传递和控制管理过程，以及系统间的相互逻辑依赖关系等。

大步流星 0喜欢 / 0评论 2018-11-13

基于python的scrapy框架爬取豆瓣电影及其可视化

主要介绍，spiders，engine，scheduler,downloader,Item pipeline. 对应在scrapy文件中有，自己增加爬虫文件，系统生成items,pipelines,setting的配置文件就这些。items写需要爬取的属性

heyboz 0喜欢 / 0评论 2019-04-25

从算法到HPC：最全优秀编程书籍列表

还是在面对市场上琳琅满目的书籍时挑花了眼？本文作者精选了一些优秀的编程书，并分门别类地整理成列表。算法和数据结构人工智能软件架构人机交互数学优化计算机安全游戏开发操作系统分布式系统数据库系统解释器和编译器并发性高性能计算。话不多说，直接上书。《Make Y

zonglinzonglin 0喜欢 / 0评论 2019-04-15