python爬取银行理财产品信息（共12多万条）并存入MongoDB

fudirong 2019-03-18

本次Scrapy爬虫的目标是爬取“融360”网站上所有银行理财产品的信息，并存入MongoDB中。网页的截图如下，全部数据共12多万条。

python爬取银行理财产品信息（共12多万条）并存入MongoDB

用来储存每个理财产品的相关信息，如产品名称，发行银行等

python爬取银行理财产品信息（共12多万条）并存入MongoDB

创建爬虫文件bankSpider.py，代码如下，用来爬取网页中理财产品的具体信息。

python爬取银行理财产品信息（共12多万条）并存入MongoDB

为了将爬取的数据储存到MongoDB中，我们需要修改pipelines.py文件，代码如下：

python爬取银行理财产品信息（共12多万条）并存入MongoDB

其中的MongoDB的相关参数，如MONGO_HOST, MONGO_PORT在settings.py中设置。修改settings.py如下：

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {'bank.pipelines.BankPipeline': 300}

添加MongoDB连接参数

python爬取银行理财产品信息（共12多万条）并存入MongoDB

其中用户名和密码可以根据需要添加。

接下来，我们就可以运行爬虫了。运行结果如下：

python爬取银行理财产品信息（共12多万条）并存入MongoDB

共用时3小时，爬了12多万条数据，效率之高令人惊叹！

最后我们再来看一眼MongoDB中的数据：

python爬取银行理财产品信息（共12多万条）并存入MongoDB

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

python爬取银行理财产品信息（共12多万条）并存入MongoDB

pytyhon学习资料

python爬取银行理财产品信息（共12多万条）并存入MongoDB

python学习资料

: fudirong

相关推荐

分布式文档存储数据库之MongoDB访问控制的操作方法

　　什么是访问控制？

fengzhongdengdai 0喜欢 / 13评论 2020-11-17

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 0喜欢 / 0评论 2020-11-17

Pycharm连接MongoDB数据库安装教程详解

最新版本的Pycharm搜不到Plugin插件，自己手动下载Mongo Plugin插件下载地址。我把它放在了MongoDB的安装路径下。下一节开始试用。

BigYellow 0喜欢 / 5评论 2020-11-16

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 0喜欢 / 5评论 2020-11-12

MongoDB数据库用户角色和权限管理详解

使用终端命令行输入 mongo 登陆 mongodb 之后切换到 admin 库，并认证后可查看所有数据库，操作如下所示：。Implicit session: session { "id" : UUID }. 说明：1 表示认证成功，0

我心似明月 0喜欢 / 5评论 2020-11-09

利用golang驱动操作MongoDB数据库的步骤

MongoDB中的JSON文档以称为BSON的二进制表示形式存储。与其他将JSON数据存储为简单字符串和数字的数据库不同，BSON编码扩展了JSON表示形式，例如int，long，date，float point和decimal128。这使应用程序更容易可

zhushenghan 0喜欢 / 5评论 2020-11-09

ubuntu安装mongodb创建账号和库及添加坐标索引的流程分析

... roles: [ { role: "readWrite", db: "lbs" },　　4.3移除数据库和日志文件

sunnnyduan 0喜欢 / 5评论 2020-10-16

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

MongoDB查询文档使用find()方法，同时find()方法以非结构化的方式来显示所有查询到的文档。db.collection.find -- 返回所有符合查询条件的文档。$type操作符是基于BSON类型来检索集合中匹配的数据类型，MongoDB中可

不要皱眉 0喜欢 / 5评论 2020-10-14

SpringBoot+MongoDB实现物流订单系统的代码

我们都知道MongoDB是一款非常出色的非关系型文档数据库，你肯定会想问MongoDB这么强，我们该怎么用或者有啥运用场景呢？MongoDB的应用场景非常多，无论是数据存储还是日志存储越来越多的公司在使用MongoDB，而我们今天也在SpringBoot基

xiaohai 0喜欢 / 5评论 2020-09-29

MongoDb CPU利用率过高问题如何解决

在公司的项目中，突然出现过一个情况，mongodb 的CPU利用率到达100%,导致服务器这边卡死了，请求了半天无响应，提示请求超时。因为，当时APP用户可能会在某一个时间段集中的使用，所以，请求量一下子就飙上去了，刚好APP打开请求的时候，有一个mong

songxiugongwang 0喜欢 / 5评论 2020-09-22

flask_16：通过 MongoEngine 使用 MongoDB

使用一个 MongoDB 之类的文档型数据库来代替关系 SQL 数据是很常见的。本方案演示如何使用文档映射库MongoEngine来集成 MongoDB 。基本的配置是在app.config中定义MONGODB_SETTINGS并创建一个MongoEng

萌亖 0喜欢 / 5评论 2020-09-17

MongoDB通配符索引的用法实例

MongoDB在4.2 版本推出了Wildcard Indexes，究竟什么是Wildcard Indexes以及Wildcard Indexes适合哪些场景本文结合官方文档以及实际测试进行简单概述。因为MongoDB是dynamic schemas，所以

LuckyLXG 0喜欢 / 5评论 2020-09-08

MongoDB 用户管理

小小最近接触了MongoDB，所以这里开始学习MongoDB，之用户管理模块的相关内容。使用如上的命令，切换数据库到admin数据库。cusomData 字段，任意内容，可以是用户名的全民介绍。roles 字段指定用户的角色，用于给一个空数组，给新用户设

sdmzhu 0喜欢 / 5评论 2020-09-01

MongoDB如何查看版本信息详解

它处理数据请求，管理数据存储，和执行后台管理操作。当我们运行mongod命令意味着正在启动MongoDB进程,并且在后台运行。mongo是一个命令行工具用于连接一个特定的mongod实例。当我们没有带参数运行mongo命令它将使用默认的端口号和localh

mkhhxxttxs 0喜欢 / 5评论 2020-09-16

Centos7 yum安装mongodb实现步骤详解

复制和高可用性：支持服务器之间的数据复制，支持主-从模式及服务器之间的相互复制。复制的主要目的是提供冗余及自动故障转移。#这里可以修改 gpgcheck=0, 省去gpg验证[root@localhost ~]# yum makecache. system

xiaohai 0喜欢 / 5评论 2020-09-16

Docker 搭建集群MongoDB的实现步骤

由于公司业务需要，我们打算自己搭建 MongoDB 的服务，因为 MongoDB 的云数据库好贵，我们这次采用副本集的方式来搭建集群，三台服务器，一主、一副、一仲裁。Replica Set 副本集：一个副本集就是一组 MongoDB 实例组成的集群，由一个

newcome 0喜欢 / 5评论 2020-09-09

mongodb的聚合操作

聚合是MongoDB的高级查询语言，它允许我们通过转化合并由多个文档的数据来生成新的在单个文档里不存在的文档信息。MongoDB中聚合主要用于处理数据，并返回计算后的数据结果，有点类似sql语句中的 count(*)。Pipeline查询速度快于MapRe

jaylong 0喜欢 / 5评论 2020-08-19

mongodb的java客户端

<artifactId>spring-boot-starter-data-mongodb</artifactId>. private Long id;private String userName;private String pa

大秦铁骑 0喜欢 / 5评论 2020-08-19

mongodb的java客户端

<artifactId>spring-boot-starter-data-mongodb</artifactId>. private Long id;private String userName;private String pa

thatway 0喜欢 / 5评论 2020-08-19

mongodb的java客户端

<artifactId>spring-boot-starter-data-mongodb</artifactId>. private Long id;private String userName;private String pa

lovecodeblog 0喜欢 / 2评论 2020-08-19

MongoDB学习7：Change Strean

Change Stream是MongoDB用于实现变更追踪的解决方案，类似于关系型数据库的触发器，但原理不完全相同。Change Stream只推送已经在大多数节点上提交的变更操作。级“可重复度”的变更，这个验证是通过{readConcern:"

大秦铁骑 0喜欢 / 5评论 2020-08-18

关于MongoDB精确统计文档记录数的问题

最近测试用mongoshake工具做MongoDB数据迁移,mongoshake在迁移完成提供了一个脚本comparison.py来做数据校验,在校验过程中发现结果比对存在一个库数据不一致,下意识以为mongoshake存在缺陷导致迁移丢数据,理论上这种基

thatway 0喜欢 / 0评论 2020-08-17

mongodb 4.0副本集搭建的全过程

近期有同学问mongodb副本集难不难部署，我的回答是不难，很快，几分钟搞定，比mysql MHA简单的不止一点半点。选择版本并下载mongodb的软件，注意操作系统版本等。本次我选用的是percona分支的mongodb 4.2.8版本搭建，操作系统为c

codetyper 0喜欢 / 0评论 2020-08-16

vs2019 下用 vb.net编写窗体程序连接 mongodb4.2的方法

说起来，查看Mongodb官方的接口文档是场噩梦，尽管mongodb官方花了大力气整顿了它的API，但是简单的接口罗列，0代码示范，让人无从开始。幸亏有很多天才，成功破译，我才得以沿着他们走的路，照猫画虎的走下去。整个项目结构如下：。说起来mongodb的

lbyd0 0喜欢 / 0评论 2020-08-16

浅析MongoDB 全文检索

全文检索对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。MongoDB 从 2.4 版本开始支持全文检索，目前支

zhushenghan 0喜欢 / 0评论 2020-08-16

深入了解MongoDB 分布式集群

在分布式应用系统中，mongodb 已经成为 NoSQL 经典数据库。要想很好的使用 mongodb，仅仅知道如何使用它是不够的。只有对其架构原理等有了充分认识，才能在实际运用中使其更好地服务于应用，遇到问题知道怎么处理，而不是抓瞎抹黑。这篇文章就带你进入

zyshappy 0喜欢 / 0评论 2020-08-16

MongoDB CRUD操作中的插入实例教程

温习了MongoDB的插入操作，主要使用PHP语言实践。如果产生异常，则会返回writeConcernErrors和writeErrors两种错误，有两个细节。如果是批量插入，ordered是true，则遇到一个错误，后面就不返回了，反之则会继续运行，不过

LuckyLXG 0喜欢 / 0评论 2020-08-16

如何使用Docker安装一个MongoDB最新版

本文假设大家已经安装好了docker并能正常使用，所以不讲解如何安装docker了。用docker安装MongoDB最新版本如下：。仅需要简单几个命令，我们就拥有了MongoDB的最新镜像了，后续就可以使用了。$ docker run -itd --nam

apexlj 0喜欢 / 0评论 2020-08-16

浅谈MongoDB 关系

MongoDB 的关系表示多个文档之间在逻辑上的相互联系。文档间可以通过嵌入和引用来建立联系。接下来我们来考虑下用户与用户地址的关系。以上数据保存在单一的文档中，可以比较容易的获取和维护数据。这种数据结构的缺点是，如果用户和用户地址在不断增加，数据量不断变

我心似明月 0喜欢 / 0评论 2020-08-16

MongoDB设计方法以及技巧示例详解

MongoDB是一种流行的数据库，可以在不受任何表格schema模式的约束下工作。数据以类似JSON的格式存储，并且可以包含不同类型的数据结构。例如，在同一集合collection 中，我们可以拥有以下两个文档document：。{ street: '12

xiaohai 0喜欢 / 0评论 2020-08-16

.Net Core使用MongoDB的详细教程

MongoDB 是由C++语言编写的，是一个基于分布式且面向文档存储的开源数据库系统。Mongodb默认用id做主键,因此不会显式的指定id是主键。Mongdb中没有内置"自增字段",可以把id声明为ObjectId类型,这样插入以后就

MongoDB数据库 0喜欢 / 0评论 2020-08-16

.Net Core如何对MongoDB执行多条件查询

以前项目基本上全部使用MySQL数据库, 最近项目排期空出了一点时间leader决定把日志模块迁移到插入/查询性能更好的MongoDB上. 多条件查询的写法着实费了些功夫, 撰文记录一下.　　return new MongodbHostOptions {

phphelloword 0喜欢 / 0评论 2020-08-16

MongoDB入门

数据库是按照数据结构来组织、存储和管理数据的仓库。我们的程序都是在内存中运行的,一日程序运行结束或者计算机断电,程序运行中的数据会丢失。所以我们就需要将一些程序运行的数据性永久化到硬盘之中,以确保数据的安全性。而数据库就是数据持久化的最佳选择。** MyS

Andrea0 0喜欢 / 0评论 2020-08-03

C#使用MongoDB

Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。工作肯定是用不到的，就是平常会写下爬虫程序，所以可能会用到MongoDB。

shining0 0喜欢 / 0评论 2020-08-02

开源 Spring Boot 中 Mongodb 多数据源扩展框架

开源 Spring Boot 中 Mongodb 多数据源扩展框架原创尹吉欢猿天地 2019-04-25在日常工作中，我们通过Spring Data Mongodb来操作Mongodb数据库，在Spring Boot中只需要引入spring-boot-

csuzxm000 0喜欢 / 0评论 2020-08-02

java架构师学习路线-MongoDB数据库详解

相信每个软件程序员对数据库这个名词都不陌生吧，今天就由我为大家总结大家生活中最常用到的MongoDB，可能有许多软件专业的学生都没听过这个词，MongoDB究竟是什么？下面请为大家一一道来MongoDB的来由和功能。MongoDB最大的特点是他支持的查询语

lovecodeblog 0喜欢 / 0评论 2020-07-28

MongoDB 指令

> #直接使用use指令切换数据库即可，但是由于库中没有数据，所以并不会显示在数据库列表中。可以看到，我们刚创建的数据库 test1 并不在数据库的列表中，要显示它，我们需要向 test1 数据库插入一些数据。> db.dropDatabas

萌亖 0喜欢 / 0评论 2020-07-27

[记录] springboot-mongo 去除_class 字段

https://stackoverflow.com/questions/6810488/spring-data-mongodb-mappingmongoconverter-remove-class/

sunnnyduan 0喜欢 / 0评论 2020-07-19

SAP UI5 Repository and MongoDB Repository

和ADBC与JDBC不同，通过MongoDB repository访问MongoDB数据库并不会在代码中出现用字符串拼接的SQL语句：

wildelf 0喜欢 / 0评论 2020-07-12

使用mongodb

远程登录mongo 192.168.184.134// 使用哪个数据库，切换到哪个数据库，如果数据库不存在，不会创建。db.spit.insert({_id:"3",content:"手机流量超了咋办？// 条件查询查询us

wangxingg 0喜欢 / 0评论 2020-07-08

47%的MongoDB数据库遭***比特币勒索，你中招了吗？中招怎么办？

7月2日消息：据ZDNet报道，MongoDB数据库遭******勒索。***已经在 22900 个MongoDB数据库上上传了勒索赎金记录，几乎占MongoDB所有数据库的47％。据介绍，***使用自动脚本扫描配置错误的MongoDB数据库，擦除其内容，

lovecodeblog 0喜欢 / 0评论 2020-07-05

pymongo方法详解

# MongoClient的第一个参数host还可以直接传MongoDB的连接字符串，以mongodb开头。pymongo 3.x版本中，insert()方法官方已不推荐使用，推荐使用insert_one()和insert_many()将插入单条和多条记录

liulufei 0喜欢 / 0评论 2020-07-05

MongoDB副本集replica set（三）--添加删除成员

删除副本集成员可以使用rs.remove()或者rs.reconfig()。Implicit session: session { "id" : UUID }. 2020-06-28T23:47:02.134+0800 I NETWO

thatway 0喜欢 / 0评论 2020-06-28

mongodb 错误 SCRAM-SHA-1 authentication failed for --转

问题：执行 db.auth,monoDB 认证失败，出现 SASL SCRAM-SHA-1 authentication failed for nls-cloud on admin from client 172.19.0.1:14500 ; UserNo

wangxingg 0喜欢 / 0评论 2020-06-28

mongoDB的事务

writeConcern 决定一个写操作落到多少个节点上才算成功。writeConcern 的取值包括： 0：发起写操作，不关心是否成功； 1~集群最大数据节点数：写操作需要被复制到指定节点数才算成功；默认是1。发起写操作的程序将阻塞到写操作到达指定的节点

liulufei 0喜欢 / 0评论 2020-06-22

【Mongodb】可复制集搭建

可复制集需要至少3个以上的mongodb节点，其中有一个主节点promary,其余的为副本节点secondary. 是默认的一种从节点类型。仲裁者将永远是仲裁者，而主要人员可能会退出并成为次要人员，而次要人员可能成为选举期间的主要人员。避免数据丢失,保障数

萌亖 0喜欢 / 0评论 2020-06-22

PHP7.2 装mongodb 遇到的坑，完美解决！

公司要做QA安全测试，组长就丢了一个源码包给我，什么资料都无。系统是个Laravel框架，源码都是从线上git下来。然后看了本地composer.json没有生成vendor. 其实能安装成功完全要看这里了：PHP本地版本：PHP Version 7.2.

liulufei 0喜欢 / 0评论 2020-06-16

docker——mongodb副本集

docker run -d -p27001:27017 --name docker_mongo1 --net net-mongoset mongo:3.4.24 --replSet yinSet. "info2" : "no

糊一笑 0喜欢 / 0评论 2020-06-14

基于linux命令提取文件夹内特定文件路径

最近需要实现自动化搜寻特定文件夹下的特定文件，并且需要分别保存文件路径与文件名。算然使用python的walk能够实现，但是感觉复杂了些。于是想看看linux自带的命令是否能完成这项工作。. |____test | |____test2.txt | |__

lukcat 0喜欢 / 0评论 2020-06-14

docker——Docker安装mongodb

docker run -d -p 27001:27017 --name docker_mongo1 mongo:3.4.24. docker run -d -p 27003:27017 --name docker_mongo3 mongo:3.4.24.

flyDeDog 0喜欢 / 0评论 2020-06-14