【python爬虫】初识爬虫

CloudXli 2019-12-18

一、爬虫的定义

　　爬虫定义：程序或者脚本——自动的爬取万维网的数据的程序或者脚本。

二、爬虫可以解决的问题

　　1、解决冷启动问题。
　　2、搜索引擎的根基——通用爬虫。
　　3、帮助机器学习建立知识图谱。
　　4、制作各种比价软件。

三、爬虫工程师的进阶之路

　　1、初级爬虫工程师

　　　　（1）web 前端的知识： HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等；
　　　　（2）正则表达式，能提取正常一般网页中想要的信息，比如某些特殊的文字，链接信息，知道什么是懒惰，什么是贪婪型的正则；
　　　　（3）会使用 XPath 等获取一些DOM 结构中的节点信息；
　　　　（4）知道什么是深度优先，广度优先的抓取算法，及实践中的使用规则；
　　　　（5）能分析简单网站的结构，会使用urllib或requests 库进行简单的数据抓取。

　　2、中级爬虫工程师

　　　　（1）了解什么事HASH，会简单地使用MD5，SHA1等算法对数据进行HASH一遍存储
　　　　（2）熟悉HTTP，HTTPS协议的基础知识，了解GET，POST方法，了解HTTP头中的信息，包括返回状态码，编码，user-agent，cookie，session等
　　　　（3）能设置user-agent进行数据爬取，设置代理等
　　　　（4）知道什么事Request，什么事response，会使用Fiddler等工具抓取及分析简单地网络数据包；对于动态爬虫，要学会分析ajax请求，模拟制造post数据包请求，抓取客户端session等信息，对于一些简单的网站，能够通过模拟数据包进行自动登录。
　　　　（5）对于一些难搞定的网站学会使用phantomjs+selenium抓取一些动态网页信息
　　　　（6）并发下载，通过并行下载加速数据爬取；多线程的使用。

　　3、高级爬虫工程师

　　　　（1）能够使用Tesseract，百度AI，HOG+SVM，CNN等库进行验证码识别。
　　　　（2）能使用数据挖掘技术，分类算法等避免死链。
　　　　（3）会使用常用的数据库进行数据存储，查询。比如mongoDB，redis；学习如何通过缓存避免重复下载的问题。
　　　　（4）能够使用机器学习的技术动态调整爬虫的爬取策略，从而避免被禁IP封禁等。
　　　　（5）能使用一些开源框架scrapy，scrapy-redis等分布式爬虫，能部署掌控分布式爬虫进行大规模数据爬取。

四、搜索引擎

　　1、什么是搜索引擎

　　　　搜索引擎通过特定算法，从互联网上获取网页信息，将其保存到本地，为用户提供检索服务的一种程序。

　　2、搜索引擎的组成：搜索引擎主要是是由通用爬虫组成的。

　　　　（1）通用爬虫：将互联网上的网页信息【整体】爬取下来的爬虫程序。

　　　　（2）搜索引擎的工作步骤：

　　　　　　　①抓取网页
　　　　　　　②数据存储
　　　　　　　③预处理
　　　　　　　　提取文字
　　　　　　　　中文分词
　　　　　　　　消除噪音
　　　　　　　　......
　　　　　　　④设置网站排名（访问量），为用户提供检索服务。

　　　　（3）为什么搜索引擎可以爬取所有的网页？---搜索引擎的通用是如何来爬取所有网页的。

　　　　　　　　一个网页就是一个url，这个问题其实在问，【url的获取来源】。
　　　　　　　　url的获取来源：

　　　　　　　　　　①新网站会主动提交网址给搜索引擎。
　　　　　　　　　　②网页中的一些外链，这些url全部都会加入到通用爬虫的爬取队列。
　　　　　　　　　　③搜索引擎和dns解析服务商合作，如果有新网站注册，搜索引擎就可拿到网址。

　　3、通用爬虫的缺陷

　　　　（1）通用爬虫是爬取整个网页，但是网页中90%的内容基本是没用。
　　　　（2）不能满足不同行业，不同人员的不同需求。
　　　　（3）只能获取文字，不能获取音频，视频，文档等信息。
　　　　（4）只能通过关键字查询，无法通过语义查询。

　　4、聚焦爬虫

　　　　　　在实施网页抓取的过程中，【会对内容进行筛选】，尽量保证只抓取与【需求相关】的信息的爬虫程序。

五、robots协议

　　定义：网络爬虫排除标准
　　作用：告诉搜索引擎那些可以爬那些不能爬。

六、http协议

　　1、什么是http协议

　　　　是一种规范——————>约束发布和接受html的规范。

　　2、http和https

　　　　http：超文本传输协议。
　　　　https : 安全版的http协议。---ssl---
　　　　对称加密---密钥
　　　　非对称---私钥+公钥
　　　　数字签证---

　　3、端口号

　　　　https：443

　　　　http：80
　　　　Upgrade-Insecure-Requests: 1：可以将http升级成https请求。

　　4、http的特点

　　　　（1）应用层协议。
　　　　（2）无连接：http每次发送请求和响应的过程都是独立。
　　　　　　在http 1.0以后，有请求头：connection：keep-alive：客户端和服务建立长连接。
　　　　（3）无状态：http协议不记录状态。
　　　　　　　　　　cookie和session做到请求状态的记录。
　　　　　　　　　　cookie是在客户端保存，session是在服务器保存。

　　5、url：统一资源定位符

　　　　（1）主要作用：用来定位互联网上的任意资源的位置。

　　　　（2）为什么url可以定位任意资源？

　　　　　　　　①组成：https://www.baidu.com/index.html?username=123&password=abc#top
　　　　　　　　②scheme：协议---https
　　　　　　　　③netloc : 网络地址：ip:port---www.baidu.com
　　　　　　　　　　　　　　　　　通过ip定位电脑，通过port定位应用。
　　　　　　　　　　　　　　　　　192.168.92.10:
　　　　　　　　④代理ip：ip：port
　　　　　　　　⑤path：资源路径。---index.html
　　　　　　　　⑥query：请求参数：---？后面的内容username=123&password=abc
　　　　　　　　⑦fragment：锚点----top

　　　　　　　　原因：url包含netloc可以定位电脑，path定位资源，这样就可以找到任意在互联网上的信息。

　　　　（3）特殊符号：

　　　　　　　　？：后面就是请求参数
　　　　　　　　 & : 连接请求参数
　　　　　　　　 # : 锚点----如果url中有锚点，在爬虫程序中尽量去除。

　　6、 http的工作过程

　　　　（1）地址解析：
　　　　　　将url的所有组成部分分别解析出来。
　　　　（2）封装http请求数据包。
　　　　　　将第一步解析出来的信息进行装包。---http数据包。
　　　　（3）封装tcp数据包，通过三次握手建立tcp。
　　　　（4）客户端发送请求
　　　　（5）服务发送响应
　　　　（6）关闭tcp连接。

　　7、当我们在浏览器输入一个url，浏览器加载出这个页面，中间做了哪些事？

　　　　（1）客户端解析url，封装数据包，建立连接，发送请求。
　　　　（2）服务器返回url对应资源文件给客户端，比如：index.html。
　　　　（3）客户端检查index.html是否有静态资源（引用外部文件），比如js，css，图片。有的话再分别发送请求，来获取这些静态资源。
　　　　（4）客户端获取所有静态，通过html语法，完全将index.html页面显示出来。　

　　8、 http的请求方法：

　　　　get请求：get（获取）-->获取服务器的指定资源--->涉及到筛选一些信息--->请求参数：主要拼接在url中。--->不安全（别人可以通过url获取信息）--->请求参数的大小受限。
　　　　post请求：post（邮递）--->向服务器传递数据--->请求数据是方法在请求实体中的--->安全--->大小不受限。

　　9、客户端请求

　　　　（1）组成：请求行、请求头、空行、请求数据（实体）

　　　　　　　　请求头：请求方法；host地址，http协议版本。

　　　　（2）请求头：

　　　　　　　　①user-agent：客户端标识。
　　　　　　　　②accept：允许传入的文件类型。
　　　　　　　　③Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3
　　　　　　　　④Referer：标识产生请求的网页来自于哪个网页。
　　　　　　　　　　　　　　防盗链
　　　　　　　　⑥cookie：cookie信息。---现在很多网站，必须封装cookie才给数据。
　　　　　　　　⑦post请求重要的请求头：
　　　　　　　　　　content-type:post请求的数据类型
　　　　　　　　　　content-length:post请求数据的长度。
　　　　　　　　⑧ajax请求必须封装的头：
　　　　　　　　　　x-requested-with:xmlhttprequest

　　10、服务器响应：

　　　　（1）组成：状态行、响应头、空行、响应正文。

　　　　（2）响应头

　　　　　　　　Content-Type：text/html;charset=UTF-8

　　　　（3）状态码（面试常考）

　　　　　　　　①1XX:表示服务器成功接收部分请求，还需要发剩余请求才能处理整个过程。（处理了一半）
　　　　　　　　②2XX:标识服务器成功接收请求并处理完整个过程。（成功）
　　　　　　　　　　　200成功
　　　　　　　　③3XX:为了完成请求，客户端需要进一步细化请求。
　　　　　　　　　　　302：重定向
　　　　　　　　　　　304：使用缓存资源
　　　　　　　　④4XX：客户端请求错误。（url写错了）
　　　　　　　　　　　404:服务器无法找到请求内容。
　　　　　　　　　　403:服务器拒绝访问，权限不够。
　　　　　　　　⑤5XX:服务器错误。
　　　　　　　　　　502：服务器错误
　　　　　　　　500：请求未完成，服务器遇到不可知问题

: CloudXli

相关推荐

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

最新版的iPhone操作系统iOS 14出现了一个不太显眼的变化，苹果开始显示自己的搜索结果，并在用户从主屏幕键入信息查询时直接链接到网站。多位业内人士表示，这种网络搜索功能的出现标志着苹果内部开发的一个重要进展，可能会对谷歌搜索发起更全面的竞争奠定基础。

章鱼之家 0喜欢 / 0评论 2020-10-29

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 0喜欢 / 0评论 2020-07-31

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 0喜欢 / 0评论 2020-06-26

全文搜索引擎 Elasticsearch

全文搜索属于最常见的需求，开源的Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Ela

yanweiqi 0喜欢 / 0评论 2020-06-25

数据专家CNZZ简介

CNZZ统计提供多角度的数据统计、对比、以及生成报表功能。便于您更及时全面的掌握贵站情况。CNZZ统计中提供网站实时访问流量数据，在统计后台左侧菜单中提供每项数据报表的入口按钮，方便您查看相关数据。主要数据报表功能项为：流量分析、来源分析、受访分析、访客分

章鱼之家 0喜欢 / 0评论 2020-06-14

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 0喜欢 / 0评论 2020-06-08

网站优化：分析网站的快照没有更新的原因是什么?

作为一个网站优化者，每个人都应该知道百度快照。百度快照将随着网站内容的更新而更新。快照的更新速度与网站的更新速度成正比。如果你10天不更新，这意味着网站有问题。下面就让壹起航的小编将介绍为什么网站快照没有更新的原因。如果网站的外部链接质量不好，不仅会影响到

yanweiqi 0喜欢 / 0评论 2020-06-01

Elasticsearch到底哪点好？

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？之前在文章中也陆陆续续的提到过，龙叔是做搜索引擎的。人们通常将 Elastic Stack 称为 ELK Stack，目前 Elastic

IceStreamLab 0喜欢 / 0评论 2020-05-31

1、网络爬虫

　　网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或脚本。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚木，可以自动采集所有其能够访问到的页而内容，以获取相关数据。

athrenzala 0喜欢 / 0评论 2020-05-30

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。现在头条搜索刚开始，比如容易收录网站，大家可以试试。而且还可以官网认证，都是免费的。

athrenzala 0喜欢 / 0评论 2020-05-28

【汉文】SEO白帽和SEO黑帽的技术区别

SEO白帽这个名词我相信很多从业SEO优化的人最经常听到的就是这个名词，其实任何做SEO优化的人都可以称自己为SEO白帽子，在SEO大牛个人认为：SEO并没有真正意义上的黑帽白帽之分，可以说这两者所使用的技术都是交错、相互、有关联的。任何SEO优化人员在操

chenluhan 0喜欢 / 0评论 2020-05-28

信息搜集之搜索引擎

------->各级指纹识别，GitHub /源代码泄漏，敏感文件和地址。百度，谷歌，360……// 帮助我们快速缩小目标搜索范围。// 不能保证我们下载的文件的安全性

yanweiqi 0喜欢 / 0评论 2020-05-09

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，和通数据库Elasticsearch客户真实实践分享文中涉及到的图片特征提取，使用了yongyuan.name的VGGNet库，再此表示感谢！“图片搜索”是作为导购类网站比较常见的一

etedyh 0喜欢 / 0评论 2020-05-10

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 0喜欢 / 0评论 2020-04-17

怎么防止优化好的关键词忽然排名下降

当我们优化我们的网站时，有时我们发现我们优化好的关键词的排名突然变得不稳定。我们能设法避免吗?除非他或她必须更改标题，否则不要随意更改标题。这将导致整体关键词排名下降，并严重导致网站降级的迹象。页面的关键字密度与页面的关键字排名密切相关。有些网站管理员过于

huhu 0喜欢 / 0评论 2020-03-01

搜索引擎之倒排索引浅析

上一篇文章 ElasticSearch 术语中提到了倒排索引，那么这篇文章就来讲解下什么是倒排索引，倒排索引的数据结构以及 ElasticSearch 中的倒排索引。倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先

qiburen 0喜欢 / 0评论 2020-03-20

世界需要Cliqz，世界需要更多的搜索引擎

世界上只有很少的真正独立的搜索引擎。谷歌，必应，Yandex和百度是最著名的公司。大多数其他参与者只是对这四家搜索引擎结果的再加工，并且依赖于它们的功能和商业模式。又或者独立搜索引擎是非常本地化并且规模很小，不能成为大搜索引擎的替代。它是完全独立的，不使用

WEB程序员 0喜欢 / 0评论 2020-03-18

搜索引擎之倒排索引浅析

倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先拿一本书《重构改善既有代码的设计》举个例子：。想象一下你要搜索 case语句这个关键词在这本书的页码，你应该怎么办呢？有些技术类的书籍会在最后提供索引页，这本书的索

yanweiqi 0喜欢 / 0评论 2020-03-03

网站排名下降了怎么办？

定期检查网站的各种链接，看一下是否存在大量的无效链接，这些都会影响到访客和百度蜘蛛的浏览体验，时间久了，搜索引擎蜘蛛就会停止爬行网站，自然而然影响收录，严重的话网站还会被降权，另外建议一定要做404页面，这也是搜索引擎的建议。

柳永法的个人 0喜欢 / 0评论 2020-03-03

做好网站优化，必须注意这些问题

企业网站建设肯定是非常重要的。这一点被企业所深刻的认识到，但是网站建设不可以盲目进行，而是要有技巧性的完成，这里指的是后期优化工作，因为建站相关事宜，由建站公司来完成，只要是经验丰富的公司，都不会有什么问题，可以保证网站的效果，但是指望着网站上线后自己发挥

etedyh 0喜欢 / 0评论 2020-03-03

网站元数据meta标签

Meta标签是HTML语言中HEAD区的一个辅助性标签，它位于HTML文档头部的<head>标记和<title>标记之间，它提供用户不可见的信息。META标签有两个重要的属性：HTTP标题信息和页面描述信息。name属性是描述网页

柳永法的个人 0喜欢 / 0评论 2020-02-13

最全BT磁力搜索引擎，国外最受欢迎的BT-磁力网站（整理分享，每日不断更新...）

2、磁力天堂(BT磁力搜索下载-磁力天堂)www.berrh.com (资源多，下载速度可以，建议用手机访问)

柳永法的个人 0喜欢 / 1评论 2020-02-01

数据结构与算法简记--剖析搜索引擎背后的经典数据结构和算法

麻雀虽小，五脏俱全，跟大型搜索引擎相比，实现一个小型搜索引擎所用到的理论基础是相通的。搜索引擎把整个互联网看作数据结构中的有向图，把每个页面看作一个顶点。如果某个页面中包含另外一个页面的链接，那我们就在两个顶点之间连一条有向边。使用布隆过滤器快速并且非常节

yanweiqi 0喜欢 / 0评论 2020-01-17

SEO基础概念

搜索引擎营销又主要分为两种：搜索引擎优化和付费点击。搜索引擎优化指通过优化网站和页面并让它们在搜索结果的页面中展示，而付费点击指通过购买搜索引擎的点击将用户带到自己的网站。（通常）这些点击来自搜索结果页面中的“赞助商链接”。反向链接之所以对SEO异常重要，

成人用品 0喜欢 / 0评论 2020-01-11

前端面试题--HTTP

请描述一下GET和POST的区别?　　get是从服务器上获取数据，post是向服务器传送数据。同时，get形式的url这种表示法是可以缓存的，显著提升了客户端和服务端的性能。　　而不安全操作，如确定订购、下订单、达成协议和删除页面等，应该通过post执行，

athrenzala 0喜欢 / 0评论 2020-01-03

状态码301和302区别

问题就在于，有的时候搜索引擎，尤其是Google，并不能总是抓取目标网址。这时Google 很有可能会仍然显示网址A。302 重定向所造成的网址URL 劫持现象，已经存在一段时间了。从一些搜索结果来看，网址劫持现象有所改善，但是并没有完全解决。注意： 30

etedyh 0喜欢 / 0评论 2020-01-02

勒索病毒自救指南

第一次遇到勒索病毒是在早几年的时候，客户因网站访问异常，进而远程协助进行排查。登录服务器，在站点目录下发现所有的脚本文件及附件后缀名被篡改，每个文件夹下都有一个文件打开后显示勒索提示信息，这便是勒索病毒的特征。作为一个安全工程师，而非一个专业的病毒分析师，

etedyh 0喜欢 / 0评论 2019-12-29

认识爬虫

爬虫分为两种：1.通用爬虫。之后把这个爬过的URL放入已爬过的队列。面向主题爬虫，面向需要爬虫：会针对某种特定的内容爬取信息，尽可能和需求相关。

etedyh 0喜欢 / 0评论 2019-12-27

每周AI应用方案精选：媒体情绪搜索引擎APP；生化智能制药平台等

每周三期，详解人工智能产业解决方案，让AI离你更近一步。解决方案均选自机器之心Pro行业数据库。基于语言学的分析框架与立即可操作的工具相结合，将非结构化的社交媒体内容量化并转化为强大的情绪指标。提供实时 Twitter 的情绪时间序列数据。它给投资者提供了

segments 0喜欢 / 0评论 2019-12-25

分布式全文搜索引擎ElasticSearch—超详细

目的是通过简单的restful API来隐藏Lucene的复杂性，从而使全文检索变得简单，达到“开瓶即饮”的效果。 Solr重量级，支持很多种类型操作，支持分布式，它里面有很多功能，但是在实时领域上没有ES好。ES服务只依赖于JDK，推荐使用JDK1.7+

athrenzala 0喜欢 / 0评论 2019-12-22

最全BT磁力搜索引擎索引（整理分享，不断更新...）

它也是世界上最大的动漫专用种子索引站。非常有名，一手动漫 bt，另外一手是 18+ bt。

athrenzala 0喜欢 / 4评论 2019-12-21

PHP 到底排第几？TIOBE 排行榜来证明！

做为一名程序员，都比较关注其使用编程语言的热度，一方面编程语言的热度决定了它拥有多大的市场，另一方面也关系到行业内程序员选择机会有多大。比如，我们经常会听到一句话：PHP 是宇宙第一编程语言。关于这个问题，我们很容易在 TIOBE 排行榜上得到求证，上图是

Asonhaiyu 0喜欢 / 0评论 2019-12-17

200个国内外经济/金融/行研/咨询数据网站大全（附链接）

本文为你提供200个国内外经济、金融、行研、咨询数据网。资料搜集是个相当繁琐与累的工作，也是投资入门的基本，良好的信息资料搜集能力有利于我们快速了解投资主体的基本情况，为后续的调研及一手资料的获得打下较好的基础。目前国内主要的搜集引擎有如下10个，近期还有

章鱼之家 0喜欢 / 0评论 2019-12-09

IT兄弟连 HTML5教程 DIV+CSS网页标准化布局的优势

标准的网页都需要对内容进行布局，以前都是采用表格的定位技术，从2005年开始逐步转向DIV+CSS的布局方式，目前绝大多数的网站都是采用这种布局方式。使用DIV+CSS对网站进行布局符合W3C标准，采用这种方式布局通常是为了说明与HTML表格定位方式的区别

sdbxpjzq 0喜欢 / 0评论 2019-12-06

2019.12 搜索引擎最新排名，Elasticsearch 仍然遥遥领先

大数据的搜索平台已经成为了众多企业的标配，Elasticsearch、Splunk、Solr是其中最为优秀和流行的选择。在2019.12 最新搜索引擎排名中，Elasticsearch仍然遥遥领先。除了搜索之外，结合Kibana、Logstash、Beat

hu00sdu 0喜欢 / 0评论 2019-12-05

Chrome设置默认搜索引擎为google.com而非com.hk

方案：。参考网页

yuzhi 0喜欢 / 0评论 2014-01-18

老网站突然不收录了为什么多年的老网站突然不收录的原因及解决方法

突然碰到不收录的况了，那么，你就要从近期网站的情况来找原因了，百度不会无缘无故的不收录你的页面，一定是你网站近期出现异常导致不收录，所以你要细想一下你最近对网站做了什么样的变动。对于网站不收录的情况，很多时候都是在文章质量维度出现了问题，也有少部分是服务器

liaochengseo 0喜欢 / 0评论 2019-11-12

90后技术宅与他的非主流另类搜索引擎Magi

最近，一个名叫 Magi 的搜索引擎成了重点关注对象，据称这个搜索引擎和我们常见的搜索引擎很不一样，有一种程序员们钟爱的 X 冷淡风格。于是我们打开 Magi 看了看。确实，这个页面看着就很让人舒爽。

陈佳惠 0喜欢 / 0评论 2019-11-21

深入搜索引擎原理

之前几段工作经历都与搜索有关，现在也有业务在用搜索，对搜索引擎做一个原理性的分享，包括搜索的一系列核心数据结构和算法，尽量覆盖搜索引擎的核心原理，但不涉及数据挖掘、NLP等。文章有点长，多多指点~~看一个实际的例子：如何从一个亿级数据的商品表里，寻找名字含

athrenzala 0喜欢 / 0评论 2019-11-19

使用sphinx search打造你自己的中文搜索引擎

Google搜索引擎建立至今已经快20年了，之后全球各类大大小小类似的搜索引擎也陆续出现、消亡。国内目前以百度为大，搜狗、360、必应等也势在必争。搜索引擎技术也发展的相当成熟，同时也就出现了很多开源的搜索引擎系统。比如，Solr、Lucene、Elast

看上去很美 0喜欢 / 0评论 2019-11-18

搜索引擎ElasticSearch源码编译安装和Debug环境搭建

选择如上的选项，点击Finish，导入源码到IDEA完成。使用IntelliJ在本地调试ES，有两种方式，一种是直接在IntelliJ上运行ES进行调试，但需要很多繁杂得配置。另一种是远程调试，先用debug模式，在本地启动ES服务：./gradlew r

王明晓 0喜欢 / 0评论 2019-11-17

2019.11 搜索引擎最新排名，Elasticsearch仍然遥遥领先

大数据的搜索平台已经成为了众多企业的标配，Elasticsearch、Splunk、Solr是其中最为优秀和流行的选择。在2019.11 最新搜索引擎排名中，Elasticsearch仍然遥遥领先。Elasticsearch是一款基于Lucene的开源分布

wawaboss 0喜欢 / 0评论 2019-11-15

认知智能加速落地新一代智能搜索应运而生

目前，随着人工智能技术的快速发展，得益于自然语言理解、知识图谱等技术的支撑，传统的信息检索正在向新一代智能搜索转变。“新一代搜索将主要分为两个方向，一个方向是从通用搜索进入行业企业，成为行业的智能决策支撑；另一个方向则在更遥远的未来，搜索是在个人端的技术演

liujainq 0喜欢 / 0评论 2019-11-15

确认了！微软 Edge 浏览器将发布 Linux 版

微软正在全面重制其 Edge Web 浏览器，它将基于开源 Chromium 浏览器。微软还要将新的 Edge 浏览器带到 Linux 桌面上，但是 Linux 版本可能会有所延迟。微软的 Internet Explorer 曾经一度统治了浏览器市场，但在

看上去很美 0喜欢 / 0评论 2019-11-12

一个在网络上非常爆红的「搜索引擎」，可能比百度都好用

最近这两天，在网络上走红了一款「搜索引擎」，用过它，看见它的人都说：这个搜索引擎才是时代（世代）该有的搜索引擎。大家好，我叫：Magi 。人人见了我都说我是这个世代该有的搜索引擎，说实话，你们太过赞誉了，我其实很一般，之所有让大家感觉优秀，应该都是同行的衬

huhu 0喜欢 / 0评论 2019-11-09

使用VP树和OpenCV构建一个图像哈希搜索引擎

在本教程中，您将学习如何使用OpenCV、Python和VP树构建一个可伸缩的图像哈希搜索引擎。仅使用单个整数唯一地量化一个图像的内容。根据计算得到的哈希值，在图像数据集中查找重复或近似重复的图像。为了找到近似重复的图像，我们的原始图像哈希方法需要我们去执

喝杯红酒交个朋友 0喜欢 / 0评论 2019-11-09

如何做seo优化才能获取搜索引擎排名？

现在网络上有很多网站，但是排名和流量都不理想，所以很多企业会很苦恼。所以我们经常思考如何使网站被搜索引擎喜欢，被用户喜欢，有一个良好的排名和流量？在这个鱼龙混杂的网络中，seo优化实际上是seo网站优化的一部分。许多做网站优化的公司只是做内容，外链，甚至是

成人用品 0喜欢 / 0评论 2019-11-09

19、 Python快速开发分布式搜索引擎Scrapy精讲—css选择器

extract_first('')获取过滤后的数据，返回字符串，有一个默认参数，也就是如果没有数据默认是什么，一般我们设置为空字符串

lcyangcss 0喜欢 / 0评论 2019-11-08

两个域名指向同一ip 对网站优化影响

很多新手SEOER咨询我司客服人员，将一个域名绑定到主机上，给搜索引擎提供唯一的身份，这样便于网站收录与排名。两个域名指向同一ip，对网站优化影响，分为两种情况：。但要注意的是，如果有一个域名被K，另一个域名也将可能受到牵连。这样好处很多，不仅让搜索引擎容

athrenzala 0喜欢 / 0评论 2019-11-07