使用nutch检索的历程

xiaoxiaoabc 2011-04-26

最近开始做一个项目的搜索引擎，技术选型为爬虫nutch。开始以为除了cms系统发布的静态页面以外，还有数据库存储的结构化数据需要索引(其实这些用页面是用jsp展示的，在系统中已经有了)。所以用爬虫爬完网站后，就想着再把结构化的数据通lucene的api写进nutch的索引中，最后通过多次尝试发现很难实现。虽然能将lucene建立的索引追加进到nutch的索引中，可是却很难读出来(有一款luke软件可以，可是想要赶紧完成项目，这个luke的源码没有时间来读)。

lucene是一个平面化的存储，一个索引就相当于数据库的一张表。而nutch的存储结构是hdfs存储系统，hadoop的分布式系统，索引里面写入了很多hadoop的数据，而且其中10个字段title/url/segment/host/site/content/anchor/boost/digest/tstamp业也不像原生的lucene索引的存放方式。多次尝试发现用lucene基础api读取nutch的索引很难实现。

最近才发现原来nutch的搜索应用中的一个的一个配置文件regex-urlfilter.txt ，里面默认在后台只爬取静态页面。所以导致我开始的想法。

知道这个以后好办了，修改后台和前台应用的配置文件，消除对php/jsp/xxAction.do等动态url的过滤：

方法如下：修改conf下面的2个文件regex-urlfilter.txt，crawl-urlfilter.txt

将

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

修改成

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

从而允许动态传参数的?=&等url的爬取。

: xiaoxiaoabc

相关推荐

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 0喜欢 / 0评论 2020-06-21

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。Nutch的开发人员完成了相应的开源实现HDFS和

tanxinwhu 0喜欢 / 0评论 2019-08-26

二次开发nutch的恩恩怨怨

今天下午，总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在，一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以随意的修改满足自己的需求，心理历程不可谓不复杂。

crazyhulu 0喜欢 / 0评论 2014-09-29

开源搜索引擎

开源搜索引擎，或者准确的说开源爬虫系统，目前有nutch和heritrix等，nutch基于hadoop架构，分为1.x和2.x分支。nutch目前用得相对比较多一些。

ach 0喜欢 / 0评论 2014-03-16

运行nutch报错：unzipBestEffort returned null

2014-03-12 16:48:38,031 ERROR http.Http - Failed to get protocol output. nutch1.7\src\plugin\protocol-http\src\java\org\apache\n

Junzizhiai 0喜欢 / 0评论 2014-03-12

开源爬虫框架的优缺点？

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch. 3)Nutch虽然有一套插件机制，而且作为亮点

wawaboss 0喜欢 / 0评论 2017-03-22

nutch 2.1 分布式hbase部署

现在网上针对nutch2.0以上版本的部署内容很残缺。经过两天奋战，终于把nutch2.1在hbase上部署成功了！在此与网友分享。保险起见还是采用推荐的hbase0.90.x版本吧。我觉得是因为gora的原因，因为gora的版本已经很久没有更新。-- P

zxiaozhuT 0喜欢 / 0评论 2013-02-28

nutch0.9实现抓取动态网页部署笔记

如果有需要可以继续添加相关的站点.这个地方用nutch1.0怎么都跑不过，只能换回0.9的版本了。这段意思是跳过在连接中存在?一般按照默认的是不能抓取到的。

hanwentan 0喜欢 / 0评论 2011-06-13

NUTCH中的not in gzip format异常处理

此页面采用这个是一个分段传输，而nutch爬虫则默认采用了非分段式处理，导致构造GZIP时出错，从而影响了后面的GZIP解压失败。是否是分段传输可以在Http headers里面看到，如果是分段传输则有：transfer-encoding：chunked这

liubang000 0喜欢 / 0评论 2011-06-10

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:. 　　Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。在这种情况下，最好的方式

繌子 0喜欢 / 0评论 2011-04-17

Lucene+Nutch搜索引擎开发一：介绍

本系列文章是Lucene+Nutch学习、实现的记录，适用于有java开发经验以及对搜索引擎有初步了解的读者。Lucene实现了文档编目、建立索引、对内容的检索实现。Nutch是一个开源的第二代Web搜索引擎，实现了网页自动爬去，内容编目，存储，查询，提取

喜糖 0喜欢 / 0评论 2011-02-22

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?今天浪费了一天的时间花费在这上面,一开始是用Nutch1.1导入在MyEclipse与Eclipse中的,不断的尝试,不断的调试,上网查阅了太多的文章了,发现按他们每一种的方式

shgege 0喜欢 / 0评论 2011-01-21

web爬虫

web爬虫主要功能是从web中发现，下载以及存储内容。广泛应用于各种搜索引擎中。这个模块还要提取网页中的URL和一些对于索引有用的数据。规范化URL模块，把URL转成标准的格式。URL过滤器，爬虫可以过滤掉不需要的URL。爬虫读取没有访问过的URL，来确定

xiajlxiajl 0喜欢 / 0评论 2010-11-20

Nutch 是一个开源Java 实现的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的架构，采用了非常灵活的插件模式，大部分的核心功能，都可以通过组装插件的方式的来完成。1，下载nutch编码，进行编译。2，进

superdullwolf 0喜欢 / 0评论 2016-10-31

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

2，安装完cygwin，确定配置好环境变量，可以输入cygcheck -c cygwin查看版本 [img][/img]，正确之后就可以进行下一步了。3，到nutch官网下载nutch1.6的版本，1.6的自带编译好的bin，所以可以省去像nutch2.

kuihan0 0喜欢 / 0评论 2016-10-28

全文搜索引擎

本文转载自xum2008的博客，主要介绍13款现有的开源搜索引擎，你可以将它们用在你的项目中以实现检索功能。Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.Nu

leshem 0喜欢 / 0评论 2016-02-17

Google式的搜索引擎实现

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了

Harper 0喜欢 / 0评论 2014-12-16

搜索引擎 Nutch

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

ShareCode 0喜欢 / 0评论 2013-12-31

Nutch中MapReduce的分析

Nutch是最早用MapReduce的项目，Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表，生成抓取列表，抓取内容，分析处理内容，更新Craw

文洲 0喜欢 / 0评论 2013-08-04

linux nutch1.0安装配置

2，上传到服务器。上传位置：/home/www/，解压nutch-1.0.tar.gz. 3，修改配置文件。在/home/www/nutch目录下新建urls. 新建seed.txt文件，写入要抓去的网站地址。把上面两个文件末尾+都改成+^http://*

陈小冬的技术 0喜欢 / 0评论 2013-03-03

nutch 2.0 search accumulo solr

-- This can also have params like compression, bloom filters -->

年轻就要对味 0喜欢 / 0评论 2012-10-03

提高nutch爬取效率

那现在怎样改善它们？1）在每一个本地的爬虫机器上设置DNS，如果是多个爬取机器和一个单独的DNS中心这种情况，那么它就会像有DOS攻击在DNS服务。器上那样，使整个系统变慢。我们经常设置两层，首先命中本地DNS缓存，然后就是大的DNS缓存，就像OpenDN

aoumeior 0喜欢 / 0评论 2012-06-08

Hadoop学习笔记一

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又参考了网上的很多文章，对学习Hadoop中遇到的问题进行了归纳总结。

yhblog 0喜欢 / 0评论 2011-07-29

nutch二次开发环境搭建

如果需要分析hadoop也可以顺便下载hadoop-0.21.0.tar.gz，解压以上两个文件。解压后文件分别为nutch-1.2、hadoop-0.21.0。以上步骤完成后就可以在二次开发的代码中整合nutch以及hadoop了。

laotumingke 0喜欢 / 0评论 2011-05-03

使用ant编译时错误：Specify at least one source--a file or resource

将命令环境切换到Nutch目录下，执行ant命令。.修改build.xml,去掉62-64行，让它不再需要template文件。

MyIgnorance 0喜欢 / 0评论 2011-02-22

Nutch和CasperJS的区别

研究淘宝产品数据抓取的时候遇到动态内容读取的问题，Nutch在这方面并未考虑。比如对于selector的选取并没有那么鲁棒性，经常需要调试来调整代码的输出以避免selector耍性子。

84337565 0喜欢 / 0评论 2013-09-27

Java搜索引擎 Nutch 介绍

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:

qiuqiang 0喜欢 / 0评论 2013-09-27

Nutch

leshem 0喜欢 / 0评论 2010-06-05

Hadoop

Hadoop学习笔记一简要介绍这里先大致介绍一下Hadoop.本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又

gaoyubotaili 0喜欢 / 0评论 2010-06-05

nutch分布式搭建

可惜的是现在的nutch-1.0使用的hadoop架构不是0.20.2，而是使用的0.19.1，配置文件上有些差别。注意：如果要本地调试nutch1.0，那么需要把conf/hadoop-site.xml删除或者改为其他名字，否则的话就是配置好的环境下跑的

whspringer 0喜欢 / 0评论 2010-04-06

用 Hadoop 进行分布式并行编程Ⅰ

Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由于分布式存储对于分布式编程来说是必不可少的，这个框架中还包含了一个分布式文件系统 HDFS。从 Nutch 0.8.0 版本之后，Doug Cutting 把 Nutch 中的分布式文件

dananhai 0喜欢 / 0评论 2010-04-02

第一次使用nutch

Nutch 是一个基于Lucene开发的诞生不久的开放源代码的web搜索引擎.尽管Web搜索是漫游Internet的基本要求,但是现有web搜索引擎的数目却在下降.并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于

看上去很美 0喜欢 / 0评论 2009-11-19

linux下定时任务

最近在学习nutch，想让它每天自动去抓取我们学校的网站内容。cron正是解决这个问题的工具。cron是linux下定时执行工具，可在完全无人工干预的情况下作业。可以用一下命令来手动开启或关闭该任务：。第一段应该定义的是：分钟，表示每个小时的第几分钟来执行

wangol 0喜欢 / 0评论 2009-09-22

提高nutch爬取效率

Here are the things that could potentially slow down fetching下面这些是潜在的影响爬取效率的内容：。1) Have a DNS setup on each local crawling machi

LearningLab 0喜欢 / 0评论 2012-11-05

Python干货丨理想型分布式爬虫架构是怎样的？

说到理想型，相信很多人会情不自禁的点进来看看，毕竟终于有机会来谈谈理想了。当然肯定也会有一部分人认为，任何软件都是根据需求去设计实现的，不存在“理想型”的这种说法。但是我认为好的分布式爬虫架构一定要具备如下特性：。下面详细说一下：。Nutch运行的一套流程

shixiaoguo0 0喜欢 / 0评论 2018-08-31

Nutch简介

Nutch 是一个开源的、 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。在写 Nutch 的过程中，从学院派和工业派借鉴了很多知识：比如， Nutch 的核心部分目前已经被重新用 Map Reduce 实现了。并且 Nut

wawaboss 0喜欢 / 0评论 2016-03-30

Nutch的日志系统

关于二者的基础，请参考

sunthing 0喜欢 / 0评论 2015-03-07

Log4j配置文件及nutch中的日志配置

使用SLF4J作为日志系统时，由于SLF4J只是一个接口，它需要一个具体实现来执行。由于slf4j统一了API接口，因此，若log4j实现来日志输出，则只需要设置配置文件的内容即可，log4j.properties中的配置可以分成2类：。第二类定义了app

hfty0 0喜欢 / 0评论 2015-03-07

Nutch、Hadoop、Lucene、Solr 之间的数据交互

最近一段在研究Nutch、Solr，Nutch 把数据存放在 HDFS 上，想探讨一下 Nutch 是怎么把数据存储到HDFS 上，查看源码分析。在看 Nutch 源码时，没有找到一点于 Lucene 关联的内容，Nutch 把所有的，都按自己的重新写了

lhc0 0喜欢 / 0评论 2012-03-29

Hadoop 从Yahoo向Google的技术转折

仅仅一年的时间，Hadoop就发布了一个真正开源的稳定版本，但是这个版本还不能称为1.0，只能称为0.20.0。尽管如此，Hadoop已经成为eHarmony情人频道、LinkedIn求职频道、Fox互动媒体社区网站等很多大网站的搜索引擎了。另外默多克传媒

dscfirst 0喜欢 / 0评论 2010-05-19

CentOS 5.6 X64下架设 Hadoop完全分布式文件系统

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布

echozj 0喜欢 / 0评论 2014-07-06

Nutch2.1分布式抓取

1准备环境：Hadoop集群、java、mysql数据库，代码可以在eclipse中运行，可以单机模式下插入数据到mysql数据库。element may be a relative or absolute path. If absolute, it is

心中永远的正能量 0喜欢 / 0评论 2014-01-25

Nutch1.7学习笔记：基本环境搭建及使用

说明：Nutch有两个主版本1.x和2.x，它们的主要区别是2.x引入了Gora作为存储抽象层，从而支持各种NoSQL数据库，如HBase，Cassandra等。本文是以1.x的最新版Nutch1.7 为例。上面两行命令是进入解压后的目录，然后执行nutc

JerryDui 0喜欢 / 0评论 2013-11-18

Nutch 2.0 之 Apache Gora 介绍

Apache Gora是一个开源的ORM框架，主要为大数据提供内存数据模型与数据的持久化。目前Gora支持对于列数据、key-value数据，文档数据与RDBMS数据的存储，还支持使用Apache Hadoop来对对大数据进行分析。虽然目前市面上有很多不错

JerryDui 0喜欢 / 0评论 2012-07-21

为什么Hadoop一定是分布式计算的未来？

最近对于Hadoop看得比较多，对它的发展也比较关心，最近了解得越多，也就越相信Hadoop的未来，这里写一篇文章与大家分享分享，为什么我相信Hadoop一定是分布式计算的未来。今天听同事分享了一篇很有意思的讲座，叫做"Why Map-Reduc

MichaelHsu 0喜欢 / 0评论 2012-06-22

linux下定时自动执行某个进程

最近在学习nutch，想让它每天自动去抓取我们学校的网站内容。cron正是解决这个问题的工具。cron是linux下定时执行工具，可在完全无人工干预的情况下作业。可以用一下命令来手动开启或关闭该任务：。第一段应该定义的是：分钟，表示每个小时的第几分钟来执行

Linuxdream0 0喜欢 / 0评论 2009-09-21

Hadoop学习笔记一简要介绍

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又参考了网上的很多文章，对学习Hadoop中遇到的问题进行了归纳总结。

潜龙勿用 0喜欢 / 0评论 2012-01-17

Nutch+Hadoop环境搭建

以前搭建环境或是配置软件从来都没有留Tips的习惯，但实践证明这是错误的——做过不等于记得怎么做，遇到过的错误也不等于今后就不是错误了。Nutch跟Hadoop的搭建困扰了我很久，但回头看看又觉得真正有些问题的其实就几个关键点，所以觉得花些时间写个简单流程

MrTitan 0喜欢 / 0评论 2011-12-06

Nutch为什么不同：Nutch简介

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求，但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎所

enjoyhot 0喜欢 / 0评论 2014-11-19