linux nutch1.0安装配置

陈小冬的技术 2013-03-03

1,下载nutch1.0

下载地址:http://archive.apache.org/dist/nutch/,下载这个文件nutch-1.0.tar.gz

2,上传到服务器

上传位置:/home/www/,解压nutch-1.0.tar.gz

#tar -xvf nutch-1.0.tar.gz

重命名

#mv nutch-1.0 nutch

3,修改配置文件

在/home/www/nutch目录下新建urls

#mkdir urls

进入url目录

#cd urls

新建seed.txt文件,写入要抓去的网站地址

#touch seed.txt

#vim seed.txt

往seed.txt文件中写入http://www.163.com

修改配置文件

vim /home/www/nutch/conf/crawl-urlfilter.txt

vim /home/www/nutch/conf/regex-urlfilter.txt

把上面两个文件末尾+都改成+^http://([a-z0-9]*\.)*163.com

4,发布到tomcat

tomcat安装在/usr/local/tomcat位置

把/home/www/nutch/nutch-1.0.war拷贝到tomcat目录的webapps下

#cp /home/www/nutch/nutch-1.0.war /usr/local/tomcat/webapps

启动tomcat

#/usr/local/tomcat/bin/start.sh

修改tomcat中项目的配置文件

#vim /usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml

改成以下代码

<configuration>
<property>
        <name>http.agent.name</name>
        <value>nutch-1.0</value>
</property>
<property>
        <name>searcher.dir</name>
        <value>/home/www/nutch/crawl</value>
</property>
</configuration>

 注意这个地方的http.agent.name,网上的很多安装配置都没写这个,没写这个在最后一步找不到结果的。

修改完以上文件后,重启tomcat

5,抓取网页数据

进入nutch根目录

#cd /home/www/nutch

执行抓取命令

#bin/nutch crawl urls -dir crawl -depth 3 -topN 5

urls:是之前建立的urls抓取网页的文件地址

第二个crawl:是抓取到的内容索引文件存放的位置

depth:要抓取网站顶级网址为起点的爬行深度

threads:指定并发的线程数

topN:一个网站保存的最大页面数

抓取网页的时候,一定要注意想要的网站能ping通,如果不能ping通的话,在/etc/resolv.conf文件中加入以下内容:

nameserver 202.106.0.20

6,搜索内容

打开http://192.168.1.99:8080/nutch-1.0/search.jsp,输入相关内容搜索即可,得到以下页面。

linux nutch1.0安装配置

看到这个就大功告成了。

相关推荐

leshem / 0评论 2010-06-05