陈小冬的技术 2013-03-03
1,下载nutch1.0
下载地址:http://archive.apache.org/dist/nutch/,下载这个文件nutch-1.0.tar.gz
2,上传到服务器
上传位置:/home/www/,解压nutch-1.0.tar.gz
#tar -xvf nutch-1.0.tar.gz
重命名
#mv nutch-1.0 nutch
3,修改配置文件
在/home/www/nutch目录下新建urls
#mkdir urls
进入url目录
#cd urls
新建seed.txt文件,写入要抓去的网站地址
#touch seed.txt
#vim seed.txt
往seed.txt文件中写入http://www.163.com
修改配置文件
vim /home/www/nutch/conf/crawl-urlfilter.txt
vim /home/www/nutch/conf/regex-urlfilter.txt
把上面两个文件末尾+都改成+^http://([a-z0-9]*\.)*163.com
4,发布到tomcat
tomcat安装在/usr/local/tomcat位置
把/home/www/nutch/nutch-1.0.war拷贝到tomcat目录的webapps下
#cp /home/www/nutch/nutch-1.0.war /usr/local/tomcat/webapps
启动tomcat
#/usr/local/tomcat/bin/start.sh
修改tomcat中项目的配置文件
#vim /usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
改成以下代码
<configuration> <property> <name>http.agent.name</name> <value>nutch-1.0</value> </property> <property> <name>searcher.dir</name> <value>/home/www/nutch/crawl</value> </property> </configuration>
注意这个地方的http.agent.name,网上的很多安装配置都没写这个,没写这个在最后一步找不到结果的。
修改完以上文件后,重启tomcat
5,抓取网页数据
进入nutch根目录
#cd /home/www/nutch
执行抓取命令
#bin/nutch crawl urls -dir crawl -depth 3 -topN 5
urls:是之前建立的urls抓取网页的文件地址
第二个crawl:是抓取到的内容索引文件存放的位置
depth:要抓取网站顶级网址为起点的爬行深度
threads:指定并发的线程数
topN:一个网站保存的最大页面数
抓取网页的时候,一定要注意想要的网站能ping通,如果不能ping通的话,在/etc/resolv.conf文件中加入以下内容:
nameserver 202.106.0.20
6,搜索内容
打开http://192.168.1.99:8080/nutch-1.0/search.jsp,输入相关内容搜索即可,得到以下页面。
看到这个就大功告成了。