chaowanghn 2013-09-28
看这里的回复http://www.v2ex.com/t/62657
42回复|直到2013-03-1823:08:21PM
1
for4200天前♥3
Python
+requests
+lxml
+celery
2
xdeng200天前
@for4-.-!要学这么多东西啊
3
for4200天前
@xdeng
第一个是编程语言
后面三个是可能需要用到的库
这是我认为的写一个爬虫最简单易学的搭配
4
xieren58200天前
Node+jquery
5
liuxurong200天前
我是requests+pyquery
另外
@for4celery通常用来做什么
6
xdeng200天前
@xieren58
@liuxurong这个网站里的全都是做网页的么
7
shinwood200天前♥2
试过python+Scrapy,感觉不错。
http://scrapy.org/
8
greatghoul200天前
@shinwood这个用起来的确骚爽。
9
colincat200天前viaAndroid
java
10
for4200天前♥1
@liuxurong
我是把爬虫的各个功能部分分成小任务,然后按需放入任务队列中.这样既能有效的降低爬虫的复杂度,同时用队列也能提高爬虫的稳健度,比如失败重做.
还有,使用celery后你的爬虫就变成分布式的了,可以简单的布置在多台机器上跑
11
wingoo200天前
scrapy
12
twm200天前
JAVAPHP
13
dulao5200天前
PHP+curl_multi_*
不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
14
xjay200天前
scrapy
不解释
15
PrideChung200天前
ruby+norogiri
http://nokogiri.org/
16
amxku199天前
Python
+curl
+celery
17
1up199天前
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/WebScraping101withPython
18
cloverstd199天前
Python:urllib,urllib2,re
19
sobigfish199天前
前几天用nodejs写个玩,但不知道怎么部署在只有web服务的PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。
require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
20
chuck911199天前
还有人写个爬虫还非要用芹菜...
Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒
21
atom199天前
@twm
@colincat
同为javaer,能否推荐下是哪个库?
22
sohoer199天前
@atom
JAVA?
HttpURLConnection+Regex=Spider
23
Linxing199天前viaAndroid
pythonbeautifulsoupurlib爬文章
24
liuxurong199天前
@for4谢谢。有没有celery的中文资料
25
crazybubble199天前♥1
@atom用regex来做htmlparsing不推荐,我推荐用jsoup。
26
colincat199天前viaiPhone
@sohoerhtmlparsehttpclient
27
workaholic199天前♥1
php+snoopy
28
akalanala199天前
@crazybubble同推荐.
29
binux199天前
python+tornadoAsyncHTTPClient+PyQuery
30
sonicwu199天前
Java
+jsoup
Python
+BeautifulSoup
+urllib
+lxml
31
dingyaguang117199天前
Python
+BeautifulSoup
+lxml
+Scrapy
32
atom199天前
@crazybubble
是个很棒的库,看到http://try.jsoup.org/我就喜欢上它了
33
zoran198天前
Java可以试试这个https://github.com/zhuoran/crawler4j
34
yangxin0198天前
看过别人用C
35
Xrong198天前
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
36
zdwalter197天前
phantomjs,casperjs
37
zhouquanbest196天前
python+pyquery是个好东西
会jquery就能写
38
nojt7Zm194天前
php
39
kingwkb194天前
之前用python,现在换到ruby
http://s.yanghao.org/
40
gameending194天前
python跟java都写过,python很简洁,java的话我觉得也还不错
41
lbj96347194天前
node.jsorpython.:-)
42
kdepp82天前
node+cheerio