你们都用什么来做爬虫的

chaowanghn 2013-09-28

看这里的回复http://www.v2ex.com/t/62657

42回复|直到2013-03-1823:08:21PM

1

for4200天前♥3

Python

+requests

+lxml

+celery

2

xdeng200天前

@for4-.-!要学这么多东西啊

3

for4200天前

@xdeng

第一个是编程语言

后面三个是可能需要用到的库

这是我认为的写一个爬虫最简单易学的搭配

4

xieren58200天前

Node+jquery

5

liuxurong200天前

我是requests+pyquery

另外

@for4celery通常用来做什么

6

xdeng200天前

@xieren58

@liuxurong这个网站里的全都是做网页的么

7

shinwood200天前♥2

试过python+Scrapy,感觉不错。

http://scrapy.org/

8

greatghoul200天前

@shinwood这个用起来的确骚爽。

9

colincat200天前viaAndroid

java

10

for4200天前♥1

@liuxurong

我是把爬虫的各个功能部分分成小任务,然后按需放入任务队列中.这样既能有效的降低爬虫的复杂度,同时用队列也能提高爬虫的稳健度,比如失败重做.

还有,使用celery后你的爬虫就变成分布式的了,可以简单的布置在多台机器上跑

11

wingoo200天前

scrapy

12

twm200天前

JAVAPHP

13

dulao5200天前

PHP+curl_multi_*

不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。

14

xjay200天前

scrapy

不解释

15

PrideChung200天前

ruby+norogiri

http://nokogiri.org/

16

amxku199天前

Python

+curl

+celery

17

1up199天前

http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/WebScraping101withPython

18

cloverstd199天前

Python:urllib,urllib2,re

19

sobigfish199天前

前几天用nodejs写个玩,但不知道怎么部署在只有web服务的PaaS上-,-

cheerio很好用阿,完全是jQuery的语法。

require('http');require('cheerio');require('iconv').Iconv;require('mongodb');

20

chuck911199天前

还有人写个爬虫还非要用芹菜...

Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒

21

atom199天前

@twm

@colincat

同为javaer,能否推荐下是哪个库?

22

sohoer199天前

@atom

JAVA?

HttpURLConnection+Regex=Spider

23

Linxing199天前viaAndroid

pythonbeautifulsoupurlib爬文章

24

liuxurong199天前

@for4谢谢。有没有celery的中文资料

25

crazybubble199天前♥1

@atom用regex来做htmlparsing不推荐,我推荐用jsoup。

26

colincat199天前viaiPhone

@sohoerhtmlparsehttpclient

27

workaholic199天前♥1

php+snoopy

28

akalanala199天前

@crazybubble同推荐.

29

binux199天前

python+tornadoAsyncHTTPClient+PyQuery

30

sonicwu199天前

Java

+jsoup

Python

+BeautifulSoup

+urllib

+lxml

31

dingyaguang117199天前

Python

+BeautifulSoup

+lxml

+Scrapy

32

atom199天前

@crazybubble

是个很棒的库,看到http://try.jsoup.org/我就喜欢上它了

33

zoran198天前

Java可以试试这个https://github.com/zhuoran/crawler4j

34

yangxin0198天前

看过别人用C

35

Xrong198天前

希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。

36

zdwalter197天前

phantomjs,casperjs

37

zhouquanbest196天前

python+pyquery是个好东西

会jquery就能写

38

nojt7Zm194天前

php

39

kingwkb194天前

之前用python,现在换到ruby

http://s.yanghao.org/

40

gameending194天前

python跟java都写过,python很简洁,java的话我觉得也还不错

41

lbj96347194天前

node.jsorpython.:-)

42

kdepp82天前

node+cheerio

相关推荐