loverlucky 2010-11-22
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。
最近用Heritrix下载了大概1.5G左右的网页,但是内容包含了很多HTML标签内容,打算今天搞下HTMLParser,写下简单使用实例。
(待续)