java 读html

zhangpeng 2011-02-22

要做个信息查询，需要从别的网站提取一些信息，获取整个网页以后发现想要的内容是一个table，需要取出table每行每单元格的内容，变成自己想要的格式，使用第三方控件HTMLParser来完成。

下载地址：http://htmlparser.sourceforge.net/

StringstrUrl="http://www.baidu.com";(需要查询的网站，这里举例随便的)

URLurl=newURL(strUrl);

//输入流

InputStreamReaderisr=newInputStreamReader(url.openStream());

BufferedReaderbr=newBufferedReader(isr);

//获取html转换成String

Strings;

StringAllContent="";

while((s=br.readLine())!=null)

{

AllContent=AllContent+s;

}

//使用后HTMLParser控件

ParsermyParser;

NodeListnodeList=null;

myParser=Parser.createParser(AllContent,"utf-8");

NodeFiltertableFilter=newNodeClassFilter(TableTag.class);

OrFilterlastFilter=newOrFilter();

lastFilter.setPredicates(newNodeFilter[]{tableFilter});

try{

//获取标签为table的节点列表

nodeList=myParser.parse(lastFilter);

//循环读取每个table

for(inti=0;i<=nodeList.size();i++){

if(nodeList.elementAt(i)instanceofTableTag){

TableTagtag=(TableTag)nodeList.elementAt(i);

TableRow[]rows=tag.getRows();

//循环读取每一行

for(intj=1;j<rows.length;j++){

TableRowtr=(TableRow)rows[j];

TableColumn[]td=tr.getColumns();

//读取每行的单元格内容

for(intk=0;k<td.length;k++){

System.out.print(td[k]..getStringText());//（按照自己需要的格式输出）

}

}

}

}

}catch(ParserExceptione){

e.printStackTrace();

}

: zhangpeng

相关推荐

Python知识点 - Xpath提取某个标签，需要转换为HTML。

# lxml转Html. from lxml import etree. from HTMLParser import HTMLParser. def lxml_to_html(text:etree):. content = etree.tostring(

爱好HtmlCssJs 0喜欢 / 0评论 2019-11-25

Python HTML解析模块HTMLParser用法分析【爬虫工具】

本文实例讲述了Python HTML解析模块HTMLParser用法。分享给大家供大家参考，具体如下：。先简略介绍一下。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序

wgPython 0喜欢 / 0评论 2019-04-05

htmlparser网页抓取

logger.info("分析网站首页的新闻列表，内容为所有网页新闻地址的HTML内容。

RedGuyanluo 0喜欢 / 0评论 2016-02-03

htmlparser页面解析（基础运用）

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。

jkshangss 0喜欢 / 0评论 2012-08-06

jeecms 采集功能优化,基于htmlparser实现,多线程版

为了熟悉一下多线程相关知识，把jeecms采集器类，改成了多线程版，还不是很完善，帖出来大家一起完善，改进。

panyingdao 0喜欢 / 0评论 2011-11-03

HTML Parser 使用例子

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说，htmlparser就是目前最好的html

loverlucky 0喜欢 / 0评论 2010-11-22

htmlparser

简介htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或　　提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。　　毫不夸张地说，htmlparser就是目前最

GATSBYER 0喜欢 / 0评论 2012-03-16

htmlparser中自定义html标签进行解析

但有些时候，我们可能需要自定义非HTML标签实现一些额外的功能，比如我经常使用htmlparser解析并处理页面后需要返回最终的处理结果，一般情况下我们获取html这个根标签，然后toHtml()就可以得到了。这样就会出现数据遗漏的情况，我这里就来讲下我的

souhugirl 0喜欢 / 0评论 2011-11-30

Java实现之网络爬虫

最近公司闲来无事，看到了Apachenutch项目，记得前段时间做了网上数据的抓取，是别人给的代码，自己改动一下代码，然后实现其功能。当初没有深究，所以现研究了一下。从网上看了很多的例子，实现网络爬虫，大概三步走：一是加载所要爬虫的网站。三是爬虫匹配的内容

taowanyy 0喜欢 / 0评论 2014-12-08

HtmlParser初步研究

目的是快速入手，而不是深入研究，做了一下整理，和大家共同讨论一下。HtmlParser主要靠Node、AbstractNode和Tag来表达Html，因为Remark和Text相对简单，此处就将其忽略了。Node是形成树结构表示HTML的基础，所有的数据表

souhugirl 0喜欢 / 0评论 2010-04-12

基于Htmlparser的天气预报程序

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或。该程序是基于命令窗口模式，用htmlparser去抓取页面上的天气信息。通过观察地址栏，我们可以知道页面接收一个中文的参数，这个参数为城市名，所以我

SPARK 0喜欢 / 0评论 2010-04-12

spider简单的爬虫程序

*ParsingDetector可用于检查HTML、XML等文件或字符流的编码构造方法中的参数用于指示是否显示探测过程的详细信息

wusiye 0喜欢 / 0评论 2010-01-05

wx-mina-html-view: 微信小程序渲染html

不支持<form>, <input>, <select>等表单元素.使用方法请参考pages/index目录里的文件.拷贝html-view目录到你的项目.在页面的js/wxml/wxss中, 引入代码:index.js

谷歌架构师 0喜欢 / 0评论 2019-06-21

python入门之tkinter实现简单的RSS功能

tkinter,在上一篇《简单的记事本》中已经了解了一些tkinter的用法，在这里延续了上一篇，加深一下印象。urllib，HTMLPaser库的使用，注意python3已经与python2有了很大不同。对于下面的class Window，定义了一些窗口

Yellowpython 0喜欢 / 0评论 2019-06-21

Java发送Http请求，解析html返回

今天是2008年7月7日星期一，下午一直在学校做个人开始页面。因为离不开google的翻译，所以想把google的翻译整合到我的开始页面中来，于是乎就遇到了一个问题，怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出？另

wusiye 0喜欢 / 0评论 2008-07-08

htmlparser 解析HTML 思路

HTML正则表达式VBVB.NET搜索引擎.有些甚至在Java版本中无法支持的标签也在这个版本中得到了支持。该爬虫可以遵循robot.txt协议文件来获得组织和允许访问的列表。Source把二进制文件转换成相应的字符序列，存储一组未加工的字符序列。

happyzhangyin 0喜欢 / 0评论 2012-08-28

使用 jsoup 对 HTML 文档进行解析和操作(比HTMLParser好）

Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能

wangnan0 0喜欢 / 0评论 2012-03-15

使用 jsoup 对 HTML 文档进行解析和操作

Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能

andyhu00 0喜欢 / 0评论 2011-04-07

jsoup学习

2011-10-2815:00:40|分类：java_js_flex_css|标签：jsoupjava抓取详解|字号订阅。但现在我已经不再使用htmlparser了，原因是htmlparser很少更新，但最重要的是有了jsoup。jsoup是一款Java的

Jym 0喜欢 / 0评论 2013-08-28

ios开发点滴－libxml/HTMLparser.h file not found

libxml/HTMLparser.h file not found 在导入asihttprequest包时出问题导入了libxml2.dylib，但是却提示libxml/HTMLparser.h file not found，那是因为你的开发环境默认的

Theqianduan 0喜欢 / 0评论 2013-05-12

使用 jsoup 对 HTML 文档进行解析和操作

Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能

lanyanai 0喜欢 / 0评论 2012-02-22

HTMLParser .

HTMLParser类的实例化不需要参数。当标记开始和结束时，HTMLParser实例被HTML数据使用，同时调用处理函数。HTMLParser类由用户提供一个期望的行为时，意味着被重载。不同于htmllib中的解析器，这个解析器不检查结尾的标记是否匹配开

heruijun 0喜欢 / 0评论 2011-11-16

用 Python 处理 HTML 转义字符的5种方式（文末附赠python教程）

写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有 JSON 格式，有 XML 文档，不过大部分还是 HTML 文档，HTML 经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。

reaganjava 0喜欢 / 0评论 2019-03-08

扣丁学堂Python培训之处理HTML转义字符五种方式详解

今天扣丁学堂给大家介绍一下关于用Python处理HTML转义字符的5种方式，首先大多数Python初学者觉得写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有 JSON 格式，有 XML 文档，不

yjinhao 0喜欢 / 0评论 2018-01-25

获取CentOS软件源中的updates包

package cn.edu.ruc.extract;= -1) { outputStream.write(b, 0, j); } outputStream.flush();

PioneerFan 0喜欢 / 0评论 2013-07-13

python使用tornado实现简单爬虫

本文实例为大家分享了python使用tornado实现简单爬虫的具体代码，供大家参考，具体内容如下。代码在官方文档的示例代码中有,但是作为一个tornado新手来说阅读起来还是有点困难的,于是我在代码中添加了注释,方便理解,代码如下:. # 设置要爬取的网

tuoxinquyu 0喜欢 / 0评论 2018-07-28

详解用Python处理HTML转义字符的5种方式

写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有 JSON 格式，有 XML 文档，不过大部分还是 HTML 文档，HTML 经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。

XaverSun 0喜欢 / 0评论 2017-12-27

Python实现将HTML转换成doc格式文件的方法示例

本文实例讲述了Python实现将HTML转换成doc格式文件的方法。分享给大家供大家参考，具体如下：。网页上的一些文章，因为有格式的原因，它们在网页上的源码都是带有html标签的，用css来进行描述。本文利用HTML Parser 和docx两个模块，对网

yaoyefengchen 0喜欢 / 0评论 2017-11-20

python处理html转义字符的方法详解

本文实例讲述了python处理html转义字符的方法。分享给大家供大家参考，具体如下：。最近在用Python处理网页数据时，经常遇到一些html转义字符，例如<>等。字符实体一般是为了表示网页中的预留字符，比如>用>表示，防止被浏览

卷卷萌 0喜欢 / 0评论 2016-07-01

Python手机号码归属地查询代码

简单的一个例子，是以前用Dephi写的，前不久刚实现了一个在Python中使用Delphi控件来编写界面程序，于是趁热写一个类似的的查询方案。然后就是窗体了，窗体还是用我之前写的一个Python模块DxVcl，就是可以在Python中调用Delphi界面控

Haopython 0喜欢 / 0评论 2016-05-04

在Python中使用HTMLParser解析HTML的教程

如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。par

loverlucky 0喜欢 / 0评论 2015-04-29

Python实现提取文章摘要的方法

本文实例讲述了Python实现提取文章摘要的方法。分享给大家供大家参考。在博客系统的文章列表中，为了更有效地呈现文章内容，从而让读者更有针对性地选择阅读，通常会同时提供文章的标题和摘要。无论是哪种格式，摘要一般都是文章开头部分的内容，可以按照指定的

PythonGCS 0喜欢 / 0评论 2015-04-21

Python HTMLParser模块解析html获取url实例

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此

lispython 0喜欢 / 0评论 2019-04-18

Python获取网页上图片下载地址的方法

本文实例讲述了Python获取网页上图片下载地址的方法。分享给大家供大家参考。print希望本文所述对大家的Python程序设计有所帮助。

yangwenxin 0喜欢 / 0评论 2015-03-11

Python中使用HTMLParser解析html实例

前几天遇到一个问题,需要把网页中的一部分内容挑出来,于是找到了urllib和HTMLParser两个库.urllib可以将网页爬下来,然后交由HTMLParser解析,初次使用这个库,在查官方文档时也遇到了一些问题,在这里写下来与大家分享.所有的内容写完了

Triagen 0喜欢 / 0评论 2019-04-17

Python采集腾讯新闻实例

目标是把腾讯新闻主页上所有新闻爬取下来，获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标，一步一步地做。步骤1：将主页上所有链接爬取出来，写到文件里。python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。查阅了资料，一开始我

Pythonandme 0喜欢 / 0评论 2019-04-15

python抓取网页内容并进行语音播报的方法

python2.7，下面是跑在window上的，稍作修改就可以跑在linux上。实测win7和raspbian均可，且raspbian可以直接调用omxplayer命令进行播放。利用百度的语音合成api进行语音播报，抓取的页面是北大未名BBS的十大。美食天

wlpython 0喜欢 / 0评论 2018-12-24

详解Node.js串行化流程控制

为了用串行化流程控制让几个异步任务按顺序执行，需要先把这些任务按预期的执行顺序放到一个数组中，这个数组将起到队列的作用：完成一个任务后按顺序从数组中取出下一个。任务完成后应该调用一个处理器函数，告诉它错误状态和结果。为了演示如何实现串行化流程控制，我们准备

kbkiss 0喜欢 / 0评论 2017-05-04

Python tornado队列示例-一个并发web爬虫代码分享

Tornado的tornado.queue模块为基于协程的应用程序实现了一个异步生产者/消费者模式的队列。这与python标准库为多线程环境实现的queue模块类似。一个协程执行到yieldqueue.get会暂停，直到队列中有条目。在一个queue内部维

LHpython 0喜欢 / 0评论 2018-01-09

python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSoup)

tp.feed运行结果如下： title: XHTML 与 HTML 4.01 标准没有太多的不同 body: i love you 程序定义了一个TitleParser类，它是HTMLParser类的子孙。HTMLParser的feed方法将接收数据，并

loverlucky 0喜欢 / 0评论 2014-06-09

解析得到除去标签的txt内容

title=node2.elementAt.toHtml(); /* 教材征订及教师用书登记通知 */

yuanlintufang 0喜欢 / 0评论 2008-09-24

Node.js-串行化流程控制

为了用串行化流程控制让几个异步任务按顺序执行，需要先把这些任务按预期的执行顺序放到一个数组中，这个数组将起到队列的作用：完成一个任务后按顺序从数组中取出下一个。任务完成后应该调用一个处理器函数，告诉它错误状态和结果。为了演示如何实现串行化流程控制，我们准备

BAT 批处理程序 0喜欢 / 0评论 2017-05-03