网络传输数据解析(SAX)

weiqiyiji 2011-02-20

    来到公司时间已经快有五个月了,虽然在整个公司不算什么老员工,但是在我们Android组已经差不多算是最初的了,呵呵,距离元老级的还差的远啊,不仅是时间,更是技术。

最近,公司不断扩大Android组,所以又见到了新的面孔,而我们的PM也给我们分配了一个小小的任务,给新人讲解Android知识,不仅是对过去的总结,也是对新人的跟快的直接的知道。我的分配任务其实算最少的,也就是网络解析XML数据,本来我以为是通过不同的方法:DOM/SAX/PULL。但是鉴于实用性所以只是让我们做SAX方面的总结并且做出PPT,模版也给我们了,好了,不扯淡了,现在就开始SAX解析XML的总结。

|--所用到的关键字:XML/SAX

XML:(ExtensibleMarkupLanguage)即可扩展标记语言,它与HTML一样,都是SGML(StandardGeneralizedMarkupLanguage,标准通用标记语言)。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。

SAX:SAX(simpleAPIforXML)是一种XML解析的替代方法。相比于DOM,SAX是一种速度更快,更有效的方法。它逐行扫描文档,一边扫描一边解析。而且相比于DOM,SAX可以在解析文档的任意时刻停止解析,但任何事物都有其相反的一面,对于SAX来说就是操作复杂。

|--对比SAX和DOM解析XML

|--JAVA解析XML通常有两种方式:DOM和SAX。DOM(文档对象模型)是W3C标准,提供了标准的解析方式,但其解析效率一直不尽如人意,这是因为DOM解析XML文档时,把所有内容一次性的装载入内存,并构建一个驻留在内存中的树状结构(节点数)。如果需要解析的XML文档过大,或者我们只对该文档中的一部分感兴趣,这样就会引起性能问题。

|--手机的内存本来就小,考虑性能和充分利用资源的条件下,所以在做手机开发的时候我们一般不用DOM解析。

|--其实Android已经给我们嵌入了PULL了,我们不需要再添加第三方jar包来支持,我们在以后再说,其实PULL和SAX解析很相似,都是轻量级的解析。

|--SAX和DOM优缺点比较

SAX:优点:

1、逐行扫描文档,一边扫描一边解析

2、可以在解析文档的任意时刻来停止解析

SAX:缺点:

1、操作复杂

2、添加或删除内容比较麻烦

DOM:优点

1、全部装载内存,对各个节点的操作灵活

2、对于节点的添加于删除比较方便灵活

3、简单,便于操作

DOM:缺点

1、消耗内存

2、需要全部转载到内存才可以解析,如果文件大的话,时间和内存都够呛

|--SAX的工作原理

SAX,它既是一个接口,也是一个软件包.但作为接口,SAX是事件驱动型XML解析的一个标准接口不会改变SAX的工作原理简单地说就是对文档进行顺序扫描,当扫描到文档(document)开始与结束、元素(element)开始与结束、文档(document)结束等地方时通知事件处理函数,由事件处理函数做相应动作,然后继续同样的扫描,直至文档结束。

大多数SAX都会产生以下类型的事件:

1.在文档的开始和结束时触发文档处理事件。

2.在文档内每一XML元素接受解析的前后触发元素事件。

3.任何元数据通常由单独的事件处理

4.在处理文档的DTD或Schema时产生DTD或Schema事件。

5.产生错误事件用来通知主机应用程序解析错误。

|--SAX解析文档过程举例

对于一个XML文档举例来说

<doc>

<para>Hello,World!</para>

</doc>

其解析的过程为:

1.startdocument

2.startelement:doc......

3.startelement:para.....

4.characters:Hello,World!

5.endelement:para......

6.endelement;doc......

7.enddocument

|--对于解析过程中的每一步都会有事件发生,都会触发相应接口中的事件处理程序。

编写程序的步骤为:

(1)创建事件处理程序(也就是编写ContentHandler的实现类,一般继承自DefaultHandler类,采用adapter模式)

(2)创建SAX解析器

(3)将事件处理程序分配到解析器

(4)对文档进行解析,将每个事件发送给事件处理程序

|--SAX模型

过程:

1.首先SAXParserFactory来创建一个SAXParserFactory实例

SAXParserFactoryfactory=SAXParserFactory.newInstance();

2.根据SAXParserFactory实例来创建SAXParser

3.SAXParser产生SAXReader

XMLReaderreader=factory.newSAXParser().getXMLReader();

4.XMLReader加载XML,然后解析XML,在解析的过程中触发相对于接口中的事件处理程序

|--SAX接口介绍

|--ContentHandler接口(主要用到的接口)

ContentHandler是Java类包中一个特殊的SAX接口,位于org.xml.sax包中。该接口封装了一些对事件处理的方法,当XML解析器开始解析XML输入文档时,它会遇到某些特殊的事件,比如文档的开头和结束、元素开头和结束、以及元素中的字符数据等事件。当遇到这些事件时,XML解析器会调用ContentHandler接口中相应的方法来响应该事件。

ContentHandler接口的方法有以下几种:

voidstartDocument()

voidendDocument()

voidstartElement(Stringuri,StringlocalName,StringqName,Attributesatts)

voidendElement(Stringuri,StringlocalName,StringqName)

voidcharacters(char[]ch,intstart,intlength)

|--DTDHandler接口

DTDHandler用于接收基本的DTD相关事件的通知。该接口位于org.xml.sax包中。此接口仅包括DTD事件的注释和未解析的实体声明部分。SAX解析器可按任何顺序报告这些事件,而不管声明注释和未解析实体时所采用的顺序;但是,必须在文档处理程序的startDocument()事件之后,在第一个startElement()事件之前报告所有的DTD事件。

DTDHandler接口包括以下两个方法

voidstartDocumevoidnotationDecl(Stringname,StringpublicId,StringsystemId)nt()

voidunparsedEntityDecl(Stringname,StringpublicId,StringsystemId,StringnotationName)

|--EntityResolver接口

EntityResolver接口是用于解析实体的基本接口,该接口位于org.xml.sax包中。

该接口只有一个方法,如下:

publicInputSourceresolveEntity(StringpublicId,StringsystemId)

解析器将在打开任何外部实体前调用此方法。此类实体包括在DTD内引用的外部DTD子集和外部参数实体和在文档元素内引用的外部通用实体等。如果SAX应用程序需要实现自定义处理外部实体,则必须实现此接口。

|--ErrorHandler接口

ErrorHandler接口是SAX错误处理程序的基本接口。如果SAX应用程序需要实现自定义的错误处理,则它必须实现此接口,然后解析器将通过此接口报告所有的错误和警告。

该接口的方法如下:

voiderror(SAXParseExceptionexception)

voidfatalError(SAXParseExceptionexception)

voidwarning(SAXParseExceptionexception)

相关推荐