NekoHTML 

NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。

更多NekoHTML信息

 JTidy 

JTidy 是 HTML Tidy用Java实现的移植版本,提供了一个HTML的语法检查器和很好的打印功能。类似它的非Java产品,JTidy可以用来清除格式不好和不对的HTM。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。

更多JTidy信息

 HotSAX 

HotSAX是一个快速,小型的footprint, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。

更多HotSAX信息

 Jericho HTML Parser 

Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库,可以分析和处理HTML文档的一部分,包括一些通用的服务器端标签,同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。

更多Jericho HTML Parser信息

 HTML Parser 

HTML Parser实现即时HTML语法分析程序。

更多HTML Parser信息

 Java HTML Parser 

HTML Parser提供了一组Tag对象,这些对象可以深入解析一棵可搜索的结构树。

更多Java HTML Parser信息

 TagSoup 

TagSoup是一个Java开发符合SAX的HTML解析器.

更多TagSoup信息

 HtmlRipper 

HtmlRipper是一个Java包能够按照预先定义好的规则设置来从Web页中抽取动态数据.

更多HtmlRipper信息

 Cobra 

Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。

更多Cobra信息

 HtmlCleaner 

HtmlCleaner是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为 创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。

更多HtmlCleaner信息

 

 


Email:pe_mail2006 AT 163.com 闽ICP备05011699号 友情链接