HTML解析器,Jericho HTML Parser 3.3 发布

jopen 12年前

Jericho HTML Parser是一个开源的Java类库,能够分析和操作HTML文档,包括服务器端标签,并且能够逐字恢复任何无法识别的或无效的HTML。此外,它还提供一个高级的HTML表单操作功能。

此版本包括重要的错误修正和各种增强功能。

以下是一个列出所有元素的示例:

import net.htmlparser.jericho.*;  import java.util.*;  import java.io.*;  import java.net.*;    public class DisplayAllElements {   public static void main(String[] args) throws Exception {    String sourceUrlString="data/test.html";    if (args.length==0)      System.err.println("Using default argument of \""+sourceUrlString+'"');    else     sourceUrlString=args[0];    if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;    MicrosoftConditionalCommentTagTypes.register();    PHPTagTypes.register();    PHPTagTypes.PHP_SHORT.deregister(); // remove PHP short tags for this example otherwise they override processing instructions    MasonTagTypes.register();    Source source=new Source(new URL(sourceUrlString));    List<Element> elementList=source.getAllElements();    for (Element element : elementList) {     System.out.println("-------------------------------------------------------------------------------");     System.out.println(element.getDebugInfo());     if (element.getAttributes()!=null) System.out.println("XHTML StartTag:\n"+element.getStartTag().tidy(true));     System.out.println("Source text with content:\n"+element);    }    System.out.println(source.getCacheDebugInfo());    }  }