Java开源的HTML 解析器,jsoup 1.6.3 发布

jopen 13年前
   <p><a href="/misc/goto?guid=4958341688785985080" target="_blank">jsoup </a>是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。</p>    <ul>     <li>scrape and <a href="/misc/goto?guid=4958341689587539010">parse</a> HTML from a URL, file, or string</li>     <li><a href="/misc/goto?guid=4958341690377233209">find</a> and extract data, using DOM traversal or CSS selectors</li>     <li><a href="/misc/goto?guid=4958341691175015503">manipulate</a> the HTML elements, attributes, and text</li>     <li><a href="/misc/goto?guid=4958341691964333768">clean</a> user-submitted content against a safe white-list, to prevent <abbr title="Cross Site Scripting">XSS</abbr> attacks</li>     <li><a href="/misc/goto?guid=4958341692770942022">output</a> tidy HTML</li>    </ul>    <p><br /> jsoup 1.6.3 发布,该版本重构对 Google App Engine 支持的代码,同时修复了一些解析的问题。<br /> </p>    <p>jsoup的主要功能如下:</p>    <ol>     <li>从一个URL,文件或字符串中解析HTML;</li>     <li>使用DOM或CSS选择器来查找、取出数据;</li>     <li>可操作HTML元素、属性、文本;</li>    </ol>    <p>示例代码:</p>   <pre class="brush:java; toolbar: true; auto-links: false;">File input = new File("/tmp/input.html");  Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");    Element content = doc.getElementById("content");  Elements links = content.getElementsByTag("a");  for (Element link : links) {    String linkHref = link.attr("href");    String linkText = link.text();  }</pre>中文手册:   <a href="http://www.open-open.com/jsoup" target="_blank">http://www.open-open.com/jsoup</a>    <p></p>