Java开源的HTML 解析器,jsoup 1.6.3 发布
jopen 13年前
<p><a href="/misc/goto?guid=4958341688785985080" target="_blank">jsoup </a>是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。</p> <ul> <li>scrape and <a href="/misc/goto?guid=4958341689587539010">parse</a> HTML from a URL, file, or string</li> <li><a href="/misc/goto?guid=4958341690377233209">find</a> and extract data, using DOM traversal or CSS selectors</li> <li><a href="/misc/goto?guid=4958341691175015503">manipulate</a> the HTML elements, attributes, and text</li> <li><a href="/misc/goto?guid=4958341691964333768">clean</a> user-submitted content against a safe white-list, to prevent <abbr title="Cross Site Scripting">XSS</abbr> attacks</li> <li><a href="/misc/goto?guid=4958341692770942022">output</a> tidy HTML</li> </ul> <p><br /> jsoup 1.6.3 发布,该版本重构对 Google App Engine 支持的代码,同时修复了一些解析的问题。<br /> </p> <p>jsoup的主要功能如下:</p> <ol> <li>从一个URL,文件或字符串中解析HTML;</li> <li>使用DOM或CSS选择器来查找、取出数据;</li> <li>可操作HTML元素、属性、文本;</li> </ol> <p>示例代码:</p> <pre class="brush:java; toolbar: true; auto-links: false;">File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Element content = doc.getElementById("content"); Elements links = content.getElementsByTag("a"); for (Element link : links) { String linkHref = link.attr("href"); String linkText = link.text(); }</pre>中文手册: <a href="http://www.open-open.com/jsoup" target="_blank">http://www.open-open.com/jsoup</a> <p></p>