0推荐
117K 浏览

jsoup 解析HTML信息

可通过DOM,CSS以及类jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API, 可通过DOM,CSS以及类似于jQuery的操作...
0推荐
55K 浏览

使用Jsoup解析和操作HTML

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
0推荐
40K 浏览

PHP的HTTP解析扩展:php_http_parser

php_http_parser 是基于node.js http-parser的PHP扩展,可用于实现纯异步PHP程序
0推荐
38K 浏览

HTML 处理利器 PostHTML 入门教程

PostHTML是一个转换HTML/ XML的工具。 PostHTML本身是非常小的。它只包括一个HTML解析器,一个HTML节点树API和一个节点树stringifier。
jopen 9年前   
0推荐
74K 浏览

使用 xpath 解析 html 的解析器:Jsoupxpath

JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath.为了在jav...
0推荐
43K 浏览

用Ruby编写的XML/HTML解析器:Oga

Oga是一个采用Ruby编写的XML/HTML解析器。它提供了一个易于使用的API来解析,修改和查询文档(使用XPath表达式)。Oga不需要系统库如libxml,使得它能够更简便和更快的安装在...
jopen 10年前   
0推荐
88K 浏览

用于解析HTML的.NET库:AngleSharp

AngleSharp是一个.NET库,让你能够解析基于尖括号的超文本如:HTML, SVG, 和MathML。AngleSharp的一个重要方面是,CSS也可以解析。该解析器构建建立在官方W3C规范之上。
jopen 10年前   
0推荐
41K 浏览

在命令行解析HTML:pup

pup是一个命令行工具,用于处理HTML。它从标准输入读取,打印到标准输出,并允许用户使用CSS选择器过滤页面的某些部分。
jopen 10年前   
0推荐
59K 浏览

Java网页信息抽取组件:HtmlExtractor

HtmlExtractor是一个Java实现的基于模板的通用的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。
0推荐
49K 浏览

处理HTML和XML的Python库:lxml

lxml是Python语言中功能最丰富,最容易使用的XML和HTML文档处理库。它处理速度非常快,同时对内存十分友好,据统计已有超过两百万次的下载量。
jopen 10年前   
0推荐
90K 浏览

提取正文内容的Java类库:BoilerPipe

BoilerPipe是一个开源java类库,能从html中剔除广告和其他附加信息,提取出目标信息,如正文内容。可以通过配置不同的extractor来extract目标内容。
jopen 10年前   
0推荐
45K 浏览

网页去噪,获取网页正文相关开源项目

网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。
jopen 10年前   
0推荐
39K 浏览

XPath 语法

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
jopen 11年前   
0推荐
43K 浏览

Objective-C的HTML解析库集合

Google开源的Gumbo,用的OC对Gumbo的一个封装OCGumbo。 一个功能点就是想根据OCGumbo里面的各种Query、Find方法写一个自动解析器,解析某一页面的时候只需要读取一...
0推荐
44K 浏览

提取HTML信息的 Python 模块:scrape.py

scrape.py是从网页抓取内容的Python模块。使用它,您可以轻松地抓取页面,跟踪链接,并提交表格,Cookies,重定向和SSL自动处理。 (对于SSL,你要么需要一个带socket.s...
jopen 11年前   
0推荐
75K 浏览

HTML解析引擎:Jumony

Jumony Core首先提供了一个近乎完美的HTML解析引擎,其解析结果无限逼近浏览器的解析结果。不论是无结束标签的元素,可选结束标签的元素,或是标记属性,或是CSS选择器和样式,一切合法的,...
jopen 11年前   
0推荐
94K 浏览

类似于JSoup的Net版HTML解析器:NSoup

NSoup是 jsoup (http://jsoup.org) HTML 解析器的一个.NET移植。
jopen 11年前   
0推荐
76K 浏览

使用lxml抓取网页

lxml登场,使用类似lxml的工具,你可以把一个HTML文件转换为XML文件。毕竟,一个XHTML文件属于XML文件的一种。就我们知道的网站作者很少关心HTML文件的规范。大部分的网站有不完整...
jopen 11年前   
0推荐
69K 浏览

HTML 解析/提取器:woody

woody 是一款 Java 的HTML 解析/提取器,用法非常类似 webmagic, 是对其抽取模板完全重写,之所有单独提取出来是因为为来更好可重用。
jopen 11年前   
0推荐
41K 浏览

HTML抽取器:Xsoup

Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。 相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间...
jopen 11年前   
1 2 3 4

经验分享,提升职场影响力

投稿

热门问答

    热门文档