登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
HTML操作类库
(共
64
篇经验)
0
推荐
117K
浏览
jsoup 解析HTML信息
可通过DOM,CSS以及类jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API, 可通过DOM,CSS以及类似于jQuery的操作...
StaSloane
9年前
HTML操作类库
0
推荐
55K
浏览
使用Jsoup解析和操作HTML
jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
EvieReinhar
9年前
HTML操作类库
0
推荐
40K
浏览
PHP的HTTP解析扩展:php_http_parser
php_http_parser 是基于node.js http-parser的PHP扩展,可用于实现纯异步PHP程序
jopen
9年前
HTML操作类库
php_http_parser
0
推荐
38K
浏览
HTML 处理利器 PostHTML 入门教程
PostHTML是一个转换HTML/ XML的工具。 PostHTML本身是非常小的。它只包括一个HTML解析器,一个HTML节点树API和一个节点树stringifier。
jopen
9年前
HTML操作类库
PostHTML
0
推荐
74K
浏览
使用 xpath 解析 html 的解析器:Jsoupxpath
JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath.为了在jav...
gwxd
9年前
HTML操作类库
Jsoupxpath
0
推荐
43K
浏览
用Ruby编写的XML/HTML解析器:Oga
Oga是一个采用Ruby编写的XML/HTML解析器。它提供了一个易于使用的API来解析,修改和查询文档(使用XPath表达式)。Oga不需要系统库如libxml,使得它能够更简便和更快的安装在...
jopen
10年前
HTML操作类库
Oga
0
推荐
88K
浏览
用于解析HTML的.NET库:AngleSharp
AngleSharp是一个.NET库,让你能够解析基于尖括号的超文本如:HTML, SVG, 和MathML。AngleSharp的一个重要方面是,CSS也可以解析。该解析器构建建立在官方W3C规范之上。
jopen
10年前
HTML操作类库
AngleSharp
0
推荐
41K
浏览
在命令行解析HTML:pup
pup是一个命令行工具,用于处理HTML。它从标准输入读取,打印到标准输出,并允许用户使用CSS选择器过滤页面的某些部分。
jopen
10年前
HTML操作类库
pup
0
推荐
59K
浏览
Java网页信息抽取组件:HtmlExtractor
HtmlExtractor是一个Java实现的基于模板的通用的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。
jopen
10年前
HtmlExtractor
HTML操作类库
0
推荐
49K
浏览
处理HTML和XML的Python库:lxml
lxml是Python语言中功能最丰富,最容易使用的XML和HTML文档处理库。它处理速度非常快,同时对内存十分友好,据统计已有超过两百万次的下载量。
jopen
10年前
HTML操作类库
lxml
0
推荐
90K
浏览
提取正文内容的Java类库:BoilerPipe
BoilerPipe是一个开源java类库,能从html中剔除广告和其他附加信息,提取出目标信息,如正文内容。可以通过配置不同的extractor来extract目标内容。
jopen
10年前
HTML操作类库
BoilerPipe
0
推荐
45K
浏览
网页去噪,获取网页正文相关开源项目
网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。
jopen
10年前
HTML操作类库
正文
0
推荐
39K
浏览
XPath 语法
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
jopen
11年前
HTML操作类库
XPath
0
推荐
43K
浏览
Objective-C的HTML解析库集合
Google开源的Gumbo,用的OC对Gumbo的一个封装OCGumbo。 一个功能点就是想根据OCGumbo里面的各种Query、Find方法写一个自动解析器,解析某一页面的时候只需要读取一...
jopen
11年前
Objective-C
HTML操作类库
0
推荐
44K
浏览
提取HTML信息的 Python 模块:scrape.py
scrape.py是从网页抓取内容的Python模块。使用它,您可以轻松地抓取页面,跟踪链接,并提交表格,Cookies,重定向和SSL自动处理。 (对于SSL,你要么需要一个带socket.s...
jopen
11年前
HTML操作类库
scrape.py
0
推荐
75K
浏览
HTML解析引擎:Jumony
Jumony Core首先提供了一个近乎完美的HTML解析引擎,其解析结果无限逼近浏览器的解析结果。不论是无结束标签的元素,可选结束标签的元素,或是标记属性,或是CSS选择器和样式,一切合法的,...
jopen
11年前
HTML操作类库
Jumony
0
推荐
94K
浏览
类似于JSoup的Net版HTML解析器:NSoup
NSoup是 jsoup (http://jsoup.org) HTML 解析器的一个.NET移植。
jopen
11年前
HTML操作类库
NSoup
0
推荐
76K
浏览
使用lxml抓取网页
lxml登场,使用类似lxml的工具,你可以把一个HTML文件转换为XML文件。毕竟,一个XHTML文件属于XML文件的一种。就我们知道的网站作者很少关心HTML文件的规范。大部分的网站有不完整...
jopen
11年前
HTML操作类库
lxml
0
推荐
69K
浏览
HTML 解析/提取器:woody
woody 是一款 Java 的HTML 解析/提取器,用法非常类似 webmagic, 是对其抽取模板完全重写,之所有单独提取出来是因为为来更好可重用。
jopen
11年前
HTML操作类库
woody
0
推荐
41K
浏览
HTML抽取器:Xsoup
Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。 相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间...
jopen
11年前
HTML操作类库
Xsoup
1
2
3
4
经验分享,提升职场影响力
投稿
热门问答
热门文档