在命令行解析HTML:pup

jopen 10年前

pup是一个命令行工具,用于处理HTML。它从标准输入读取,打印到标准输出,并允许用户使用CSS选择器过滤页面的某些部分。

基本使用方法:

$ cat robots.html | pup .mw-headline text{}  History  About the standard  Disadvantages  Alternatives  Examples  Nonstandard extensions  Crawl-delay directive  Allow directive  Sitemap  Host  Universal "*" match  Meta tags and headers  See also  References  External links

项目主页:http://www.open-open.com/lib/view/home/1410666977867