C#开发网络爬虫程序:NWebCrawler
jopen
12年前
NWebCrawler是一款开源,C#开发网络爬虫程序。
特性:
- 可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹。
- 统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存。
- Preferential crawler:用户可以设置优先级的MIME类型。
- Robust: 10+ URL normalization rules, crawler trap avoiding rules.