重复数据删除引擎 Duke 0.6 发布

jopen 12年前

这次发布增加新的comparators, 新的cleaners, 一些bug修复,Lucene 更新至 3.6.1和配置方面一些改进。
下图是 Duke 的架构:

重复数据删除引擎 Duke 0.6 发布


Duke 是一个基于 Lucene 开发,快速灵活的去除重复数据的引擎,可以在 11 分钟内处理完 1,000,000 万条记录。Duke可以从命令行运行,但还提供API。它还支持从 CSV, JDBC, SPARQL, 和 NTriples读取数据