Java开发的重复数据删除引擎:Duke
jopen
11年前
Duke是个用Java编写的一个快速,灵活的重复数据删除引擎。构建在Lucene之上。Duke可以在你的数据库中找到重复的客户记录,或其他种类的记录。
特性:
- 高性能
- 高度可配置
- 支持 CSV, JDBC, SPARQL, and NTriples.
- 拥有许多内置的比较器 comparators.
- 可以利用插件实现自己数据源,比较器和 cleaners.
- 基于遗传算法的自动调整配置。
- 命令行客户端入门。
- API 可嵌入到任何类型的应用程序中。
- 支持批处理和连续处理。
- 能够保持通过JNDI/JDBC发现的数据库链接.
- 可以在多个线程中运行。