0 重复数据删除引擎 Duke 0.6 发布 jopen 12年前 这次发布增加新的comparators, 新的cleaners, 一些bug修复,Lucene 更新至 3.6.1和配置方面一些改进。 下图是 Duke 的架构: Duke 是一个基于 Lucene 开发,快速灵活的去除重复数据的引擎,可以在 11 分钟内处理完 1,000,000 万条记录。Duke可以从命令行运行,但还提供API。它还支持从 CSV, JDBC, SPARQL, 和 NTriples读取数据。 相关资讯 重复数据删除引擎 Duke 0.6 发布 删除重复文件的神器:dupeGuru 重复数据删除方案,Opendedup 1.1.3 发布 Opendedup 1.1.5 发布,重复数据删除方案 重复数据删除方案 Opendedup 1.1.2 发布 重复数据删除解决方案,Opendedup 3.0.4 发布 删除重复数据的方案 Opendedup 1.1.0 发布 Opendedup 2.0.8 发布,重复数据删除解决方案 JAXP 数据验证引擎 Serene 0.6 发布 表达式引擎——Fel0.6发布(没有最快,只有更快)