eBay开源新数据库技术Kylin,支持TB到PB级数据量

jopen 10年前

        英文原文:eBay open sources a big, fast SQL-on-Hadoop database 

        eBay 开源了一种名为 Kylin 的数据库技术,eBay 在周三的一篇博客上分享了 Kylin 的诸多细节,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量,Kylin 旨在减少 Hadoop 在 10 亿行以上数据级别的情况下的查询延迟。这些都表明 eBay 在使用 Hadoop 技术等方面取得了不俗的成绩。

        以下为译文:

        在线拍卖网站 eBay 开源了一种名为 Kylin 的数据库技 术,该公司宣称这项技术能够在 Hadoop 上支持 PB 级数据存储的快速查询。eBay 并不是像 Google 和 非死book 那样的大数据公司,但它运用 Hadoop 等技术已经达到了一个相当大的规模,Kylin 就是一个很好的例子,这说明它在该领域的创新已经走在前头。

        eBay 在周三的一篇博客上分享了 Kylin 的细节, 包括 REST API、ANSI-SQL 兼容性、连接分析工具 Tableau 和 Excel,以及在一些查询上低于秒级的延迟。然而, Kylin 最独特的特性是它如何处理 scale。eBay 表示,它可以查询数十亿行数据——在高达 14TB 的数据集上,速度比使用传统的 Apache Hive 工具快得多。

eBay开源新数据库技术Kylin,支持TB到PB级数据量 

        Kylin 工作在一个很高级别上,它从 Hive 取数据;使用 MapReduce 预处理大型查询;然后将这些结果作为键值 cuboids 存储在 HBase 上。当用户用一组特定的变量值运行一个 Kylin 查询,结果已经准备就绪,不需要再重新处理,这和已经使用多年的分析型数据库完全不同。

        下面是 eBay 分享的 Kylin 如何在公司内部的使用情况:

开放 Kylin 的时候,我们已经有一些 eBay 业务单元在生产中使用它。我们最大的用例是 120+ 亿源记录生成的 14 +TB cube。它的 90% 查询延迟小于 5 秒。现在,我们的用例瞄准分析师和业务用户,他们可以轻松的通过 Tableau 分析并且得到结果——不再需要 Hive 查询,shell 命令等等。

eBay开源新数据库技术Kylin,支持TB到PB级数据量

        想要知道 Kylin 在与下一版本的 Hive、Spark SQL 以及 Hadoop SQL 分析的其他选项较量中谁会胜出,将是一件非常有趣的事情,Kylin 作为 YARN 资源管理器一部分可以在 Apache Hadoop 的最新版本上获得。我猜它会慢一点,但比内存选项或那些不需要 MapReduce 处理的更具扩展性,不过这对于那些仍然在运行更早软件版本的用户可能是一个可靠的选择。

来自: CSDN