分布式数据仓库系统，Apache Tajo v0.9 发布

jopen 10年前

Apache Tajo v0.9 发布，此版本目标是优化传统 SQL 性能，改进 Tajo leading-edge 原生 SQL 支持；提高查询速度。

Apache Tajo v0.9 改进如下：     - More comprehensive and powerful SQL capabilities, such as TIMESTAMP, DATE, TIME, and INTERVAL  type support, as well as WINDOW functions, OVER clause support, and multiple distinct aggregation;       - Performance improvements, such as offheap sort algorithm for ORDER BY and Runtime code  generation for evaluating expressions push the boundaries of massive data query speeds;      - Improvements to the hash shuffle I/O, boosting bottom-line speeds by 200-300% on "heavy",  complex queries;      - Enhanced Hadoop integration, including support for Hadoop 2.2.0 up to Hadoop 2.5.1, and  expanded Hive Metastore access;      - Improved catalog backup and restore feature, as well as accessibility enhancements streamline  performance across disparate technology environments.

Tajo 是一个分布式数据仓库系统，基于 Hadoop 实现，特点是低延迟、高可伸缩，提供专用查询和 ETL 工具

特点：

可伸缩性和低延迟

完全分布式的 SQL 查询处理，基于存储雨 HDFS 的大数据集
超低响应时间（约100毫秒），在合理数据范围内的简单查询

支持长时间运行的查询

容错支持，避免某些任务失败后的查询重启
动态调度，处理和异构集群节点故障

ETL

ETL 可实现不同数据格式之间的转换
支持多种文件格式，如 CSV、RCFile 和 RowFile

扩展性

支持用户自定义函数
提供自定义文件格式的 Scanner/Appender 接口

兼容性

遵循 ANSI/ISO SQL 标准，非标准方面遵循 PostgreSQL 规范
支持 HiveQL 模式
在 HCatalog 和 Hive MetaStore 实现表访问
支持 JDBC 驱动

简单

提供交互式 Shell 来提交 SQL 查询到 Tajo 集群
提供备份和恢复工具
异步/同步 Java API 来提交 SQL 查询到 Tajo 集群

http://www.oschina.net/news/56339/apache-tajo-v0-9

分布式数据仓库系统，Apache Tajo v0.9 发布

相关资讯