基于Spark/hbase的数据分析平台及SparkSQl使用经验分享
Spark SQL Overview<br> Catalyst in Depth<br> SQL Core API Introduction<br> V.S. Shark & Hive-on-Spark<br> Our Contributions<br> Useful Materials
2014年7月SparkSummit作为独立于Hadoop的大会召开,大数据生态系统开始全面转向Spark开源社区准备合作扩大对Spark的支持,将Spark作为标准的计算引擎以替代 (TDH)架构图一站式数据存储平台TDH通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,不需要孤立的多个集群,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。
Spark streaming的监控和优化
Shark和sparkSQL 但是,随着Spark的发展,其中sparkSQL作为Spark生态的一员继续发展,而不再受限于hive,只是兼容hive;而hive on spark是一个hive的发展计划,该计划将spark作为hive的底层引擎之一,也就是说,hive将不再受限于一个引擎,可以采用map-reduce、Tez、spark等引擎。
大数据概况BigData,BigWorld传统的结构化数据依然是最常见的数据非结构化的情绪表达和客户行为快速增长企业现存的非结构化数据蕴含大量开放文本视频音频在业务操作中被使用博客,论坛以及评论反映了客户的声音volume30%组织需要每天处理>100GB数据批处理更新从每天提升到每小时,每分钟,甚至实时复杂事件处理能够即时产生信息发送给分析系统实时流数据处理大数据:3V特征海量数据规模高时效性多样化50%组织拥有和处理>10TB数据10%已经处理>1PB电子商务和Web日志可产生每分钟上万的数据项社交媒体应用每分钟产生百万交互活动HadoopandNoSQLHadoop针对海量与多样化数据NoSQL针对海量与高时效性数据Hadoop与NoSQL互为补充
Spark:完整生态系统Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持,技术也逐渐走向成熟。Cloudera,MapR,Amazon,SAS等众多知名都引入了Spark
OpenStack简介计算组件Nova(Compute)对象存储组件Swift(Object Storage)镜像组件Glance(Image Service)网络组件Quantum(Network)块存储Cinder(Block Storage)身份验证组件Keystone(Identity)Dashboard组件HorizonOpenStack是由Rackspace和NASA共同开发的云计算平台,帮助服务商和企业内部实现类似于AmazonEC2和S3的云基础架构服务(IaaS)。
Openstack 云平台分析与比较
OpenStack架构详解窗体顶端What is OpenStack?OpenStack提供开放源码软件,建立公共和私有云。OpenStack是一个社区和一个项目,以及开放源码软件,以帮助企业运行的虚拟计算或者存储云。OpenStackd开源项目由社区维护,包括OpenStack计算(代号为Nova),OpenStack对象存储(代号为SWIFT),并OpenStack镜像服务(代号Glance)的集合。
1.用户使用指南1.1登陆搭建好OpenStack云计算平台后,访问http://control_IP/horizon,在本使用手册中,control_IP为192.168.1.232
OpenStack 安装指南
目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来阿里搜索业务简介搜索技术体系目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来离线系统—架构
Apache最新开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,这样,这些分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算
Google的核心竞争技术是它的计算平台. Google的大牛们用了下面5篇文章, 介绍了它们的计算设施. GoogleCluster: Chubby: GFS: BigTable: MapReduce: 很快, Apache上就出现了一个类似的解决方案, 目前它们都属于Apache的Hadoop项目
简介Ice 是一种面向对象的中间件平台。从根本上说,这意味着 Ice为构建面向对象的客户-服务器应用提供了工具、API 和库支持。Ice 应用适合在异构环境中使用:客户和服务器可以用不同的编程语言编写,可以运行在不同的操作系统和机器架构上,并且可以使用多种网络技术进行通信。无论部署环境如何,这些应用的源码都是可移植的。
Why Hadoop 数据规模爆炸式增长,大数据计算需要“高效”解决方案 多机环境中网络成为瓶颈 多机环境下的稳定性问题 如何平衡计算效率和开发效率 What Hadoop Google的GFS + MapReduce的山寨产品 Hadoop = HDFS + MapReduce HDFS:分布式“大文件”存储系统 MapReduce:分布式计算框架 计算逻辑必须符合Map-Reduce编程规范
Sogou的Hadoop生态系统 Hadoop Quick Start 深入MapReduce 了解MapReduce运行机制 如何调试MapReduce MultiInput & MultiOutput 数据Join操作 关于UigsTools MapReduce进阶开发模式 各类资源列表
MapReduce已经开始显现老化的迹象,局限性越来越明显。Tez作为下一代hadoop的执行引擎与传统的MapReduce相比做了很大的改进和优化,将计算模型直接建立在DAG上面,比传统的MapReduce更加直接,灵活,在性能上有很大的提升。同时由于Tez从项目开始就集成了Yarn,从而对于整个计算资源的Context了解的更加清楚,这也有助于性能的优化。本次演讲将主要对Tez做一个Overview的介绍。