分布式/云计算/大数据 - 开源文档 - 第11页

P15

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享

cdop 2014-12-29 732 0

P30

Spark SQL Overview Catalyst in Depth SQL Core API Introduction V.S. Shark & Hive-on-Spark Our Contributions Useful Materials

cdop 2014-12-29 2924 0

分布式/云计算/大数据 HTML Intel Java Basic

P17

2014年7月SparkSummit作为独立于Hadoop的大会召开，大数据生态系统开始全面转向Spark开源社区准备合作扩大对Spark的支持，将Spark作为标准的计算引擎以替代 (TDH)架构图一站式数据存储平台TDH通过内存计算技术、高效索引、执行计划优化和高度容错的技术，使得一个平台能够处理从GB到PB的数据，并且在每个数量级上，都能比现有技术提供更快的性能；企业客户不再需要混合架构，不需要孤立的多个集群，TDH可以伴随企业客户的数据增长，动态不停机扩容，避免MPP或传统架构数据迁移的棘手问题。

nn34 2014-12-16 6216 0

分布式/云计算/大数据方案 Apache SQL Basic

P19

Spark streaming的监控和优化

nn34 2014-12-16 789 0

分布式/云计算/大数据报告 Apache

P30

Shark和sparkSQL 但是，随着Spark的发展，其中sparkSQL作为Spark生态的一员继续发展，而不再受限于hive，只是兼容hive；而hive on spark是一个hive的发展计划，该计划将spark作为hive的底层引擎之一，也就是说，hive将不再受限于一个引擎，可以采用map-reduce、Tez、spark等引擎。

nn34 2014-12-16 535 0

分布式/云计算/大数据 HTML Intel Java Basic

P61

大数据概况BigData,BigWorld传统的结构化数据依然是最常见的数据非结构化的情绪表达和客户行为快速增长企业现存的非结构化数据蕴含大量开放文本视频音频在业务操作中被使用博客，论坛以及评论反映了客户的声音volume30%组织需要每天处理>100GB数据批处理更新从每天提升到每小时，每分钟，甚至实时复杂事件处理能够即时产生信息发送给分析系统实时流数据处理大数据：3V特征海量数据规模高时效性多样化50%组织拥有和处理>10TB数据10%已经处理>1PB电子商务和Web日志可产生每分钟上万的数据项社交媒体应用每分钟产生百万交互活动HadoopandNoSQLHadoop针对海量与多样化数据NoSQL针对海量与高时效性数据Hadoop与NoSQL互为补充

nmdb 2014-12-15 2576 0

分布式/云计算/大数据方案报告 JSON SQL

P12

Spark：完整生态系统Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式。Spark当下已成为Apache基金会的顶级开源项目，拥有着庞大的社区支持，技术也逐渐走向成熟。Cloudera，MapR，Amazon，SAS等众多知名都引入了Spark

xcn4 2014-11-29 472 0

分布式/云计算/大数据 Apache Java Python Go

P20

OpenStack简介计算组件Nova（Compute）对象存储组件Swift（Object Storage）镜像组件Glance（Image Service）网络组件Quantum（Network）块存储Cinder（Block Storage）身份验证组件Keystone（Identity）Dashboard组件HorizonOpenStack是由Rackspace和NASA共同开发的云计算平台，帮助服务商和企业内部实现类似于AmazonEC2和S3的云基础架构服务(IaaS)。

watchman 2014-11-19 6344 0

Opentack 分布式/云计算/大数据 HTTP Python Swift

P27

Openstack 云平台分析与比较

watchman 2014-11-19 436 0

分布式/云计算/大数据 OpenStack

P6

OpenStack架构详解窗体顶端What is OpenStack?OpenStack提供开放源码软件，建立公共和私有云。OpenStack是一个社区和一个项目，以及开放源码软件，以帮助企业运行的虚拟计算或者存储云。OpenStackd开源项目由社区维护，包括OpenStack计算（代号为Nova），OpenStack对象存储（代号为SWIFT），并OpenStack镜像服务（代号Glance）的集合。

watchman 2014-11-19 4256 0

分布式/云计算/大数据

P15

1.用户使用指南1.1登陆搭建好OpenStack云计算平台后，访问http://control_IP/horizon，在本使用手册中，control_IP为192.168.1.232

watchman 2014-11-19 3777 0

OpenStack 分布式/云计算/大数据手册

P39

OpenStack 安装指南

watchman 2014-11-19 452 0

分布式/云计算/大数据

P31

目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来阿里搜索业务简介搜索技术体系目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来离线系统—架构

byc2 2014-11-19 1874 0

Hadoop 分布式/云计算/大数据方案 Java SQL

P30

Apache最新开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

byc2 2014-11-18 348 0

分布式/云计算/大数据

P

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算

colophus 2014-11-13 434 0

Hadoop 分布式/云计算/大数据 Apache

P158

Google的核心竞争技术是它的计算平台. Google的大牛们用了下面5篇文章, 介绍了它们的计算设施. GoogleCluster： Chubby： GFS： BigTable： MapReduce：很快, Apache上就出现了一个类似的解决方案, 目前它们都属于Apache的Hadoop项目

brucehtan 2014-11-09 2206 0

分布式/云计算/大数据

P9

简介Ice 是一种面向对象的中间件平台。从根本上说，这意味着 Ice为构建面向对象的客户－服务器应用提供了工具、API 和库支持。Ice 应用适合在异构环境中使用：客户和服务器可以用不同的编程语言编写，可以运行在不同的操作系统和机器架构上，并且可以使用多种网络技术进行通信。无论部署环境如何，这些应用的源码都是可移植的。

jlsfwq 2014-10-30 521 0

分布式/云计算/大数据

P30

Why Hadoop 数据规模爆炸式增长，大数据计算需要“高效”解决方案多机环境中网络成为瓶颈多机环境下的稳定性问题如何平衡计算效率和开发效率 What Hadoop Google的GFS + MapReduce的山寨产品 Hadoop = HDFS + MapReduce HDFS：分布式“大文件”存储系统 MapReduce：分布式计算框架计算逻辑必须符合Map-Reduce编程规范

yudian 2014-10-29 565 0

分布式/云计算/大数据方案 Java C/C++ Go

P26

Sogou的Hadoop生态系统 Hadoop Quick Start 深入MapReduce 了解MapReduce运行机制如何调试MapReduce MultiInput & MultiOutput 数据Join操作关于UigsTools MapReduce进阶开发模式各类资源列表

yudian 2014-10-29 1898 0

分布式/云计算/大数据 Java C/C++ Go

P30

MapReduce已经开始显现老化的迹象，局限性越来越明显。Tez作为下一代hadoop的执行引擎与传统的MapReduce相比做了很大的改进和优化，将计算模型直接建立在DAG上面，比传统的MapReduce更加直接，灵活，在性能上有很大的提升。同时由于Tez从项目开始就集成了Yarn，从而对于整个计算资源的Context了解的更加清楚，这也有助于性能的优化。本次演讲将主要对Tez做一个Overview的介绍。

dfwm 2014-10-19 763 0

分布式/云计算/大数据 Apache Java Scala Go

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享文档

程浩-SparkSQL漫谈文档

如何让SQL在Spark上运行的更快文档

Spark streaming 的监控和优化文档

Spark SQL 漫谈文档

大数据与SequoiaDB 文档

Spark 核心技术剖析文档

Opentack开源云计算平台介绍文档

Openstack 云平台分析与比较文档

OpenStack 架构详解文档

OpenStack-dashboard-使用手册文档

OpenStack 安装指南文档

基于Hadoop生态技术构建阿里搜索离线系统文档

Apache Tez - 下一代Hadoop上的执行引擎文档

Apache Hadoop Main 2.2.0 API 文档

Hadoop 源码分析文档

Ice 中间件研究文档

Hadoop 入门指南文档

Hadoop实用指南文档

Tez - 下一代Hadoop上的执行引擎文档

关键词

最新上传

热门文档

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享 文档

程浩-SparkSQL漫谈 文档

如何让SQL在Spark上运行的更快 文档

Spark streaming 的监控和优化 文档

Spark SQL 漫谈 文档

大数据与SequoiaDB 文档

Spark 核心技术剖析 文档

Opentack开源云计算平台介绍 文档

Openstack 云平台分析与比较 文档

OpenStack 架构详解 文档

OpenStack-dashboard-使用手册 文档

OpenStack 安装指南 文档

基于Hadoop生态技术构建阿里搜索离线系统 文档

Apache Tez - 下一代Hadoop上的执行引擎 文档

Apache Hadoop Main 2.2.0 API 文档

Hadoop 源码分析 文档

Ice 中间件研究 文档

Hadoop 入门指南 文档

Hadoop实用指南 文档

Tez - 下一代Hadoop上的执行引擎 文档

关键词

最新上传

热门文档

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享文档

程浩-SparkSQL漫谈文档

如何让SQL在Spark上运行的更快文档

Spark streaming 的监控和优化文档

Spark SQL 漫谈文档

Spark 核心技术剖析文档

Opentack开源云计算平台介绍文档

Openstack 云平台分析与比较文档

OpenStack 架构详解文档

OpenStack-dashboard-使用手册文档

OpenStack 安装指南文档

基于Hadoop生态技术构建阿里搜索离线系统文档

Apache Tez - 下一代Hadoop上的执行引擎文档

Hadoop 源码分析文档

Ice 中间件研究文档

Hadoop 入门指南文档

Hadoop实用指南文档

Tez - 下一代Hadoop上的执行引擎文档