P42

  Guagua An Iterative Computing Framework on Hadoop 文档

Introduction Distributed Neural Network Algorithm What is Guagua? Guagua Advanced Features Shifu on Guagua Future Plans

dfwm 2014-10-19   1684   0
P40

  Jstorm 介绍 文档

Jstorm 是一个分布式实时计算引擎 类似Hadoop MR 用户按照规定的编程规范实现一个任务,将任务放到Jstorm上,Jstorm就将任务7 * 24 小时调度起来 Jstorm 比Storm 更稳定,功能更强大,更快。 Storm上跑的程序可以一行代码不变运行在Jstorm上

zts2014 2014-10-16   471   0
P79

  Introduction to cloud computing 文档

Hadoop Technical Walkthrough HDFS Databases Using Hadoop in an Academic Environment Performance tips and other tools

zts2014 2014-10-16   2250   0
P61

  大数据与SequoiaDB 文档

SequoiaDB是一个领先的NoSQL数据库,它促进了大数据的应用和发展。而有了大数据,企业能够: 1.实现原本很难处理的业务。如社交网络,通过SequoiaDB水平扩张和动态数据类型的特性,来支持不断增长的用户群和日渐复杂的用户活动。 2.适应和发展竞争优势。如电子消费供应商,可以基于SequoiaDB搭建云服务。 3.提升客户体验。一家媒体公司通过定制服务内容和与读者的互动,增加了广告收入和用户参与度。 4.减少开销。如某银行,通过使用SequoiaDB替代传统的基础设施,不仅满足了新的需求,还节省了80%的软硬件成本。

pm36 2014-10-15   2108   0
P26

  Hadoop Performance at LinkedIn 文档

Hadoop Performance at LinkedIn

b8gp 2014-10-10   2310   0
P28

  电信场景下Spark一站式分析平台 文档

电 电信大数据场景与关键技术1.2.数字足迹案例3.平台和关键技术 过滤生成详单数据模型实时KPI计算/CEP探针周期上报仪表盘15min~sec~sec~msec详单查询~hour~min事件产生探针实时上报~msec事件产生…实时KPI15分钟KPI报表(现状)15分钟KPI报表(优化后)1小时KPI报表(现状)天级KPI报表(现状)15sec1min>2hour报表查询15分钟报表统计HDFS挑战:1、HDFS的入库性能2、高性能实时流处理场景一:业务KPI统计分析Page区域人数分布热力图直观的显示居住区、CBD、旅游点、软件园等区域各时段人数变化情况。

w7d33 2014-10-06   3838   0
P14

  Graphx在淘宝的实践 by 吴炜_数据挖掘机器学习 文档

目录Graphx简介和特性图计算场景整体模型,流程和算法调优与改进性能和技巧总结Graphx的发展Graphx架构 算法模型核心实现Graphx主要的接口Graphx中设计的几个要点3个RDD边分割和点分割用户图计算的场景基于最大连通图的社区发现基于三角形计数的关系衡量基于随机游走的用户属性传播用户信誉度模型正能量,负能量都会向周边的点传播。

w7d33 2014-10-06   5534   0
P14

  CDH4.1.2 集群安装配置详细过程 文档

CDH4.1.2集群安装配置详细过程CDH4.1.2 CDH是Cloudera完全开源的Hadoop分布式系统架构,为了满足企业的需求而特别构建的系统。即一个开源的企业级分布式存储系统。全称:ClouderaHadoop。它是在ApacheHadoop基础上打入了很多patch。使之性能更好,更加满足生产环境。CDH4.1.2使用的是apache的hadoop2.0版本,与之前的稳定的hadoop-1.x相比,ApacheHadoop2.x有较为显著的变化。Hadoop介绍Hadoop是apache的开源项目,开发的主要目的是为了构建可靠、可拓展、稳定的分布式的系统,hadoop是一系列的子工程的总和,其中包含:1.hadoopcommon:为其他项目提供基础设施

sandyfog 2014-09-25   4353   0
P20

  基于Twitter Algebird和Spark Streaming的大规模流式数据处理算法 文档

基于Twitter Algebird和Spark Streaming的大规模流式数据处理算法

erbq 2014-09-18   667   0
P22

  Google Bigtable 中文版 文档

Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时数据服务)。尽管应用需求差异很大,但是,针对Google的这些产品,Bigtable还是成功的提供了一个灵活的、高性能的解决方案。本论文描述了Bigtable提供的简单的数据模型,利用这个模型,用户可以动态的控制数据的分布和格式;我们还将描述Bigtable的设计和实现。

fan1989 2014-09-06   504   0
P29

  分布式文件系统FastDFS架构剖析及配置优化 文档

FastDFS是一款开源的轻量级分布式文件系统纯C实现,支持Linux、FreeBSD等UNIX系统类googleFS,不是通用的文件系统,只能通过专有API访问,目前提供了C、Java和PHPAPI为互联网应用量身定做,解决大容量文件存储问题,追求高性能和高扩展性FastDFS可以看做是基于文件的keyvaluepair存储系统,称作分布式文件存储服务更为合适FastDFS提供的功能upload:上传普通文件,包括主文件upload_appender:上传appender文件.

yanyu123 2014-09-04   643   0
P31

  Hadoop深入浅出 - MapReduce 文档

◆MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. ◆MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。 ◆这两个函数的形参是key、value对,表示函数的输入信息。

boke_jian 2014-08-21   2675   0
P39

  Hadoop深入浅出 文档

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。

boke_jian 2014-08-21   3010   0
P25

  Apache Hadoop2.0 下一代数据处理框架介绍 文档

主要内容Hadoop1.0的局限性Hadoop2.0新特性介绍Hadoop现状及最新进展Hadoop1.0的局限-HDFS※资源隔离※元数据扩展性※访问效率※数据丢失缺陷?Hadoop1.0的局限-MapReduce扩展性集群最大节点数–4000最大并发任务数–40000可用性JobTracker负载较重存在单点故障,一旦故障,所有执行的任务的全部失败批处理模式,时效性低仅仅使用MapReduce一种计算方式低效的资源管理把资源强制划分为maptaskslot和reducetaskslot,当系统中只有maptask或者只有reducetask的时候,会造成资源的浪费当map-reducejob非常多的时候,会造成很大的内存开销,潜在来说,也增加了JobTrackerfail的风险,这也是业界普遍总结出老Hadoop的Map-Reduce只能支持4000节点主机的上限

pnx8 2014-08-17   3282   0
P86

  Hadoop 技术架构培训 文档

Hadoop综述主要内容*第一篇HDFS分布式文件系统第二篇MapReduce第三篇Hbase简单介绍第一篇HDFS*一:TheDesignofHDFS二:HDFSConcepts三:应用程序示例四:DataFlow第二篇MapReduce*一:MapReduce基础二:MapReduce数据流三:MapReduce工作原理第三篇Hbase简单介绍*一:简介二:数据模型三:行、列、时间戳、API第

pnx8 2014-08-17   4043   0
P150

  Hadoop 介绍 文档

参考资料Google的核心技术Google的十个核心技术,而且可以分为四大类:分布式基础设施:GFS、Chubby和ProtocolBuffer。分布式大规模数据处理:MapReduce和Sawzall。分布式数据库技术:BigTable和数据库Sharding。数据中心优化技术:数据中心高温化、12V电池和服务器整合。Google的核心技术分布式基础设施GFS由于搜索引擎需要处理海量的数据,所以Google的两位创始人LarryPage和SergeyBrin在创业初期设计一套名为"BigFiles"的文件系统,而GFS(全称为"GoogleFileSystem")这套分布式文件系统则是"BigFiles"的延续。

pnx8 2014-08-17   388   0
P31

  内存计算Spark和 SQL on Hadoop 文档

内存计算Spark和SQL on Hadoop黄永卿解决方案中心目录安装配置与简介为什么需要Spark Hadoop(MapReduce)极大的简化了大数据分析但是,随着大数据需求和使用模式的扩大,用户的需求也越来越多:>>更复杂的多重处理需求(比如迭代计算,ML,Graph)>>低延迟的交互式查询需求(比如ad-hocquery)MapReduce计算模型的架构导致上述两类应用先天缓慢,用户迫切需要一种更快的计算模型,来补充MapReduce的先天不足。

pnx8 2014-08-17   756   0
P61

  Hive 用户指南(Hive User Guide) 中文版 文档

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

风颖尘 2014-08-14   2121   0
P8

  HDFS用户指南 (HDFS User Guide)0.21_中文版 文档

此文档是用户使用Hadoop集群或普通单机分布式文件存储系统(HDFS)开展工作的起点,尽管HDFS被设计成适应于许多环境,有用的HDFS知识能大大帮助我们优化配置及诊断具体集群的问题。

风颖尘 2014-08-14   1904   0
P51

  EasyHadoop 实战操作手册v1.0 文档

讲解Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。

风颖尘 2014-08-14   2634   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档