P103

  公有云介绍 文档

互联网公有云 运营商公有云 亚马逊AWS

lyglyg1394 2016-04-11   2325   0
P12

  云计算大报告 13030211016 汤雷 文档

云计算的前世今生“云计算”、“大数据”、“物联网”,作为当今互联网行业最火的三个词语,这三项技术已经广泛应用在实际生活当中,并随着科技的不断发展,正在使我们的生活发生翻天覆地的变化。

vkukus 2016-04-10   1566   0
P2

  Zookeeper 安装配置说明 文档

准备3台机器假设有三台机器,hostname和ip对应关系是:192.168.1.131zk01192.168.1.132zk02192.168.1.133zk03ZooKeeper不存在明显的master/slave关系,各个节点都是服务器,leader挂了,会立马从follower中选举一个出来作为leader.由于没有主从关系,也不用配置SSH无密码登录了,各个zk服务器是自己启动的,互相之间通过TCP端口来交换数据。

yjeeqbart 2016-03-09   2240   0
P6

  Twitter利用Storm系统处理实时大数据 文档

Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助NathanMarz推出的Storm(现在在Twitter中称为BackType)。Storm不处理静态数据,但它处理预计会连续的流数据。考虑到Twitter用户每天生成1.4亿条推文(tweet),那么就很容易看到此技术的巨大用途。但Storm不只是一个传统的大数据分析系统:它是复杂事件处理(CEP)系统的一个示例。CEP系统通常分类为计算和面向检测,其中每个系统都可通过用户定义的算法在Storm中实现。举例而言,CEP可用于识别事件洪流中有意义的事件,然后实时地处理这些事件。

pwgw 2016-02-04   404   0
P29

  Docker Based Hadoop Provisioning 文档

Thanks for coming – today will talk about Docker based Hadoop provisioning. Quick introduction of who we are - Young startup, from Budapest, Hungary. Janos Matyas – CTO, open source contributor, Hadoop YARN evangelist. Ease Hadoop provisioning – everywhere Automate and unify the process Arbitrary cluster size Same process through a cluster lifecycle (Dev, QA, UAT, Prod) (Auto) scaling Hadoop

pwgw 2016-02-04   504   0
P19

  Spark streaming 的监控和优化 文档

Apache Spark is a fast and general engine for large-scale data processing. Speed Ease of Use Generality Integrated with Hadoop。Spark Streaming is a sub-project of Apache Spark. Spark is a batch processing platform similar to Apache Hadoop, and Spark Streaming is a real-time processing tool that runs on top of the Spark engine.

jszhaogy 2016-01-28   387   0
P35

  Apache Kylin Extreme OLAP Engine for Big Data 文档

Apache Kylin(麒麟)是由eBay 研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台。该平台为Hadoop之上的数据分析提供了标准SQL接口及多维分析能力,在百亿数量级别上提供秒级甚至亚秒级的查询性能。该项目于2014年10月开源,并于当年11月加入Apache 孵化器项目。

lufeng76 2016-01-28   2682   0
P3

  存储资源池规划设想--分布式文件系统研发部 文档

苏宁目前的存储需求按照应用分类传统的NAS文件存储办公文件徐庄呼叫中心办公文件共享全国ftp共享文件it.suning.com文件下载视频存储广告视频项目组备份归档视频文件互联网、电商的海量非结构化数据图片存储公司所有的web图片存储日志归档多种业务系统的日志存储专有应用系统苏宁互联邮箱系统邮件、索引等小文件苏宁互联计费系统原始话单、中间话单的归档备份IaaS共享存储cloudstack公有云、私有云的共享存储不同应用对存储性能要求有所不同:大文件,io吞吐量较大,对带宽、iops和时延要求并不高的业务,例如办公文件,视频文件等大量小文件,对iops和时延要求很高,例如图片存储系统、互联邮箱系统IaaS共享存储比较特,虽然对Gluster是大文件。

jszhaogy 2016-01-27   1795   0
P5

  GlusterFS关键代码优化 文档

本次优化点主要基于qemu+GlusterFS测试和性能调优。针对qemu+GlusterfS和qemu+localfilesystem两种场景做了性能测试和对比。最终形成了GlusterFS的优化包括两点带标记位的fsync操作优化write申请写缓冲区内存管理优化qemu+GlusterIntegrationIOStack带标记位的fsync操作优化当guestOS的APP执行fsync操作时,GlusterFS后端存储性能比与本地文件系统backend差很多,而普通的asyncwrite和directwrite相比,二者相差并没那么大。例如,VM中采用dd工具测试,dd设置dsync标记后,执行写操作测试数据如下。提交的数据块尺寸较小时,GUSTER虚机与本地虚机性能差别较大,在差3倍多,随着提交数据块尺寸增大,差距逐步缩小大一倍左右。

jszhaogy 2016-01-27   1942   0
P204

  MooseFS 分布式文件系统调研分析 文档

MooseFS 是一个高容错性的分布式文件系统,它能够将资源分布存储于几台不同的物理介质,对外只提供给用户一个访问接口。对它的操作与其它文件系统完全一样:  分层文件结构(目录树结构);  存储POSIX 文件属性(权限、最后访问、修改时间);  支持特殊的文件(块文件夹、字符文件及管道和socket ); 软链接(文件名指向目标文件)及硬链接(不同的文件名指向同一块数据);  仅限于基于IP 地址或密码来访问文件系统。

zmfsea 2016-01-19   1052   0
P35

  Hadoop及mapreduce入门 文档

数据太多了,需要能存储、快速分析Pb级数据集的系统单机的存储、IO、内存、CPU有限,需要可扩展的集群使用门槛低,数据分析是个庞杂的问题,MPI太复杂单点故障问题–机器多了单点故障成为正常的异常–节点有增有减Hadoop就是一个满足易用性、可靠性、可扩展性的存储计算平台,还是开源的!Hive:数据仓库,facebook贡献PIG:并行计算的一种高级语言,yahoo贡献Nutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper:用于分布式应用的高性能协同服务Hbase:类似于BigTable的,key-value数据库系统Mahout:分布式机器学习和数据挖掘的LibHama:基于BSP的超大规模科学计算框架

P17

  Hadoop集群监控与Hive高可用 文档

--向磊Page*Hadoop集群监控Cacti默认Cacti模板太少增加模板我们的模板磁盘IO内存详情单个内核使用CPU总和及IOWaitJMX支持监控HadoopPage*Hadoop集群监控Cacti优点监控每台服务器的详细数据SNMP采集数据可以自己定义相比zabbix:无需客户端安装配置简单spine采集速度快模板众多支持IPMI缺点SNMPD为UDP协议,不够稳定无法获知集群整体运行状况Page*Hadoop集群汇总监控GangliaPage*Hadoop集群汇总监控Ganglia优点集群总体状况和负载汇总采用多播地址降低带宽占用TCP采集数据稳定hadoop原生支持ganglia数据采集缺点配置稍复杂,需安装客户端单台数据不如cacti详细Page*Hive高可用集群Hive存在的问题单一节点Hive ThriftServer故障导致任务失败高可用方案多个HiveThriftServer节点HAProxy+HiveHAProxy在实际应用中出现过的问题和优化Hive日志问题轮询方式优化仍存在不稳定因素,其他方式解决HAProxy+Hive网络拓扑

也许那样飞 2016-01-15   2511   0
P62

  HIVE 学习笔记 文档

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

P11

  CentOS+Jdk+Jboss+Dubbo+zookeeper集群配置教程 文档

SSH工具:SSHSecureShellClient-3.2.9.exe2.安装步骤2.1.安装虚拟机在电脑上安装VMware-workstation-full-10.0.0-1295980.exe在Vmware上安装CentOS操作系统2.2.在CentOS上安装JDK查看Linux自带的JDK是否已安装(卸载centOS已安装的1.4)安装好的CentOS会自带OpenJdk,用命令java-version,会有下面的信息:#java–version(注:下面开始#开始是shell命令,并且用颜色区分)

jeasonpei 2016-01-13   507   0
P23

  漫谈OpenStack开发那点事 文档

何为OpenStack What为何学习OpenStack开发如何做OpenStack开发企业中常见的二次开发融入OpenStack开源社区WhyHowUsageAchievement01何为OpenStack一个云操作系统管理大量计算、存储、网络资源,一堆项目的结合通过Dashboard管理资源!=虚拟化(OpenStack虚拟化需要借助Hypervisor)OpenStack开发现状为何学习OpenStack开发02为何学习OpenStack开发快速定位和修复公司生产环境中的bugs,对应社区的bugfix。增加公司产品新功能,新模块,对应社区的newproject、blueprint。简化开源版本的OpenStack,化繁为简。快速定位和修复生产环境Bug增加新功能、新模块优化OpenStack01020304跟进社区进度跟进社区进度,及时取patch为公司产品所用。

gn25d 2016-01-13   641   0
P26

  Ceph在世纪佳缘的应用 文档

介绍Ceph在佳缘的部署和应用场景介绍使用过程中遇到的坑和解决方案介绍Openstack和Ceph的结合实战介绍calamari监控Ceph集群What?What?Ceph 支持对象存储、块存储、文件存储的分布式存储系统特点:免费,现被红帽收购易管理,部署简单高可用,cephmonitor(paxos算法)易扩展,osd进程支持多副本,保证数据安全,osdpooldefaultsize自定义故障隔离域,crushmap支持海量数据

gn25d 2016-01-13   671   0
P21

  大唐电信云openstack应用实战 文档

目录大唐电信云产品大唐电信云应用实践02.03.04.什么是云01.大唐电信云网络架构05.谁在做云01.什么是云云计算SaaS(Softwareasa Service),软件即服务PaaS(Platformasa Service),平台即服务IaaS(Infrastructureasa Service),基础设施即服务提供处理器CPU、内存、存储、网络等基础服务资源。IAAS云的优势对于中小型创业客户,选择传统IDC服务器托管完成这项创业至少需要一次性投入20万的设备及托管费。如果选择云平台,充值几千元的费用,购买3–5台云主机,就能完成互联网+创业项目。对于一个新的创业项目,从机器购买、开通机房、服务器上架、部署系统完成这些至少半个月。使用云平台只需几分钟的注册、充值、开通云主机,便能获得一个虚拟数据中心。现在移动互联网业务发展迅速,无缝快速扩容成为传统IDC托管遇到的最大的问题。

gn25d 2016-01-13   519   0
P5

  Hive性能调校 文档

本报告主要就如何提高Hive执行的总体性能进行了调研,下面以分条的形式列举出来。设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。

xnbw 2016-01-12   1164   0
P11

  Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案 文档

介绍在商业智能领域(BI,businessintelligence),海量数据的搜集和分析发展尤为迅速,意味着使用传统的数据仓库解决方案会变得极其昂贵。Hadoop是一个流行的开源框架,实现了map-reduce,使用普通硬件就能对海量数据进行存储和处理。然而,map-reduce编程模型较底层,需要开发者编写很多程序,这些程序又难于维护和复用。本文将展示Hive,它是一个基于Hadoop之上的开源数据仓库解决方案。Hive提供了与SQL类似的一种查询语言HiveQL,用于支持查询表达并能将其转化为map-reduce任务在hadoop中执行。HiveQL还支持在查询中插入自定义的map-reduce脚本。HiveQL包含了一个类型系统,用来支持表中出现的原始类型、类似于数组和map的集合类型以及由他们嵌套组成的类型。可以扩展其基本IO库进行自定义格式的数据查询。Hive还包括了一个系统目录(systemcatalog)Hive-Metastore,此系统提供模式(schemas)和统计,用于数据挖掘和查询优化。在Facebook公司,Hive数据仓库中存有数千张容量至少为2PB的表,有超过100人使用其做报告和查询分析之用。

xnbw 2016-01-12   526   0
P83

  Hadoop 源码 文档

上就出现了一个类似的解决方案,目前它们都属于Apache的Hadoop项目,对应的分别是:Chubby-->ZooKeeperGFS-->HDFSBigTable-->HBaseMapReduce-->Hadoop目前,基于类似思想的OpenSource项目还很多,如Facebook用于用户分析的Hive。HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。下图是MapReduce整个项目的顶层包图和他们的依赖关系。Hadoop包之间的依赖关系比较复杂,原因是HDFS提供了一个分布式文件系统,该系统提供API,可以屏蔽本地文件系统和分布式文件系统,甚至象AmazonS3这样的在线存储系统。这就造成了分布式文件系统的实现,或者是分布式文件系统的底层的实现,依赖于某些貌似高层的功能。功能的相互引用,造成了蜘蛛网型的依赖关系。一个典型的例子就是包conf,conf用于读取系统配置,它依赖于fs,主要是读取配置文件的时候,需要使用文件系统,而部分的文件系统的功能,在包fs中被抽象了。

xnbw 2016-01-12   2076   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档