云平台hadoop搭建以及wordcount实例运行

jopen 9年前

hadoop是大数据处理的平台,是基于linux系统下的,在windows安装hadoop,很是费劲,连平台搭建都那么难在上面运行代码就更难了,这不是windows的强项,你们都懂得!!hadoop的搭建俺花了很长时间,写下来希望对大家有所帮助!

前提准备:由于hadoop是基于linux,那就先要在windows下模拟出linux环境来,现推荐几款软件:cygwin、hadoop4win、HDP和vmware。

cygwin:Cygwin是一个在windows平台上运行的类UNIX模拟环境,Cygwin 提供一个UNIX 模拟 DLL 以及在其上层构建的多种可以在 Linux 系统中找到的软件包,在 Windows XP SP3 以上的版本提供良好的支持。简单说就是unix下的命令行和windows的cmd一样!

hadoop4win:是一个集成包包括cygwin、hadoop、jdk、hbase。这些都是hadoop需要的,安装上hadoop4win都包括了,直接运行hadoop就行了。这个还在增加包,有个缺点就是自带的hadoop版本是0.2.0有点低最新的是2.6.0.

HDP:Hortonworks Data Platform (HDP) 完全在开源的环境下设计、开发和构建,提供企业可用的数据平台,让组织能够采用现代化数据架构。

HDP 以 YARN 作为其架构中心,是一系列处理方法(从批量到交互式再到实时)的多个工作负荷数据处理平台,拥有企业数据平台所需的关键能力 - 广泛的管制、安全和运营。

这个是个集成工具,可以在vmware下打开,这是个虚拟机,可以直接打开不用安装。估计这是趋势。我在研究中,大家可以一起讨论。

正文开始:我用了3中方法,第一种失败,第二种和第3中成功,花了不少时间,真是获益颇多。

1:现在windows下安装cygwin,这个安装起来比较麻烦,俺花了3天时间,最后还是没成功,这是很重要的一步。虽然没成功,可学了不少东西,对后面其他的安装很有帮助。*下载cygwin一定去官网下最新的,要不然安装是有一步提示选择镜像,就会出错,或者直接在地址栏输入http://www.cygwin.com/setup-x86.exe这是32位,要是64位把x86改成x86_64就行了。

安装的过程中会提示安装包,有两个要选上openssh和openssl这两个在net目录下,或者直接在上面搜就可以。这2个一定要选的。安装好后要配置运行cygwin输入ssh-host-config,下面的我就不说了,网上一搜一大把。中间会提示错误/var pression denied 这就要给这个文件付权限。只要输入下面代码:chmod 777 /var和 chown :Users /var这两个多试几遍就行了,我的也是有时候数一遍不行。777代表最高权限,网上还有其他数字,这个就行。

最重要的一步:我就卡在这里了,开启ssh服务,用命令net start sshd,再把私钥设置成公摇命令:ssh-keygen这一步会有提示直接点回车就行,接着输入cd ~/.ssh、cp id_rsa.pub authorized_keys.可以参看http://blog.csdn.net/bigdata_bupt/article/details/23049817。

最后要验证net start sshd输入命令ssh localhost没提示说明正确。如果提示Connection closed by ::1  就错了
。我的就到这就走不动了,因为跑hadoop项目是ssh要联通,要不然跑不动的。cygwin配置网上很多,可以尝试,接下来就是俺成功的配置。

注意:可能和系统有关,我换了个win7,安装上了,原来问win8.1安装不上,具体没去研究。你可以试试换个系统试试

2:下载hadoop4win 地址http://sourceforge.net/projects/hadoop4win/files/0.1.4/hadoop4win-setup-net_0.1.4.zip/download 直接安装就行了,里面的东西都有了,运行hadoop4win,先看安装目录有个opt/hadoop/bin,进入这个文件夹内,(注意:安装时必须以管理员身份运行,不然会出现安装不全,缺少快捷方式的错误)输入命令 ls 下图:

选择里面的hadoop-daemon.sh脚本命令:hadoop-daemon.sh start namenode


用jps命令查看进程

显示namenode 这个进程说明成功了,一共有5个进程都要开启,namenode、datanode、secondarynamenode、jobtracker、tasktracker.这5个有顺序的就是上面顺序,具体这5个的作用自已可以google,下图显示


接下来打开浏览器输入:localhost:50030和localhost:50070,查看是否成功显示如下:

1:


2:

显示这两个说明你安装成功了,下面跑一个wordcount例子,是hadoop4win自带的一个jar包,有2种方法一个命令行,一个是eclipse下,新手建议命令行,这样可以了解过程,熟悉后在eclipse。

先建一个txt文件随便输入内容我的如下

把这个文件上传到HDFS文件系统下现在hadoop4win命令下进入本地目录下 cd d: 再用命令:hadoop fs -put hello.tex  /


接下来打开localhost:50070查看文件,点击browser the filesystem,看有没有hello.txt

1:

2:

这样就是给上传成功了。接下来运行jar包。命令如下图

运行hadoop-0.20.2-examples.jar这个包,命令如下:hadoop jar hadoop-0.20.2-examples.jar wordcount hello.txt /sum.txt其中、sum.txt是自己定义的文件,可以其他。图如下:



然后打开localhost:50070,就会出现sum.txt,查看里面的内容,点开查看内容:

上面的写的很贱减略,能力有限,其中许多linux下的命令没说,看不懂的可以看一下这个视频很详细 http://www.ppvke.com/10354.html

上面的算是讲完了,可能要花点时间去查看其中的很多地方,多去想,多动手,多google!下面是第3种正在研究中,分享一下子:

3:

先安装虚拟机,vmware这就不讲了,安装后打开虚拟机导入下载的文件,地址:http://zh.hortonworks.com/hdp/downloads/


直接打开就行了,打开后到最后会出现一个地址形式是:192.168.xxx.xxx

把这个地址输入到浏览器中查看结果,如果出来hadoop界面,说明跑通了,后面的怎么跑项目,怎么去配置,还没去研究下网大家一起做!!

总结;到这就完了,中间遇到了不少问题,也学到了不少,自己不要怕不会的,只要多查,多想,就行了。可能你到最后也没配置成功,可你也会学到不少东西。男人嘛。。。就应该这样,做编程就要静下心来去研究。。

有问题下面留言,俺能解决的一定会回答,俺可能不经常上社区,回复可能不那么及时,还望理解。。。。。学习中!

转载请注明出处。谢谢!!


来自: http://my.oschina.net/liuxinquan/blog/401336