首页/Hadoop/列表

一分钟让你知道Hadoop是什么

来源:甲骨文WDP黑龙江中心  2017-09-19 15:25:34    评论:0点击:

 

hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.

大数据在Hadoop处理的流程可以参照下面简单的图来进行理解:数据是通过了Hadoop的集群处理后得到的结果。

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.

大文件被分成默认64M一块的数据块分布存储在集群机器中.如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key–value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks.Secondary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.TaskTracker负责某一个map或者reduce任务.

 
 

 

大数据招生火热进行中

有想报名进行免费试听的同学可以

点击原文连接或加小骨头QQ(3459600846)进行了解哦!

 
 

有作为

倍薪资

为己有

如果你也觉得我们不错,可直接搜索公众号进行关注,查看历史消息即可。

如果你觉得文章不错,也可点击右上角的“...”分享到朋友圈大家需要正能量。

 

 

 

阅读原文

为您推荐

友情链接 |九搜汽车网 |手机ok生活信息网|ok生活信息网|ok微生活
 Powered by www.360SDN.COM   京ICP备11022651号-4 © 2012-2016 版权