360SDN.COM

首页/Hadoop/列表

Hadoop还能辉煌多久——全新升级的hadoop2和YARN

来源:ItStar  2017-09-11 12:56:24    评论:0点击:

我  相  信  这  么  优秀  的  你 

 已  经  置 顶  了  我

Hadoop 2是分布式处理框架的一大进步,现在已经不再依赖于MapReduce。 获取关键功能的详细信息。

与大多数2.0版本一样,Apache Hadoop 2是开源分布式处理框架的重要一步。Hadoop的第一个版本已经发现越来越多的用途,特别是用于处理大量非结构化数据,并且作为传入信息的分段区域。但它也给用户带来了一些显着的局限性。

Hadoop 2最初被称为Hadoop 2.0,它提出了几个主要的架构进展,最显着的是增加了使用除MapReduce之外的编程模型创建的运行非批处理应用程序的支持。它还支持Hadoop分布式文件系统的联合操作和冗余HDFS NameNodes的配置,以增加可扩展性,并消除作为原始设计一部分的令人讨厌的单点故障。在很大程度上,Hadoop 2旨在扩大技术在企业应用中的实用性。

希望在Hadoop 2的新车上嘲笑轮胎的潜在用户可能对Hadoop升级有很多疑问。以下是IT经理,数据架构师,开发人员和业务主管对Hadoop集群潜在部署进行评估的一些答案。

什么时候可以让我我们接触Hadoop 2?

Apache Software Foundation在2013年10月发布了一系列Alpha版本,并于去年8月和9月发布了两项beta版本后,于2013年10月发布了Hadoop 2。除了可下载的社区版本之外,商业Hadoop发行提供商随后将新软件提供给其客户。与任何开源软件一样,尽管如此,错误报告和修复仍然是Hadoop每日收费的一部分。所以最好保持眼睛开放的问题。

YARN的故事是什么?

值得注意的是,Hadoop首次出现是一种学习体验,“位于西雅图的Infocentric独立顾问Dave Wells和数据仓库研究所的教练说。 “这更像是关于设计和结构在一起的事情。”使用Hadoop 2,其中的一些补丁就开始消失了,而关键的贡献就是一个名为YARN的软件层。

将HDFS与MapReduce并行编程模型相结合的Hadoop 1.x最常见的敲门砖是其批量导向格式限制了其在交互式和迭代分析中的使用,并且几乎消除了实时使用该技术的可能性操作完全。 Hadoop 2改变,主要是插入YARN。

虽然它的名字是适度的,但是另一个资源谈判者的缩写也是YARN - 投下了很长的阴影。这是一个重建的集群资源管理器,可以使Hadoop完全依赖于MapReduce及其批处理格式。 YARN通过将以前由MapReduce处理的资源管理和作业调度功能从Hadoop的数据处理层分离出来。因此,MapReduce成为只能在Hadoop集群中位于YARN上的许多处理引擎之一。

根据加利福尼亚州山景城Think Big Analytics的首席顾问Douglas Moore的说法,YARN为其他编程框架和新型应用打开了门槛,到目前为止,Moore表示:“Hadoop就像一列货运列车货运“。他补充说,Hadoop 2也将能够支持编程方法,让它“像兰博基尼一样快速地绕过赛马场。”

在Hadoop 2中有关HDFS高可用性和联合的所有话题?

由于它最初构建,Hadoop作为一个并行处理平台有一些很大的缺点。群集依赖于单个命名空间服务器,名为NameNode; 它保留了HDFS中的文件目录树,并跟踪了存储集群数据的位置,以便在需要时可以找到信息。这在集群中创建了一个单一的控制点,如果NameNode关闭,则会引起真正的麻烦。这也使得用户能够扩展群集并扩展其性能。

这些问题导致了HDFS新的高可用性和联合功能的开发。 现在,可以配置冗余的NameNodes对以提供备份,以防活动的一个崩溃或需要维护工作。 并且可以随意添加共享数据存储池的独立NameNode,以摩尔的话来说,“扩展处理”。

他补充说,内存数据网格供应商ScaleOut Software Inc.首席执行官William Bain表示,新功能非常需要。“任何分布式环境中,单点故障都是不可接受的。” 加州Los Gatos的软件开发服务提供商Impetus Technologies Inc.的首席架构师Sanjay Sharma表示,HDFS联盟和高可用性功能也为处理更大和更大的数据池奠定了基础。联盟计划尤其重要 为了帮助Hadoop的数据处理能力“达到数百亿级”,Sharma说。

Hadoop现在是Hadoop 2的成熟企业级技术吗?

结束对MapReduce的依赖和引入HDFS联合和高可用性是Hadoop成熟度的重大步骤。该技术现在还支持Windows和时间点数据快照,用于备份和灾难恢复。但它仍然可以是一个复杂的工作平台,部分原因在于它的开放性,以及它依赖多样化的生态系统支持工具来满足应用需求。在构建基于Hadoop的环境中通常需要一些组件。而Hadoop正处于数据架构不断变化的中心,似乎保证了一段时间以来的“狂野西部”感觉。

Hadoop 2的发行版显示了近年来框架的变化情况如何变化,根据Hadoop原创创始人之一Doug Cutting的说法,在雅虎工作期间,现在Hadoop供应商Cloudera Inc.的首席架构师。

“2009年,当0.20版本创建时,大多数人认为Hadoop本身就是一个有用的工具,”Cutting通过电子邮件说。 “它主要提供了一个MapReduce引擎,为企业提供可扩展,可靠的批量计算。他继续说道,现在Hadoop可以支持更广泛的工作量。

「福利时间」


想学大数据没有思路?

java转型大数据容易还是困难?



扫面下方二维码

与大数据资深大咖一起聊一聊

扫码即可获得价值 399元一节的

大数据直播课免费权限

阅读原文

为您推荐

友情链接 |九搜汽车网 |手机ok生活信息网|ok生活信息网|ok微生活
 Powered by www.360SDN.COM   京ICP备11022651号-4 © 2012-2016 版权