YARN Federation-程序员宅基地

技术标签: federation  yarn  

介绍

众所周知,YARN可扩展到数千个节点。 YARN的可伸缩性由Resource Manager确定,并且与节点数,活跃的应用程序,活跃的容器和心跳频率成比例。降低心跳可以提高可扩展性,但对利用率有害。本文档描述了一种基于联邦(federation)的方法,通过联合多个YARN子集,将单个YARN集群扩展到数万个节点。所提出的方法是将大的(10-100k节点)集群划分为称为子集群的较小单元,每个集群具有其自己的YARN RM和计算节点。联合系统(federation system)将这些子集群拼接在一起,使它们成为应用程序的一个大型YARN集群。在此联合环境中运行的应用程序将看到单个大型YARN群集,并且能够在联合群集的任何节点上计划任务。联合系统将与子集群的Resource Manager协商并为应用程序提供资源。目标是允许单个作业无缝地“跨越”子集群。
这种设计在结构上是可扩展的,因为我们限制每个RM负责的节点数量,并且适当的策略将会保证大多数应用程序驻留在单个子集群中,因此每个RM看到的应用程序数量 也是有限的。 这意味着我们几乎可以通过简单地添加子集来线性扩展(因为它们之间需要很少的协调)。 此体系结构可以在每个子集群中提供非常严格的调度不变量来实施,而跨集群的连续重新平衡将强制这些属性在全局级别也得到尊重。

架构

YARN Federation的主要设计思想是希望通过联合的方式让集群可以有多个SubCluster 。 每个SubCluster都是一个独立的小集群,由子集群的ResourceManager分别管理一部分节点。这些小集群共同组成一个大的YARN Federation集群,实现资源的统一管理与作业调度。

  1. sub-cluster:子集群是一个YARN集群,具有多达数千个节点。
    子集群的YARN RM将在保持高可用性的情况下运行,即,我们应该能够容忍YARN RM,NM故障。如果整个子集群遭到破坏,外部机制将确保在单独的子集群中重新提交作业。
    子集群也是联合环境中的可伸缩性单元。我们可以通过添加一个或多个子集群来扩展联合环境。
  2. Router:路由组件,一个Federation 集群可以配置一组,但最少配置一个。用户提交应用时首先会访问其中一个Router,然后Router会先从State Store中获得所有“Sub Cluster”信息(active rm 和 其他一些使用率信息),之后根据配置的路由策略(从策略存储中获取)将应用程序提交请求转发到对应的RM上。
  3. AMRMProxy:AMRMProxy是应用程序和多个RM通讯的桥梁。他允许一个App可以跨子集群运行。例如,一个App有2000个task, 这些task会分散到所有子集群上运行,每个子集群运行一部分。AMRMProxy运行在所有的NM机器上,它实现了ApplicationMasterProtocol接口作为AM的YARN RM的代理。 应用程序不能直接与子集群的RM通信。 YARN框架强制应用程序只能连接到AMRMProxy,从而提供对多个YARN RM(通过动态路由/拆分/合并通信)的透明访问。 在任何时候,作业都可以跨主子集群和多个辅助子集群运行,其中AMRMProxy的运行策略会试图限制每个作业的占用空间以降低调度上的开销。
  4. Global Policy Generator(简写:GPG):全局策略生成器忽略整个联合,并确保系统始终被正确的配置和调整。 关键设计点是群集的可用性不依赖于永远在线的GPG。
  5. Federation State-Store:联合状态定义了需要维护的附加状态,以便将多个单独的子集群松散地耦合到单个大型联合集群中。
  6. Federation Policy Store:联合策略存储是一个逻辑上独立的存储,其中包含有关如何将应用程序和资源请求路由到不同子集群的信息。 当前的实现提供了几种策略,从随机/散列/循环/优先级(random/hashing/roundrobin/priority)到更复杂的策略,这些策略考虑了子集群的负载。

应用程序跨Sub-Clusters运行的流程

提交应用程序时,Router会找一个最合适的子集群运行应用程序,称之为应用程序的主子集群。AM与RM的所有通信都通过AM机器本地的AMRMProxy进行。理想情况下,应用程序默认会运行在资源和数据都可用的子集群上,但如果需要其他子集群节点上的资源,则AMRMProxy将与这个子集群的RM通讯请求资源。让应用程序像在一个大集群上运行。这个功能需要AMRMProxy,全局策略生成器(Global Policy Generator,GPG)和Router组合在一起使用。

配置

具体配置在官网上可以看到,在此不介绍。

 

原文地址:https://www.jianshu.com/p/e97fbfc99003

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u010670689/article/details/96902589

智能推荐

python之09-tuple元组-程序员宅基地

文章浏览阅读254次。详细请参考:https://www.cnblogs.com/Neeo/articles/11212374.html1、元组的基本操作1>创建元组Python中,元组(tuple)用一对小括号()表示,元组内的各元素以逗号分隔。t = ()print(type(t)) # <type 'tuple'>t1 = ('name', )print(t1) ..._tuple元祖for循环取值

c语言程序怎样生产dll文件,关于c语言创建dll文件及dll文件的调用-程序员宅基地

文章浏览阅读860次。关于c语言创建dll文件及dll文件的调用近来又有人在群里问如何用c语言编制dll文件(动态链接库)。原来没有对这个问题太在意过,也没有尝试过任何解决方案,毕竟原来我是用vb的(现在用.net),做个dll只不过是点选一下建立activeX dll工程的图标而已。今天在网上与朋友聊天,看了他指给我的几个几个文件,用MingW将C程序编译成dll文件的例子,我恍然大悟,原来讲C程序编译成dll文件只..._keil c语言 生成dll

【学习笔记】基于遗传算法的BP神经网络优化算法_遗传算法优化 bp 染色体-程序员宅基地

文章浏览阅读6.8k次,点赞11次,收藏111次。一、背景介绍BP神经网络是一类多层的前馈神经网络。它的名字源于在网络训练的过程中,调整网络的权值的算法是误差的反向传播的学习算法,即为BP学习算法。BP神经网络是人工神经网络中应用广泛的算法,但依然存在着一些缺陷,例如学习收敛速度太慢、不能保证收敛到全局最小点、网络结构不易确定等。另外,网络结构、初始连接权值和阈值的选择对网络训练的影响很大,但是又无法准确获得,针对这些特点可以采用遗传算法对神经网络进行优化。二、算法流程创建网络;确定网络的初始权重值和阈值,对其进行编码得到初始种群;while_遗传算法优化 bp 染色体

Redis6 主从复制及哨兵机制_redis 6 哨兵-程序员宅基地

文章浏览阅读316次。Sentinel(哨兵)进程是用于监控Redis集群中Master主服务器工作的状态在Master主服务器发生故障的时候,可以实现Master和Slave服务器的切换,保证系统的高可用(HA)其已经被集成在redis2.6+的版本中,Redis的哨兵模式到了2.8版本之后就稳定了下来。......_redis 6 哨兵

C语言 | 链表的建立和剔除_snode *init()-程序员宅基地

文章浏览阅读363次。单向链表,定义、插入、剔除操作,模块化能直接调用_snode *init()

wide find - replace [转]-程序员宅基地

文章浏览阅读84次。wide find - replace最后更新:2008-09-09, Ver 2.3.4.0909 简介 wfr   - 支持多国语言的字符串批量查找和替换   - 批量字符集编码转换 纯 unicode 规则匹配内核,..._iso-2022-cn-ext

随便推点

二、Json对象、Json数组和Json字符串_json字符串数组-程序员宅基地

文章浏览阅读6.7k次,点赞3次,收藏17次。一、Json字符串和Json对象定义:1、Json字符串:所谓字符串:单引号或者双引号引起来,是一个String类型的字符串:如下:var person='{"name":"shily","sex":"女","age":"23"}';//json字符串console.log(person)console.log(person.name)console.log(typeof person) 2、Json对象:最显著的特征:对象的值可以用 “对象.属性” 进行访问,_json字符串数组

Linux系统100条命令:关于Ubuntu和 CentOS 7 相同功能的不同的终端操作命令_ubuntu 命令跟centos-程序员宅基地

文章浏览阅读718次。CentOS 7:ip link set interface_name up 或 ip link set interface_name down。Ubuntu:ifconfig interface_name up 或 ifconfig interface_name down。CentOS 7:编辑 /etc/sysconfig/network-scripts/ifcfg-eth0 文件。Ubuntu:编辑 /etc/network/interfaces 文件。_ubuntu 命令跟centos

windows10下VS2019编译jpegsrc.v9e.tar.gz为lib静态库(已验证)_jpeg library error vs2019-程序员宅基地

文章浏览阅读652次。jpegsr9e windows vs2019生成方法,以及库下载_jpeg library error vs2019

重磅?华为 Mate60/Pro 系列网速实测结果公布,最高 1205.57 Mbps_华为mate60pro+核实网络-程序员宅基地

文章浏览阅读647次。总的来说,华为Mate 60/Pro系列手机的高速网速表现引起了广泛的关注,这也是消费者对该系列手机购买热情高涨的一个重要因素。可以看出,华为Mate 60/Pro系列手机的网速表现非常出色,这也是消费者购买该系列手机的一个重要原因。此前,华为Mate 60 Pro的供应量已经增至1500万至1700万台,而最新消息称,华为Mate 60 Pro和Mate 60 Pro+的出货量甚至已上调至2000万台。目前,在中国市场上,手机竞争愈发激烈,不仅华为Mate 60系列,其他品牌的手机也都受到了高温的迎接。_华为mate60pro+核实网络

access查找出生日期年份_access怎样利用出生日期计算年龄呀!-程序员宅基地

文章浏览阅读7.1k次。公告: 为响应国家净网行动,部分内容已经删除,感谢读者理解。话题:access怎样利用出生日期计算年龄呀!回答:lt;%set rs = server.createobject("adodb.recordset") curid=request("id") sql = "UPDATE pany SET a_num=a_num+1,day_count=day_count+1 WHERE day_lda..._access出生年份表达式

python 内置函数-程序员宅基地

文章浏览阅读75次。Python内置函数(1)——absPython内置函数(2)——divmodPython内置函数(3)——maxPython内置函数(4)——minPython内置函数(5)——powPython内置函数(6)——roundPython内置函数(7)——sumPython内置函数(8)——bool...