精品无码一区二区三区水蜜桃

久久久久久国产精品免费免费

人妻出轨合集500篇最新 林意群:eBay HDFS架构的演进优化本质

发布日期:2022-05-14 14:50    点击次数:86

本文凭据林意群在【第十二届中国数据库技能大会(DTCC2021)】现场演讲本色整理而成人妻出轨合集500篇最新。

讲师先容:

林意群,亿贝软件工程(上海)有限公司大数据建立工程师,领有多年大数据从业劝诫,2019年加入eBay,主要厚爱eBay HDFS集群性能优化方面的职责。以前也活跃于开源社区,领有多年参与开源社区的劝诫。现在主要专注于存储规模的磋商和学习,同期也乐于归来共享,在eBay技能公众号,Alluxio官方公众号上发表过多篇技能著作。著有《深度分解Hadoop HDFS》一书。

本文纲目:

HDFS算作大数据的底层存储系统,大要存储海量的数据并大要对外提供舒服的数据读写处事。eBay HDFS集群发展于今已达到PB限制量级的数据存储,同期现在在维持公司越来越多业务的发展。相通,业务的快速发展对咱们的HDFS集群建议了更高的要乞降挑战。

eBay HDFS架构经过多年的演进优化,在性能和舒服性上得到了极大的普及。在早期的时刻,HDFS集群所以寥落集群处事的情势对外提供数据处事。伴跟着业务数据限制的快速增长,咱们很快遭逢了HDFS NameNode的性能瓶颈问题。

几乎每科的老师都投诉过孩子上课注意力不集中,成绩常年垫底,在我的坚持下带了孩子去医院,最终结果医生确诊为典型注意缺陷多动障碍,医学上称为ADHD。

随后咱们进行了HDFS Federation架构情势的尝试。咱们将主集群NameNode的元数据进行了多namespace的拆分,形成多Federation NameNode共同处事的神志。同期在此时期咱们持续地在进行HDFS自身的性能调优,使得NameNode的处感性能大要得到进一局势普及。

HDFS Federation架构横向彭胀了HDFS集群的合座处明智商,然而接续增加的Federation namespace也加大了咱们对此的不断和使用难度。如何愈加灵验地使用和不断这些namespace的数据成了咱们又一个新的需要治理的选藏。咱们接收了社区RBF(Router-Based Federation)的架构情势来调理不断HDFS Federation。

在RBF架构情势下,引入了中间处事Router来作客户端和NameNode处事端的中间层,底层Federation NameNode对于客户端来说澈底透明。基于Router处事的Federation决策使得咱们大要愈加生动透明地彭胀底层HDFS的处事智商。本文咱们将瞩目叙述eBay HDFS集群架构从单独集群到Federation情势,再到RBF架构情势的演进历程,以及在此时期咱们遭逢的许多选藏和相应的治理决策。

共享大纲:

a.先容HDFS在ebay的使用近况人妻出轨合集500篇最新

b.先容ebay在出产中遭逢的问题,以及咱们搪塞和优化的计策。

c.先容HDFS Rouer-based federation在ebay的诈欺。

演讲正文:

eBay Hadoop发展了许多年,现在领有10+集群,总和在2W+节点以上,其中最大的一个集群HDFS跳跃5000台机器,总存储达到800PB+,日均Job数在100K+。

跟着集群的接续扩大,会面对多样问题与挑战,在eBay HDFS集群演进方面,2019年之前是寥落集群情势,跟着数据量的增长,在2019年引入Viewfs Federation决策,在2020年遭逢了NameNode单点瓶颈问题,咱们做了许多集群性能优化,拆分更多Federation集群,在2021年,RBF决策渐渐取代Viewfs Federation神志。

在单集群情势时,开动HDFS架构情势口角常省略的。上头是Namespace层,底下是BlockStorage层,各个集群互相寥落,在数据量少时,这种部署情势是莫得问题的。

HDFS里面结构规画如下:HDFS有三副本的机制,通过将三个副本散布在两个Rack上。

跟着数据量的接续增长,HDFS集群面对的挑战也越来越大,如:持续增长的数据存储压力,包括文献数据和元数据;NameNode处事的单点性能瓶颈;多集群的运维不断,数据不断。

在HDFS性能优化方面,咱们做了许多尝试,如:

减少HDFS粗重API操作影响:Balancer从Standby NameNode获得blocks操作;Delete操作按照batch size实施的截止;ListStatus操作忽略block location的获得;Snapshot操作拆分为多子目次的不断人妻出轨合集500篇最新。

异步化RPC response :RPC的response阶段需要做加密操作,会酿成一定的性能损耗,将此过程进行异步化地处理来提前开释NameNode的Handler资源(干系JIRA: HDFS-15486)。

NN锁优化处理:冗余目次锁的去除;SetTimes操作写锁转读锁;ReadWrite callqueue完了(干系JIRA: HDFS-15553)。

接下来,咱们从单集群情势向多集群Federation情势进行了演变。基于Viewfs的Federation情势。然而在Federation情势下,咱们需要大要对数据进行快速的搬动,这里咱们使用的是fastcopy的神志来做。

咱们基于Fastcopy的数据搬动经过如下:1,久久久久久国产精品免费免费收回目次权限;2,关闭open中的文献;3,使用Fastcopy进行数据的搬动;4,要是3圭臬失败,进行retry;5,复原权限;6,更新mount table信息。

在数据迁转眼,数据量口角常大的,共享一下Fastcopy旨趣:1,Client向源NameNode查询文献block信息;2,在目的NameNode上创建相应文献,block信息;3,发送copy block央求到block所属DataNode;4,DataNode创建block,hard link到源block文献;5,讲演block到目的NameNode。这就完成了Fastcopy的过程。

只靠Fastcopy还不够,还需要将Fastcopy功能集成进DistCp器具里。咱们进一步对DistCp进行了翻新优化,包括:调理化大文献小文献的长度,幸免出现长尾任务影响;目次ACL preserve操作的前置;DistCp维持whitelist/exclude list的拷贝;DistCp job的参数调优。这么的驱散就使性能普及近7倍。

在集群RPC流量搬动方面,咱们是如何做的呢?最初分析用户数据走访活动人妻出轨合集500篇最新,主要检查是否有rename操作的活动;其次将Fastcopy数据从源cluster到目的cluster,临了用户重定向到新cluster进行数据的走访。

Viewfs Federation也不是完整的神志,它存在两大问题:

第一,治愈老本高。跟着Federation集群变多,Viewfs的更新治愈老本过高,需要在每个client端做更新。

第二,对客户端不透明,Viewfs对客户端不透明,触及到底层数据的搬动需要客户端的治愈。

接下来,咱们从多集群Federation情势向基于Router的Federation情势的演变。

HDFS Router-based Federation架构如下:

以下是RBF央求处理的过程:

RBF架构情势的上风如下:

第一,无情状的处事,cloud-native化部署,苟简进行横向彭胀;

第二,Federation旅途更新对用户澈底透明,用户无需进行任何更新;

第三,可基于RBF架构做数据split拆分的决策。

RBF的功能特色如下:

eBay针对RBF进行了许多优化,在RBF的平滑部署方面,咱们提高了Viewfs到RBF的兼容性维持,同期针对YARN RM Security情势补token逻辑的矫正。

在RBF的性能矫正方面,咱们把Router处事维持更大的RPC概述量,治理Router里面的伙同复用问题,去掉Router和NameNode之间的Sasl加密操作;Router维持客户端ip地址,clientId的保留,不会影响到任务data locality的读写;多挂载点情势下,moveToTrash文献删除问题的治理。

以下是Viewfs到RBF的兼容性矫正:

在RBF补token矫正方面,主要有五步:

1,Client从NameNode获得token;2,Client提交Job到RM(捎带token);3,RM荒芜向Router获得Router token,随后token通过任务调度下发到work node上;4,Work node上跑的任务通过token来做HDFS认证,以此进行HDFS数据和Router处事的走访;5,Job运行驱散,RM进行token的删除操作。

对于RBF的改日瞻望

咱们但愿在RBF情势上做更多的本色人妻出轨合集500篇最新,如:RBF异步化RPC处理来进一步普及RPC概述量;基于RBF做更为自动化的数据split拆分;基于RBF情势下做Tiered Storage,普及集群存储的驱散;RBF对底层namespace间RPC处理的散伙。

RouterblockViewfs集群token声明:该文视力仅代表作家自己,搜狐号系信息发布平台,搜狐仅提供信息存储空间处事。