阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

访客2年前AI生活193
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统 TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。

TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

999.jpg

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。

性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。

一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

潮起正是扬帆时|舟山市普陀区聚焦产业高地 成功举办先进智造深圳分站赛

潮起正是扬帆时|舟山市普陀区聚焦产业高地 成功举办先进智造深圳分站赛

8月15日,第七届·中国舟山全球海洋经济创业创新大赛暨普陀区“智慧海洋”创业创新大赛·先进智造深圳分站赛在深圳南山区成功举办。本次分站赛由舟...

普渡科技再获C4轮融资,1个季度融2轮,服务机器人赛道成2023年顶牛?

普渡科技再获C4轮融资,1个季度融2轮,服务机器人赛道成2023年顶牛?

5月4日,商用服务机器人企业普渡科技在官微宣布完成数亿元C4轮融资,这已经是普渡科技在2023年所获得的第二次融资,而且本轮融资与普渡科技2月...

2022 界面新闻 REAL 科技大会落地大湾区,聚焦中国创造之新浪潮

2022 界面新闻 REAL 科技大会落地大湾区,聚焦中国创造之新浪潮

11月7日,由界面新闻主办的REAL科技大会在深圳举办。本届大会以“新·中国创造”为主题,涵盖新造车、人工智能、元宇宙等前沿科技话题。同时,...

对话木牛科技COO王卫: 木牛科技的4D毫米波雷达之路

2023年2月特斯拉向欧洲监管机构提出申请,特斯拉将在HW4.0硬件系统将配置一颗高分辨率4D毫米波雷达,此举引起行业热议。 在车载传感器阵容...

机密信息泄露频发,芯片公司的信息安全痛点如何解决?

机密信息泄露频发,芯片公司的信息安全痛点如何解决?

作为芯片开发中至关重要的环节,工具链的存在往往比较低调。因为一方面,其价值难以直接呈现在最终产品里,另一方面,其To B的性质也使得受众群体仅...

中国肺炎给予企业的是抗击打能力,而抗击打能力一个最关键的核心就是现金!

中国肺炎给予企业的是抗击打能力,而抗击打能力一个最关键的核心就是现金!

中国肺炎疫情、美国流感、东非蝗灾、澳洲火灾,2020年初发生的一系列“黑天鹅事件”提醒人类,灾难并不少见,它可能在下一刻就会降临。 和...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。