阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

访客1年前AI生活132
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统 TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。

TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

999.jpg

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。

性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。

一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

凌华科技发布基于第12/13代英特尔®  酷睿™处理器的ATX主板IMB-M47H

凌华科技发布基于第12/13代英特尔® 酷睿™处理器的ATX主板IMB-M47H

提供高效的、可扩展的边缘人工智能解决方案 摘要: • 全新的ATX主板支持第12/13代英特尔® 酷睿™, 奔腾®和 赛扬® 处理器 •...

信创典型案例 | 全面升级!某市住房公积金中心打出国产化云上办公组合拳

信创典型案例 | 全面升级!某市住房公积金中心打出国产化云上办公组合拳

当前,在科技自立自强成为国家发展战略支撑的大背景下,信息技术应用创新产业成为国家和区域经济发展的新引擎,信创桌面云市场得以快速发展,越来越多...

“钱”景无限的人工智能专业孩子要不要学?脉友几乎一边倒

“钱”景无限的人工智能专业孩子要不要学?脉友几乎一边倒

在几十年里,大学相继出现了“建筑热“、”计算机热“、”金融热“等热门专业,在未来十年,哪个专业有望引来爆发?人工智能可能是目前最多人的答案。...

特斯拉Autopilot大裁员后,AI主管Andrej Karpathy离职

特斯拉Autopilot大裁员后,AI主管Andrej Karpathy离职

7月13日,特斯拉AI高级总监、自动驾驶负责人Andrej Karpathy在推特宣布自己从供职5年的特斯拉离职。随后马斯克在这条推文下面评...

拱墅区优化数字人民币使用环境 置换电动自行车,能拿数币补贴

拱墅区优化数字人民币使用环境 置换电动自行车,能拿数币补贴

今年6月起,杭州市拱墅区开展全省首个数字人民币补贴活动——拱墅区备案非标电动自行车置换活动,以激发电动自行车消费市场活力,优化数字人民币受理...

滴滴金融参加国家反诈中心宣传活动 助力全民反诈

滴滴金融参加国家反诈中心宣传活动 助力全民反诈

6月16日,国家反诈中心在京举办全民反诈宣传月之“青年在行动”启动仪式,滴滴金融受邀参加了此次活动。公安部直属机关党委、宣传局、刑侦局、国家反...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。