阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

访客1年前AI生活150
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统 TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。

TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

999.jpg

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。

性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。

一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

彭博社、费加罗报等外媒聚焦波场TRON与Tangem重磅合作

彭博社、费加罗报等外媒聚焦波场TRON与Tangem重磅合作

近日,波场TRON官方宣布正式与硬件钱包解决方案提供商Tangem AG达成合作,包括彭博社、费加罗报、金融时报、美联社等在内的多家权威外媒...

专访腾银财智CEO童彤:银行客户经理缺一个“外脑”和“神经系统”

2019年12月23日,企业微信正式推出3.0版本,包括直加微信好友、客户朋友圈打通、扩展外部百人群等新功能,意味着企业微信和个人微信正式互通...

类ChatGPT新玩家「商量」入场,商汤如何「日日新」?

类ChatGPT新玩家「商量」入场,商汤如何「日日新」?

在魔都的东南角临港新片区,商汤科技人工智能计算中心AIDC在2022年启动运营,楼宇俯瞰宛若芯片。自ChatGPT以来,国内各家对大模型的追...

亚略特机器视觉助力武汉“菜篮子”工程建设,提升农贸市场智能化监管水平

亚略特机器视觉助力武汉“菜篮子”工程建设,提升农贸市场智能化监管水平

农贸市场是重要的民生工程,也是方便群众生活、增加城市“烟火气”的实际需要。作为国家“米袋子”、“菜篮子”重点民生工程的最后一环,其智慧化建设...

被举报风波后续:大陆集团自动驾驶及出行事业群中国区负责人罗沄离职

小编获悉,9月7日起,罗沄将不再担任大陆集团自动驾驶及出行事业群中国区负责人职务。 目前新领导人还未确认,该职务暂由大陆集团中国区总裁兼首席执...

天津滨海“黎明牌”配网带电作业机器人壬寅虎年首秀

天津滨海“黎明牌”配网带电作业机器人壬寅虎年首秀

人勤春来早,实干正当时。2月17日,国网天津滨海供电公司带电作业班的员工,早早地载着“黎明牌”配网带电作业机器人来到了10千伏585线路搭火现场,开展各项准备工作。这是滨海公司任寅...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。