阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

访客9个月前AI生活113
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统 TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。

TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

999.jpg

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。

性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。

一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

广汽传祺将有3款车型搭载华为智驾与座舱能力,北京车展官宣

广汽传祺将有3款车型搭载华为智驾与座舱能力,北京车展官宣

近日,华为车BU到访广汽的内部照片流出,疑似双方正在酝酿新的合作。小编获悉,华为车BU与广汽传祺的合作更进一步,拿下传祺3个车型的座舱定点,...

9月18日,2022第二届中国医疗机器人产业创新大会在深圳召开!

9月18日,2022第二届中国医疗机器人产业创新大会在深圳召开!

近几年,随着人工智能的快速发展、技术的突破及应用领域的逐渐广泛化,医疗行业的发展备受关注。 医疗机器人作为人工智能时代在医疗领域应用的深化,能...

智能驾驶第6颗中国芯现身, 官方却淡化模糊处理!

智能驾驶第6颗中国芯现身, 官方却淡化模糊处理!

今天有个暗信息,需要扒一扒。 其实是个相当重要的核芯突破,官方却没有好好发布,甚至在本来最重要的角度有意淡化处理,只是一语带过,原因叵...

中国工业云市场报告:腾讯云增速最快,位列装备制造领域第一

中国工业云市场报告:腾讯云增速最快,位列装备制造领域第一

10月23日,全球领先的IT市场研究和咨询公司IDC发布了《中国工业云IaaS+PaaS市场份额,2022:分化初现》报告,腾讯云凭借领先的技...

从云原生到Serverless,我们对数据库还有哪些想象?

从云原生到Serverless,我们对数据库还有哪些想象?

近几年,从新一代数据源体系到数据处理体系,再到数据分析、AI 算法体系,数据技术快速发展,OLAP、数据湖、数据集成、DataOps、MLO...

没有相机,如何拍摄一部野生生物影像?

没有相机,如何拍摄一部野生生物影像?

在中国南部的某座高山上,生活着一种在地球上繁衍生长了万亿年,但直到2014年才被发现的动物,这种动物全身漆黑,脚趾呈黄色,因背上有凸起而被称...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。