火山语音首个超写实数字人小灿正式亮相

访客1年前AI生活135

10月18日,火山语音首个超写实数字员工小灿正式亮相。在最新发布的品牌TVC中,小灿以虚拟产品经理的身份入职火山语音团队。初入职场的小灿就像普通新人一样,也会为自己能否顺利入职而纠结,更会在入职第一天整装待发,对美好的实习生活充满期待。TVC中,她阳光可爱,与同事们穿梭在日常职场中丝毫不显违和,会因开会而紧张,更希望被大家认可并看重自我成长,在短短的一分钟故事短片内,展示了虚拟数字人丰富的情感世界,直观近如眼前。

火山语音首个超写实数字人小灿正式亮相

据了解,小灿由火山语音联合朝夕光年江南团队共同打造,其形象融合了艺术美感。无论从数字人的外形与动作出发,还是细致到面部微表情、皮肤肌理,甚至是发丝材质上都做到了高度逼真。伴随小灿的发布,火山语音团队已经具备3D超写实数字人整套形象设计、资产制作、高成本影视级cg管线视频内容的制作能力。

火山语音首个超写实数字人小灿正式亮相

从外在的制作能力深入到内在的数字人AI驱动角度,火山语音团队具备丰富且领先的技术储备,例如AI驱动口型方向,团队通过使用行业领先的非自回归模型的唇形生成网络,合成与输入文本或语音完全匹配的唇形,准确率高达98.55%。

AI驱动动作层面,团队基于创新的Motion Blening技术,在动作切换时可生成过度帧,使得数字人在切换各类动作时不仅可以做到毫秒级切换,同时平滑效果自然无感知;除此之外还在AI表情口型联合建模,基于语音语义的动作生成即co speech技术上,都有具有前瞻性的预研工作并已取得阶段性成果,后续将全部应用于数字人视频创作、交互以及直播等场景。

值得一提的是,本次发布的超写实数字人还具备“一条音频秒级别音色复刻”技术(zero shot TTS),可以做到高保真还原真人音色、说话风格以及声学环境等特点,在核心技术架构全自研的基础上,关键指标均保持业界前沿。此外韵律模块基于自回归GPT类大模型,目前训练数据超过20万个小时,架构可扩展性很强,未来预计可支持100万小时以上数据训练;模块支持code-switch,即无论prompt为中文或者英文,都可支持直接输出中文、英文及混合内容。

原始音频

生成-中文效果

生成-英文效果

如今火山语音团队已建立了包括2D、3D卡通和3D超写实在内的虚拟数字人产品矩阵,涵盖“播报型数字人”和“交互型数字人”两种类型,其中播报型数字人,即输入文本或语音,就可生成自然生动的数字人播报视频;交互数字人作为播报型数字人的形态升级,依托于火山语音长期积累的成熟语音交互技术,可以做到“善听”、“会说”、“能想”,与用户面对面实时交互。“交互数字人集成了全双工语音交互链路,前向兼容语音以及文本输入,后向兼容2D与3D数字人表现力,整体端到端交互延迟在500ms左右,性能效果超前。”团队总结道。

2022年6月,火山引擎虚拟人数字平台已获得信通院首批数字人系统基础能力认证。在“实时高逼真孪生数字人关键技术研发与应用示范”项目建设中,火山语音团队凭借业内优势的AI语音技术以及全栈语音产品解决方案能力,参与到该项目课题三“实时高保真孪生数字人通用开发平台”的建设中,并与江南游戏工作室合作,通过整合交互理解、智能对话管理、智能驱动三大模块,构建支持定制化并适用于多样场景的数字人智能“对话”系统,实现多模态交互对话。

一直以来,火山语音技术支持下的虚拟数字人专注播报、交互、直播三大核心领域,通过火山引擎面向金融、汽车、传媒等多个核心行业,提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚拟直播”等场景细分解决方案,并可落地在内容生产、视频直播、车载环境等诸多场景中,为用户带来全新的互动服务和专业智能体验。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

安霸半导体双目视觉感知系统:双目就像人的双眼,能够更为精准地测距!

安霸半导体双目视觉感知系统:双目就像人的双眼,能够更为精准地测距!

L2+,正式成为了自动驾驶的主战场;安霸 (Ambarella) 的策略,跟市场的大趋势形成了步调一致的节奏。 2015年,安...

趣链科技推动区块链产业标准化,带头制定区块链IEEE国际标准!

趣链科技推动区块链产业标准化,带头制定区块链IEEE国际标准!

近年来,区块链技术的发展速度之快、势头之好令全球瞩目。为了区块链更健康地发展,IEEE、ISO、W3C、ITU等国际化组织均已展开区块链标准...

三位生物医学大模型时代「盗火者」,窥探生命宇宙的边缘

三位生物医学大模型时代「盗火者」,窥探生命宇宙的边缘

生命科学的爆发可能像GPT一样很快到来。 在如今的大模型浪潮中,来自全球学术、工业、投资界的一群人,正俯瞰着创新乏善可陈的 AI 谷地,他们眉...

蚂蚁集团发布隐语开放平台,支持十亿级密态数据样本处理、小时级部署应用

蚂蚁集团发布隐语开放平台,支持十亿级密态数据样本处理、小时级部署应用

9月3日,2022世界人工智能大会(WAIC)可信隐私计算高峰论坛上,蚂蚁集团发布可信隐私计算“隐语开放平台”(简称隐语开放平台),面向全球用...

火山引擎4K修复影片入选北影节 相关技术在CVPR2024夺冠

火山引擎4K修复影片入选北影节 相关技术在CVPR2024夺冠

4月18日,第十四届北京国际电影节正式开幕。由中国电影资料馆、抖音和火山引擎联合4K修复版的港片《A 计划》与《卖身契》入选“致敬·修复”单元...

央行指出合理扩大数字人民币试点区域数字虚拟货币概念股应声走高

央广网北京3月25日信息(记者蒋勇)据中央广播电视总台经济之声《天下财经》信息,中国央行于24日召开2022年货币金银和安全保卫工作电视会议...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。