时间: 2024-12-26 19:03:04 | 作者: 爱游戏体育全站app
作为具有国际规划榜首用户数的通讯运营商,中国移动每年的客户服务运营本钱巨大。现已广泛遍及的智能语音客服虽能完结必定的事务自动应答使命,但仍然不及人工客服面对面,1对1的星级服务体会。针对实际事务存在的痛点,中国移动九霄视觉团队联合南京大学邰颖团队,研制高保线D 数字人说话驱动体系,
据中国移动官方介绍,2D 数字人说话驱动体系完成依据给定方针人物的相片或视频和恣意一段音频,生成与音频同步的方针人物说话视频流。要求生成视频里的人物逼真度高,表情姿势天然,一起需求具有较高的实时性,能做到与言语大模型、音频组成才能有机整合,构建起人物数字替身。中国移动九霄视觉团队联合南京大学研制的高保线D 数字人说话驱动体系,在以下三方面展开了技能攻坚和计划立异:
榜首,功能实时:比较以往数字人办法,在实时播报的口型生成技能上到达了学术界抢先水平,
第二,作用抢先:研制二阶段学习结构,将数字人说话驱动拆解成:从音频到口型系数和从口型系数到生成人像两部分,下降学习难度,完成更好的生成作用。
第三,心情操控:引进心情引导学习模块,支撑正常、浅笑、惊奇、愤恨、惊骇、哀痛等 7 种干流心情操控生成才能,赋予生成的播报人人文情感表达才能。
从中国移动官方得悉,数字人生成技能上完成了端到端的二阶段 30 FPS 实时生成功能,并支撑 512*512 人脸区域生成,一起具有快乐、哀痛等 7 种干流心情操控生成才能。
在评测集 VoxCeleb 目标方面,该技能的口型准确性 LMD(LandMark Distance)到达 4.3,生成天然度 FID 到达 11.1。中国移动官方表明,该研制效果使用远景宽广,大大下降了创造门槛,提升了生成人物的视觉质量,