Qzone

微博

微信

美摄科技张瑞全：拓展AIGC+数字人的想象空间

科技 TOM 2023-04-03 13:23

随着人工智能的快速发展，视音频技术也迎来了蓬勃的发展期。3月31日至4月1日，国内音视频领域盛会LiveVideoStackCon在北京成功举办，众多业内企业、技术专家和学者齐聚一堂，共同探讨多媒体音视频技术在技术升级、业务场景和应用创新等方面的实践和探索。

作为视音频技术领域的代表企业之一，北京美摄网络科技有限公司连续六年参会，展示了在AIGC、数字人等领域的领先成果，展现了美摄科技的技术实力和创新能力。

美摄科技研发中心高级AI算法专家张瑞全出席活动，并围绕数字化内容生产快速落地分享了自己的见解。

美摄AIGC数字人基于虚拟视频合成技术，通过综合利用计算机视觉、图像处理和深度学习等技术，可以在无实物的条件下生成虚拟视频。目前主要有三种视频生成技术：语音驱动、动作驱动以及换脸。

目前主要存在两个技术难点：一是表情和口型预测，合成视频容易出现音色改变、口型抖动、口型失真等干扰；二是视频帧渲染，如何实现真实面部渲染、防止表情失真，如何获取训练数据，都是要解决的问题。

张瑞全向与会者介绍了美摄研发中心实现表情和口型预测、3D人脸渲染及合成的技术原理，并详细比较了不同方法的优缺点。据他介绍，美摄科技研发团队已经拿出了相对成熟的技术方案，实现了逼真的虚拟视频合成效果。

以此为依托，张瑞全团队开发出多种借助AI技术快速生成数字人形象的产品应用，包括照片自动生成形象、视频自动生成形象以及GLB模型自动转换形象三种方式。操作者只需上传一张照片或一段视频，录入预设的文本内容，系统就可以自动生成对应的数字人形象，并配以逼真的语音播报口型，大大缩短制作周期。

他特别提到，以GLB生成数字人形象时，可以将其转换为美摄自研的3D文件格式“.ARSCENE”，转换后的效果包可以通过MeisheSDK在不同的平台上实时渲染驱动。GLB文件是以图形语言传输格式保存的3D模型，它以二进制格式存储有关3D模型的信息，包括节点层级、摄像机、材质、动画和网格。

而谈到近来大热的ChatGPT，张瑞全表示团队目前主要关注两个应用方向。一是智能数字人语音助手，将ChatGPT的混合语义理解能力和美摄已有的语音交互系统相结合，当用户提问一些开放性问题时，数字人助手可以给出更好的回答。

二是将ChatGPT、视频剪辑和数字人相结合，用户只需填写一句话，设定好要求，系统就可以通过ChatGPT返回分镜脚本，并从中提取所需标签，由系统从媒资库中智能寻找对应的图像和视频资料。用户可以选择推荐素材，一键套用模板，直接形成预览视频，极大提高视频创作效率。

据张瑞全分享，美摄科技的AIGC数字人方案已经成功落地于多个一线品牌，在智能汽车、智能手表、智能手机、社交软件等领域的产品中都取得了出色的应用效果，为这些产品注入了更多创新和智能化元素。

责任编辑： WY-BD

———— 分享到 ————

相关推荐

创美跳动：新媒体时代的品牌传播领航者

04-03 16:20

润辉透美诺技术全球发布会盛大召开，硬核科技驱动化妆品原料高端发展新时代！

TOM

04-02 15:30

少见的超大杯直屏机，OPPO Find X8 Ultra外观揭露，5摄镜头！

热点科技网

03-31 18:34

安德ADSS 448K AI Master 正式发布：以智能科技重新定义美业未来

04-10 13:36

主线科技新疆首张无人驾驶卡车路测牌照获批

TOM

04-04 17:26

热点精选

年度玩具人盛典“PMQ玩嘢祭”复活节回归

TOM2025-04-11 17:3404-11 17:34

从智能手表到万物互联，开源鸿蒙构建跨行业数字底座新范式

TOM2025-04-11 17:2104-11 17:21

Colorkey珂拉琪「甜品乐园」空降大学城+人气商圈，春日甜度+1000%

TOM2025-04-11 17:2004-11 17:20

横跨四国7000+公里！万里繁星·欧曼银河全球价值品鉴之旅荣耀收官

TOM2025-04-11 17:2004-11 17:20

数字惠民，基于开源鸿蒙的社保终端机赋能智慧政务
TOM2025-04-11 17:2004-11 17:20

百名消费者探厂自由点，见证透明品质与安心守护

TOM2025-04-11 17:2004-11 17:20

南京医疗精英领航，医心筑梦公益传承

TOM2025-04-11 17:1404-11 17:14

当AI科技遇上生活艺术:三星AI神冰箱5系及9系重构厨房生活新方式

TOM2025-04-11 17:1404-11 17:14

人家也是有底线的啦~