首页资讯流行娱乐体育明星时尚游戏旅游生活母婴营销邮箱商业视频财经健康段子消费汽车购物科技

首页 > 科技 > 正文

Qzone

微博

微信

AI视频抠图有多强？无需「绿幕」，也可达影视级效果！

科技雷锋网 2020-12-03 14:17

今天一大早就被网友们安利了一个热门AI项目。

听说，它可以带你周游世界，还能让AngelaBaby多拍几部电视剧。

这是啥情况？？

仔细一了解，原来是一款AI视频抠图神器，一大早就冲上了GitHub热榜。

官方介绍说，这个AI神器可以让视频处理变得非常简单且专业，不用「绿幕」，也能达到逼真、毫无违和感的合成效果。

果然，打工人的“周游世界”只有AI能实现了[泪目]。

其实，视频抠图AI已经出现过不少，但这一款确实让人觉得很惊艳。先来看下它演示Demo。

你能看出公路背景和大海背景的视频，哪一个是AI合成的吗？

连撩起的头发都看不出一点破绽。

而且就算疯狂跳舞也没有影响合成效果。

再来看下它背后的抠图细节，不仅精确到了头发，甚至还包括浮起的碎发......

动态效果也是如此，疯狂甩头也能实时捕捉细节。

这项超强AI抠图神器来自香港城市大学和商汤科技联合研究团队，论文一作还是一位在读博士生张汉科。

接下来，我们来看下它背后的技术原理。

关键在于，这个AI采用了一种轻量级的目标分解网络MODNet（ Matting Objective Decomposition Network），它可以从不同背景的单个输入图像中平滑地处理动态人像。

简单的说，其功能就是视频人像抠图。

我们知道，一些影视作品尤其是古装剧，必须要对人物的背景进行后期处理。为了达到逼真的合成效果，拍摄时一般都会采用「绿幕」做背景。因为绿色屏幕可以使高质量的Alpha 蒙版实时提取图像或视频中的人物。

另外，如果没有绿屏的话，通常采用的技术手段是光照处理法，即使预定义的Trimap作为自然光照算法输入。这种方法会粗略地生成三位图：确定的（不透明）前景，确定的（透明）背景以及介于两者之间的未知（不透明）区域。

如果使用人工注释三位图不仅昂贵，而且深度相机可能会导致精度下降。因此，针对以上不足，研究人员提出了目标分解网络MODNet。

如图所示，MODNet由三个相互依赖的分支S、D和F构成。它们分别通过一个低分辨率分支来预测人类语义（SP）、一个高分辨率分支来聚焦纵向的边界细节（DP），最后一个融合分支来预测Alpha Matte （αp）。

具体如下：

另外，基于以上底层框架，该研究还提出了一种自监督策略SOC（Sub-Objectives Consistency）和帧延迟处理方法OFD（One-Frame Delay )。

其中，SOC策略可以保证MODNet架构在处理未标注数据时，让输出的子目标之间具有一致性；OFD方法在执行人像抠像视频任务时，可以在平滑视频序列中预测Alpha遮罩。如下图：

在开展实验评估之前，研究人员创建了一个摄影人像基准数据集PPM-100（Photographic Portrait Matting）。

它包含了100幅不同背景的已精细注释的肖像图像。为了保证样本的多样性，PPM-100还被定义了几个分类规则来平衡样本类型，比如是否包括整个人体；图像背景是否模糊；是否持有其他物体。如图：

PPM-100中的样图具有丰富的背景和人物姿势。因此可以被看做一个较为全面的基准。

那么我们来看下实验结果：

图中显示，MODNet在MSE（均方误差）和MAD（平均值）上都优于其他无Trimap的方法。虽然它的性能不如采用Trimap的DIM，但如果将MODNet修改为基于Trimap的方法—即以Trimap作为输入，它的性能会优于基于Trimap的DIM，这也再次表明显示MODNet的结构体系具有优越性。

此外，研究人员还进一步证明了MODNet在模型大小和执行效率方面的优势。

其中，模型大小通过参数总数来衡量，执行效率通过NVIDIA GTX1080 Ti GPU上超过PPM-100的平均参考时间来反映（输入图像被裁剪为512×512）。结果如图：

上图显示，MODNet的推理时间为15.8ms（63fps），是FDMPA（31fps）的两倍。虽然MODNet的参数量比FDMPA稍多，但性能明显更好。

需要注意的是，较少的参数并不意味着更快的推理速度，因为模型可能有较大的特征映射或耗时机制，比如，注意力机制（Attention Mechanisms）。

总之，MODNet提出了一个简单、快速且有效实时人像抠图处理方法。该方法仅以RGB图像为输入，实现了场景变化下Alpha 蒙版预测。此外，由于所提出的SOC和OFD，MODNet在实际应用中受到的域转移问题影响也较小。

不过遗憾的是，该方法不能处理复杂的服装和模糊的运动视频，因为这些内容不涵盖在训练数据集内。下一阶段，研究人员会尝试通过附加子目标（例如光流估计）的方法来解决运动模糊下的视频抠图问题。

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

【以上内容转自“雷锋网”，不代表本网站观点。未经授权不得转载】

责任编辑： 4114RWL

责任编辑： 4114RWL

———— 分享到 ————

相关推荐

收音神器，助力好视频，唱吧新品无线领夹麦正式亮相发售

收音神器，助力好视频，唱吧新品无线领夹麦正式亮相发售

收音神器，助力好视频，唱吧新品无线领夹麦正式亮相发售

收音神器，助力好视频，唱吧新品无线领夹麦正式亮相发售

TOM

05-23 18:19

《缝纫机乐队》网大版《筑梦乐队》5月20日搜狐视频首播

《缝纫机乐队》网大版《筑梦乐队》5月20日搜狐视频首播

《缝纫机乐队》网大版《筑梦乐队》5月20日搜狐视频首播

《缝纫机乐队》网大版《筑梦乐队》5月20日搜狐视频首播

新娱在线

05-22 10:21

522国际生物多样性日，微信视频号携手众多创作者共倡生物保护

05-22 18:47

522国际生物多样性日，微信视频号携手众多创作者共倡生物保护

佳能EOS R10微单发布！超级轻巧还可拍摄4K 60p视频

05-25 15:02

佳能EOS R10微单发布！超级轻巧还可拍摄4K 60p视频

颜值天花板全新换代！荣耀70 ID视频正式官宣，龚俊继续担当代言人

05-18 17:11

颜值天花板全新换代！荣耀70 ID视频正式官宣，龚俊继续担当代言人

热点精选

追溯对企业和产业是一次自我升级

TOM2022-05-26 11:1005-26 11:10

再次颠覆传统衣物洗护行业，COLMO TURING干洗护理空间站以科技赋能生活

TOM2022-05-26 11:1005-26 11:10

鹏瞰科技完成数亿元战略融资，韦豪创芯、芯原股份和临芯投资联合领投
猎云网2022-05-26 11:0005-26 11:00

贵阳市企事业单位八人制贵州筑诚乘锋工具1-2奥体黔之星
贵州体育在线2022-05-26 10:5605-26 10:56

肺热咳嗽吃什么食物更有利于身体的恢复呢？

轻壹健康2022-05-26 10:4305-26 10:43

肺热是什么原因引起的呢？一般有这三种因素！

轻壹健康2022-05-26 10:3905-26 10:39

世界首款盲人导航应用亮相：无需GPS，精度在1米以内
前瞻网2022-05-26 10:2005-26 10:20

首发中储国能获华控基金领投3.2亿元Pre-A+轮融资，加快新型储能技术产业布局
猎云网2022-05-26 10:0405-26 10:04

中文定名格瑞维亚/增运动外观套件一汽丰田Granvia正式发布
行车视线网2022-05-26 10:0005-26 10:00

苹果汽车项目经理跳槽激光雷达公司Luminar
盖世汽车网2022-05-26 09:3005-26 09:30

人家也是有底线的啦~

相关推荐

收音神器，助力好视频，唱吧新品无线领夹麦正式亮相发售

《缝纫机乐队》网大版《筑梦乐队》5月20日搜狐视频首播

522国际生物多样性日，微信视频号携手众多创作者共倡生物保护

佳能EOS R10微单发布！超级轻巧还可拍摄4K 60p视频

颜值天花板全新换代！荣耀70 ID视频正式官宣，龚俊继续担当代言人

广告

电信与信息服务业务经营许可证京ICP证 010287号

广播电视节目制作许可证(京) 字第00713号

信息网络传播视听节目许可证号 0105093号

增值电信业务经营许可证B2-20090011号

北京地区网站联合辟谣平台

违法和不良信息举报电话：010-85181169

TOM集团邮乐购物合作伙伴广告服务加入TOM

Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明

违法信息/未成年人举报：010-85181169 举报邮箱/未成年人举报：jubao@tomonline-inc.com