2019年的百度AI开发者大会上,百度AR宣布视频特效能力矩阵再升级,全新的一体化人机交互系统涵盖了更全面的美化、人脸、肢体、语义分割等能力,可以实现精细五官乃至皮肤级的实时跟踪,实现3D贴纸与道具、3D动画表情、以及五官交互触发等更加多样化的互动能力。


移动互联网的发展和4G网络的普及,带来了短视频行业的兴起和爆发。短短几年间,中国的短视频用户规模已趋近5亿,日均使用时长达87分钟(数据来源:艾瑞咨询)。随着行业竞争的加剧,简单的视频拍摄已经满足不了用户需求 —— 要让用户有分享的动力,不仅要拍得好看,更要拍得有趣、拍得好玩。


2018年,百度AR推出视频特效解决方案,依靠人脸、肢体检测能力与渲染引擎打造丰富AR特效,让用户在视频拍摄的过程中就能自主叠加各种有趣动效或加入AR小游戏,为短视频内容带来了更多玩法。


今年的AI开发者大会,百度AR宣布视频特效能力矩阵再升级,全新的一体化人机交互系统涵盖了更全面的美化、人脸、肢体、语义分割等能力,可以实现精细五官乃至皮肤级的实时跟踪,实现3D贴纸与道具、3D动画表情、以及五官交互触发等更加多样化的互动能力。



在DuMix AR公开课上,百度AR资深研发工程师余鑫,为开发者们详细介绍了这些能力的特点以及应用场景。

 


 01  基础美化方案 


美化能力最重要的就是美颜、美型(比如:美白、磨皮、瘦脸、大眼、滤镜使用等),整个美化过程追求的是自然美。



美颜:

主要体现在美白、磨皮(既平滑也要有立体感);


美型:

实时对脸型、五官进行微调,达到个性化的精细美颜的效果;


美妆:

对脸部添加口红、眼影、腮红、睫毛等美妆特效,达到真实、自然的妆容效果。基础美化方案的流程简单来说,就是对原图分别进行滤波处理和肤色检测,将滤波的结果模糊图像和皮肤蒙版进行融合处理,生成的图像再进行滤镜处理。主流的滤波方案有双边滤波、高斯滤波、导向滤波,其中导向滤波方案因保边、快速的特性受到青睐。




常用的肤色检测主要是基于颜色空间的颜色统计方法,我们采用了YUV颜色空间,对光照具有更强的鲁棒性。从图上可以看出,肤色分割后的蒙版,基本把皮肤区域有效地分离出来。


 

 02  人脸特效 


人脸特效是基于人脸检测算法得到人脸区域关键点,计算头部姿态,然后重建人脸三维模型,将贴纸或3D道具等素材绑定到三维人脸上,进行渲染,达到人脸贴纸效果。




同时支持实时捕捉人脸肌肉变化。我们通过匹配、训练得到32表情基,计算人脸不同的表情,达到表情识别的能力。目前已支持挑眉、张嘴、摇头、微笑等9种表情动作


今年端午节期间,AR为全民小视频定制的一款基于人脸特效的小游戏“吃粽子”,上线后异常火爆,用户使用量接近普通贴纸的10,这背后就用到了张嘴的动作识别。

 


 03  肢体特效 


肢体特效方面,可以实时检测18个人体关节点、59个人体轮廓点。支持跺脚等动作识别,支持点赞、比V、单手比心等7种手势识别;还可以基于肢体关节点检测,通过拉伸人体达到瘦身目的,或对身体任意部位的拉伸,制造哈哈镜等特效玩法。请点击下方视频链接查看肢体特效展示:http://www.iqiyi.com/w_19sa4z1u5d.html

 


 04  语义分割 


语义分割主要是将像素点按照图像中不同语义的表达进行分组,主要应用在三大方向:人像分割、头发分割、天空分割。




比如将人物轮廓从背景中分离出来,将背景替换成天空盒素材实现人像分割;或者将背景进行模糊虚化,来突出人像主体;头发分割则支持纯色、渐变和动态特效。


百度AR在人像分割准确度方面遥遥领先,算法IoU达93%以上(IoU是指物体真实区域和经过分割后的结果区域的重合度,数值等于两者相交的面积除以它们相并的面积,IoU值越接近1代表重合度越高)。


 

从2012年开始各类神经网络不断涌现,层级日益加深、速度逐步加快。得益于基于神经网络的深度学习在图像分类方面的应用,目标检测、图像分割等任务表现出的巨大优越性。


在移动端,百度推出了开源深度学习平台飞桨(PaddleMobile),让神经网络可以更高效地在移动端部署,图像识别速度更快、更准确、兼容性更强,人脸检测也从传统的检测跃入深度学习领域,准确率和速度都大幅提升。在今年4月初结束的ICME人脸关键点检测比赛上,百度视觉技术团队击败其余20多支参赛队伍,获得冠军。

 


 05  渲染引擎 



为了实现各类精细化渲染,并满足移动端对安装包大小的苛刻要求,百度AR自研了一套轻量级的渲染引擎,支持物理引擎、材质渲染、粒子系统、光照系统等8个子系统。除了跨平台兼容,我们也为开发者提供了友好的脚本开发接口。

 


 06  短视频端上处理流程 


短视频端上流程大致分为采集端流程和播放端流程。采集端主要包含视频采集、特效处理、视频编码及推流;播放端主要指拉流、视频解码、视频播放。这里重点讨论采集端的视频处理部分的特点和难点视频帧从相机流输出传给SDK,经过缩放裁剪等图像处理然后交给AI算法进行检测识别,再将算法结果传给引擎,进行三维贴纸渲染与融合处理,最终回传给APP进行识图显示。整个流程突出表现为两大特点:CPU运算密集、GPU渲染压力。




在实际工程化中通常会遇到以下问题:资源抢占、设备兼容、发热降频、延迟卡顿、包体积及其他疑难问题。针对这些问题,首要检测CPU/GPU运行是否是处于正常态,通过分析找出是否有非高优任务抢占资源而导致核心任务没有足够的计算资源,对应可以精确定制任务优先级,保证核心流程的任务有足够的算力资源。


 


此外,对于某些函数占用CPU时间太长需要优化,除了常规流程外,我们针对一些模块还做了NEON指令集优化,大幅提升了处理速度。为了提高兼容性,我们搭建了整套性能监控体系,收集上万种型号的手机设备硬件信息及SDK运行过程中的性能数据,做到根据不同机型性能状态下发。经过优化,我们在低端机上的帧率从原来的10帧每秒大幅上升到25帧每秒,CPU占有率降低30%,内存占用降低20%。


同时,我们还采用编写自动化脚本按需操作让问题可复现、全流程逐帧输出图像校准等多种手段对疑难现象进行追查。目前,一体化人机交互系统的各项能力已接入百度智能云平台,支持为企业提供更全面、更易用的智能化能力和更完善的视频解决方案;未来,将在AI智能拍摄、娱乐互动等领域得到更广泛的应用。


了解更多详细内容,请点击下方查看完整视频:
http://www.iqiyi.com/w_19sa4z2etp.html