计算机视觉及模式识别领域顶级国际学术会议CVPR在美国加州长滩举行,百度大脑在CVPR的10项竞赛中夺冠,涵盖视觉领域下的视频理解与分析、目标检测、图像超分辨、智能城市车辆识别、人脸&人体检测等众多子领域。

计算机视觉界的“奥斯卡”,一年一度的 CVPR 刚刚落下帷幕,百度大脑以 CVPR 中10项竞赛的夺冠向世界彰显了其不容小觑的技术实力,令人振奋。

6月16-20日,计算机视觉及模式识别领域顶级国际学术会议CVPR在美国加州长滩举行,超过9200位相关人士共赴盛会。本届会议收到了5160篇提交论文,其中1294论文最终被接收发表,其中百度共有17篇论文被收录。

百度相关视觉团队赴美参会,共举办两项Workshop、一项Tutorial讲座,并接连获得10项CVPR竞赛任务的冠军,全面涵盖视觉领域下的视频理解与分析、目标检测、图像超分辨、智能城市车辆识别、人体&人脸检测等众多热门子领域。

其中,百度研究院团队获4项冠军、百度视觉团队获6项冠军,此前被CVPR大会收录的论文也大多出自这两个团队。


视频理解&分析领域

ActivityNet是目前视频理解领域影响力最大的赛事,与每年的顶级学术会议CVPR一起召开。在本次竞赛中,百度更是获得视频动作提名、视频动作检测两项任务的冠军,并在新增任务EPIC-Kitchens动作识别挑战赛中获两项测试集冠军(Seen kitchens和Unseen kitchens)。这已是百度视觉团队连续三年在 ActivityNet 相关赛事中斩获冠军。

视频理解是计算机视觉和模式识别领域的基础问题之一,其中视频动作提名和视频动作检测在安防、视频摘要等场景下具有重要的应用价值。在视频动作提名、视频动作检测两项任务中,百度分别针对动作分类、动作边界不准确等问题提出C-TCN、BMN等模型,在THUMOS和ActivityNet两个公开数据集的指标均达到世界领先,相关的代码将于6月底采用飞桨(PaddlePaddle)开源。

今年的新增任务EPIC-Kitchens动作识别挑战赛聚焦第一人称视频理解,对可穿戴设备、智能家居、人机交互等方面的应用起着关键作用,也是目前学术界、工业界关注的焦点。

竞赛吸引了Facebook AI、牛津大学、INRIA(法国国家信息与自动化研究所)等66支队伍参与,百度在该任务中的Seen kitchens和Unseen kitchens 两项测试集上以很大优势获得第一,并受邀在CVPR 2019 EPIC和ActivityNet Workshop上作出报告。


针对第一人称视频小物体多,模糊遮挡严重等难点,百度使用2D检测框架和3D卷积网络结合的方法进行视频特征提取。不仅如此,百度还提出了门控特征融合模块,通过增强视频片段特征与上下文物体特征之间的非线性交互,使得输出表征具有更好的分辨能力。删除使训练过程更加平稳。

人体检测领域

在人体检测领域,百度更是“开挂”一般,拿下“三连冠”。在“Look Into Person”国际竞赛(以下简称LIP)三项人体精细化解析竞赛单元(Track1:Single-Person Human Parsing,Track3:Mult-Person Human Parsing,Track4:Video Multi-Person Parsing)中,百度均获第一名。LIP国际竞赛专注于人体的精细语义理解任务,包括单人的人体解析任务、单人的人体姿态估计任务、多人的人体解析任务、视频多人人体解析任务。此次比赛的主题为复杂场景中人体的视觉理解,是计算机视觉领域的基本问题之一,对视频监控、人机交互、自动驾驶、虚拟现实等场景具有重要意义。

获奖证

比赛中,单人人体解析竞赛单元的任务是输出单人图片语义分割信息(如上肢和下肢等)。针对人体关键目标区域较小、难以检测的问题,百度对以往基于多尺度全卷积神经网络的模型(例如 Pyramid Scene Parsing Network ,DeepLab v3+ 等)进行改进,使每个卷积核能对图片的细节进行感知,同时输出精度更高的 feature map。

此外,百度还进行了图片增强、数据扩张,在训练中动态调整输入图片尺度,使用 mIoU loss 损失函数等,使得模型能够更精确地捕捉肢体的细节、以及被遮盖的部分。

最终根据各个不同模型的效果进行融合,百度取得65.18%的 mIoU ,获得了单人人体解析的冠军,超过上届冠军7.2个百分点。

单人人体解析结果展示

多人人体解析和视频人体解析方面,解决的是对图片中以及视频中的多人语义信息分割问题。该竞赛数据集与单人人体解析任务相比,更关注多人遮挡等难题,进一步增加比赛难度。

在比赛中,百度针对多人遮挡严重、姿态和视角多样性等特点,优化改进了结合多人检测和单人人体解析的top-down框架,通过最终改进的模型在多人人体解析和视频多人人体解析竞赛单元中均取得第一的成绩,成绩大幅领先第二名。


人脸活体检测领域

人脸活体检测是视觉人脸识别领域的一个经典问题。近年来随着人脸技术的不断落地,活体检测在人脸解锁、人脸支付、远程身份核验等应用上发挥着越来越重要的作用。在CVPR人脸活体检测比赛上,百度作为invited participant在300多个队伍中获得第一的好成绩(Acer即平均错误率最低)。CVPR-19-Face Anti-spoofing Attack Detection Challenge是CVPR会议历史上首次举办人脸活体检测比赛,发布了目前世界上最大的跨模态人脸活体检测数据集CASIA-SURF,包含1000人次的21000段三模态(RGB、IR、Depth)人脸视频。比赛任务兼顾学术和实用价值,十分富有挑战。

作为该项比赛的冠军,百度在活体检测方向已积累百万级的攻击图像数据,持续研发迭代了多模态(Depth、IR、RGB)、双端(云端、嵌入式)的活体检测模型。这些模型对内支持多项核心业务,对外服务众多标杆客户,满足不同的场景应用需求。


目标检测领域

目标检测是计算机视觉和模式识别领域的基础问题之一,百度在该领域获得"Objects365 物体检测"国际竞赛Full Track冠军,而Full Track主要用于探索目标检测系统的性能上限。Objects365作为一个全新的数据集,旨在促进对自然场景不同对象的检测研究。

Objects365在638K张图像上标注了365个对象类,训练集中共有超过1000万个边界框。因此,这些标注涵盖了发生在各种场景类别中的常见对象。参赛者可以使用发布的60万张图片组成的训练集训练一个目标检测模型,对图片中的存在于Objects365定义的365个类中的目标输出包围框,类别和分数。

在3万张图片组成的验证集上做算法性能验证,最终在由10万张图片组成的测试集中完成挑战。据悉,百度采用了基于飞桨研发的检测训练框架,训练框架及模型即将开源。

同时,百度在NTIRE竞赛中的图像超分辨项目也强势夺冠。这是百度首次参加NTIRE(计算机视觉low-level vision领域中影响力最大的竞赛),便在400余支参赛队伍脱颖而出。

本次比赛采用了全新拍摄的真实数据集(RealSR),百度视觉团队在PSNR和SSIM两项指标上均名列第一,同时提出极具创新性的CDSR超分模型,通过级联的方法逐步将图像从模糊变清晰。相关技术采用飞桨部署于百度App,已经应用于Feed图片查看的功能。


智能城市车辆识别领域

本届 AI-city 公开赛包含城市范围多摄像头车辆跟踪、城市范围多摄像头车辆重识别和交通异常检测三个子任务。百度在城市范围多摄像头车辆重识别任务中获得冠军,得益于飞桨( PaddlePaddle )框架助力,并凭借在车辆垂类领域检测、跟踪、属性分析、关键点定位等技术能力的长期积累,实现 mAP Score 指标达到0.855,超越第二名6.4个点。

城市范围多摄像头车辆重识别是智能车辆分析能力的核心基础技术之一。智能车辆分析能力为百度在智能城市领域积极探索提供强有力的支持,尤其是在城市安防、智能交通等重要的 AI2B 场景下都离不开对车辆结构化分析的需求。

目前,百度已经开放车辆检测、车辆属性/车型识别、车流统计和智能定损等多项相关服务。未来,百度将继续推进车辆垂类技术能力的建设及智能车辆分析技术迭代,为不同领域赋能。

百度在今年的 CVPR 上满载而归,显示出百度大脑在视觉领域各个方向的长期积累、全面发力,更是百度大脑技术实力全球领先的强大佐证。

不仅如此,作为百度 AI 技术的集大成者,百度大脑还在对外不断开放这些顶尖 AI 技术,目前已对外开放视觉、语音、自然语言处理等170多项领先的 AI 能力,为广大开发者提供 AI 技术研发支持,赋能各行业。