半导体行业

“7163银河”ECCV2018|10篇论文+5项世界第一，记旷视科技ECCV之旅

更新时间 2024-09-01 01:04 阅读

本文摘要：旷视科技Face++研究院+75AI影响因子论文名称：ECCV时间：2018企业：旷视科技比赛比赛名称：COCO+Mapillary 牵头挑战赛年份：2018企业：旷视科技操作者：竞赛名次：1 比赛比赛名称： WIDER FACE年份：2018企业：旷视科技操作者：竞赛名次：1更好涉及当地时间 9 月 14 日，欧洲计算机视觉顶级学术会议 ECCV 2018 在德国慕尼黑完满告一段落。

旷视科技Face++研究院+75AI影响因子论文名称：ECCV时间：2018企业：旷视科技比赛比赛名称：COCO+Mapillary 牵头挑战赛年份：2018企业：旷视科技操作者：竞赛名次：1 比赛比赛名称： WIDER FACE年份：2018企业：旷视科技操作者：竞赛名次：1更好涉及当地时间 9 月 14 日，欧洲计算机视觉顶级学术会议 ECCV 2018 在德国慕尼黑完满告一段落。据报，ECCV 2018 规模空前，有将近 3200 人参与，接管论文 776 篇；另有 43 场 Workshops 和 11 场 Tutorials。

旷视科技研究院在院长孙剑博士的率领下近回国盛会，用心用力，推展全球范围计算机视觉的技术交流与产品落地。长期以来，计算机视觉三大学术顶会 CVPR、ECCV 和 ICCV 一起充分发挥着举足轻重的平台担任起到，协助产学研各方代表展出技术实力，促进学术交流。旷视科技作为全球人工智能独角兽代表，是计算机视觉三大 “C 位”会议的大力参与者，ICCV 2017 旷视科技超越谷歌、微软公司独占，沦为第一个问鼎 COCO 冠军的中国公司；CVPR 2018 旷视科技全面进军，论文、Demo、挑战赛、酒会，一个不少，引发一股产学研交流热潮。

这次的 ECCV 2018，旷视科技某种程度维持着较高的参与度并进账丰厚：1. ECCV 2018 共收录 10 篇旷视科技研究院涵括多个 CV 子领域的论文；2. 夺得 2018 COCO+Mapillary 挑战赛四项世界第一，沦为 ECCV 夺标最少的企业；3. 基于很深的人脸识别技术文化底蕴，旷视勇夺 2018 WIDER Face Challenge 世界冠军。下文将一一呈现出旷视科技 ECCV 之行的点滴瞬间。10 篇接管论文全面展现出技术硬实力据 ECCV 2018 官网信息，旷视科技共计 10 篇接管论文。

从内容上看，论文涵括 CV 技术的多个层面，小到一个新的回应的明确提出，大到一个新的模型的设计，乃至神经网络设计原则和新任务、新方法的制订，甚至很弱监督自学的新探索，不一而足。明确而言，旷视科技在以下技术领域构建新的突破：网络架构设计（1 篇）、标准化物体检测（2 篇）、语义拆分（3 篇）、场景解读（1 篇）、文本辨识与检测（2 篇）、人脸识别（1 篇）。神经网络架构设计领域，ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design 不仅授之以鱼，还授之以渔，针对移动末端深度自学明确提出第二代卷积神经网络 ShuffleNet V2，构建速度与精度的拟合权衡，同时得出了神经网络架构的四个简单设计准则。

这毫无疑问将加快前进由深度自学驱动的计算机视觉技术在移动端的全面落地。此外，论文还明确提出网络架构设计应当考虑到必要指标，比如速度，而不是间接指标，比如 FLOPs。

标准化物体检测方面，旷视科技通过设计 1）新型骨干网络 DetNet 和 2）目标定位新的架构 IoU-Net 推展该领域的发展。DetNet: A Backbone network for Object Detection的设计启发源于图像分类与物体检测任务之间不存在的高差。详尽谈，DetNet 针对有所不同大小和尺度的物体而像 FPN 一样用于了更加多的 stage；即便如此，在保有更大的特征图分辨率方面，它仍然高于 ImageNet 实训练模型。

但是，这不会减少神经网络的计算出来和内存成本。为确保效率，旷视研究员又引进较低复杂度的 Dilated Bottleneck，兼得较高的分辨率和较小的感觉野。

DetNet 不仅针对分类任务做到了优化，对定位也很友好关系，并在 COCO 上的物体检测和实例拆分任务中展现出了出众的结果。Acquisition of Localization Confidence for Accurate Object Detection （IoU-Net）构建了作为计算机视觉基石的目标检测技术的底层性原创突破。明确而言，通过自学预测与对应现实目标的 IoU，IoU-Net 可检测到的边界板的“定位置信度”，构建一种 IoU-guided NMS 流程，从而避免定位更加精确的边界框被诱导。

IoU-Net 很直观，可精彩构建到多种不同的检测模型中，大幅度提高定位准确度。MS COCO 实验结果表明了该方法的有效性和实际应用于潜力。研究员同时期望这些新视角可以启迪未来的目标检测工作。

旷视科技语义拆分领域的论文占到比最低：1）构建动态语义拆分的双向网络 BiSeNet；2）优化解决问题语义拆分特征融合问题的新方法 ExFuse；以及 3）通过实例级显著性检测和图区分构建很弱监督语义拆分的新方法。BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation 的明确提出基于三种主流的动态语义拆分模型加快方法，并在特征融合模块和注意力优化模块的协助下，把动态语义拆分的性能前进到一个新高度。ExFuse: Enhancing Feature Fusion for Semantic Segmentation 针对语义拆分主流方法必要融合强弱特征不奏效的问题而明确提出，创新性地在低级特征引进语义信息，在高级特征映射空间信息，优化解决问题特征融合的问题。

Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation 通过统合显著性检测和图划分算法，明确提出一种新型很弱监督自学方法，加快语义拆分发展，其仅次于亮点是既利用每个显著性实例的内在属性，又挖出整个数据集范围内有所不同显著性实例的相互关系。旷视科技利用统一感官解析网络 UPerNet 来优化场景解读问题。

Unified Perceptual Parsing for Scene Understanding 明确提出取名为统一感官解析 UPP 的新任务，拒绝机器视觉系统从一张图像中辨识出有尽量多的视觉概念；又明确提出多任务框架 UPerNet ，研发训练策略以自学夹杂标示。UPP 基准测试结果表明，UPerNet 可有效地拆分大量的图像概念。在文本辨识与检测方面，旷视科技贡献了 1）新型末端到末端可训练网络 Mask TextSpotter 和 2）检测给定形状文本的灵活性密切相关 TextSnake 两个技术点。

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes受到 Mask R-CNN 灵感，通过拆分文本区域检测文本，可胜任给定形状的文本；另外，比起其他方法，Mask TextSpotter 还可利用语义拆分构建准确的文本检测和辨识。TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 可以数值给定形状的文本，就像蛇一样转变形状适应环境外部环境；基于这一回应，经常出现了一种有效地的场景文本检测方法，在包括若干个有所不同形式（水平、多方向、曲形）的文本数据集上做当前拟合。

GridFace 是旷视科技人脸识别领域的一项新的突破。GridFace: Face Rectification via Learning Local Homography Transformations 可通过自学局部单应转换增加人脸变形，再行校正，再行辨识，身体素质的校正技术大幅度提高了人脸识别的性能。

涉及实验结果已证明该方法的有效性和高效性。2018 COCO+Mapillary 摘得四冠成仅次于赢家ECCV 2018 最不受注目的 COCO+Mapillary 牵头挑战赛，中国战队夺获全部冠军。旷视科技出征 3 项 COCO 比赛和 1 项 Mapillary 比赛，摘得 3 项 COCO 第一和 1 项 Mapillary 第一，四战皆胜，揽下了挑战赛的“大半江山”，在实例拆分、全景拆分和人体关键点检测上展开了递归式新探索。

实例拆分实例拆分是当前器视觉物体辨识最前沿的技术之一，也是计算机视觉最核心的任务之一。旷视科技夺标的关键是在模型的核心组件 Head 上做到功夫，明确提出一种取名为 Location Sensitive Header（LSH）的新方法。

传统 Mask R-CNN 方法利用 RoI Align 提升实例拆分定位精度，但对 RoI Align之后的组件 Head 无暇顾及。旷视研究员发掘出一个对实例拆分友好关系，对定位精度脆弱的 Head。总结来说，LSH 新的设计了任务之间的人组，把分类和拆分 combine 一起，这样做到不仅可以优化研发实例拆分定位能力，还可有效地防止定位和分类之间的冲突。

最后，旷视科技以 mmAP 0.486 的成绩夺下并列第一。全景拆分全景拆分是这次挑战赛的一项全新任务，代表着当前计算机视觉辨识技术最前沿，没之一。从任务层级看，全景拆分不会比实例拆分更进一步。

针对这次大赛，在末端到末端框架探寻折戟之后，旷视研究员指定一种 two-fold 方案：统合语义拆分和实例拆分算法的输入。这一作法必须解决两个问题：1）Stuff 的特殊性；2）Thing 的遮盖。

首先，旷视研究员针对 Stuff 设计试验了更加强劲的 Encoder Network，又针对 Stuff Context 设计专门的 ObjectContextNetwork，确保 Stuff 的性能；其次，由于退出末端到末端框架，在图像融合之时会经常出现遮盖问题，旷视研究员得出了专门的 Spatial Hierarchical Relation 方法，根据有所不同物体的重合面积定出图像解读的层级。旷视科技高歌猛进，最后在 COCO+Mapillary实例拆分两项任务中分别以 PQ 0.538 和 0.412 的成绩实力夺冠。人体关键点检测人体关键点检测必须在多角度、多目标、多尺寸等不有限条件下检测人体，同时精确定位人体关键点，自 2016 年第二届 COCO 挑战赛以来仍然保有，目前是第三次递归。COCO 2017，旷视科技曾勇夺第一，这次乘胜追击，背后承托的仍然是“旷式”突破性技术。

由于当前主流的人体姿态估算网络都遭遇了瓶颈问题：减小骨干网络 Backbone 对精度提高的起到无穷大于饱和状态，旷视研究员设计了新型 Cascade Backbone Network（CBN），可使用多层次横跨阶段相连和由细到粗的监督策略，构建大幅度的精度提高。CBN 使用小网络、多阶段、多层中间监督，横跨阶段相连构建检测结果弃阶段细致提高，最后在 COCO 2018 人体关键点挑战数据集中于取得 mmAP 0.764 的精度，成功卫冕。2018 WIDER Challenge 人脸识别挑战赛夺得第一ECCV 2018 WIDER Face and Pedestrian Challenge 是一项全球范围内的计算机视觉顶级赛事和新的基准竞赛，更有多达 400 多支队伍参与，旷视科技出征其中的人脸检测比赛 WIDER Face Challenge，最后以 mmAP 0.5582 的成绩技压群雄，夺得冠军。

这项比赛中，旷视科技基于 RetinaNet 明确提出一种新型级联检测器，既汲取了 Cascade R-CNN 大大提升阈值 refine 检测板的 insight，又确保了inference 时仍然是单阶段检测器，取长补短，兼得性能与速度。这一原创方法在单模型单尺度下 mmAP 多达第二名 1.4 个点，最后 mmAP 多达第二名 2.5 个点，以较小领先优势勇夺第一名。以上是旷视科技 ECCV 2018 之行的一些掠影。作为全球计算机视觉独角兽参与计算机视觉顶会，是对自身实力的一个检验和奋发，也是一次互相交流和自学的好机会。

旷视科技始自计算机视觉，耕耘计算机视觉，人工智能的愈演愈烈与深度自学的发轫也在计算机视觉，从机器之眼开始，正如五亿四千万年之前，寒武纪生物大爆发的一个主要诱因是眼睛的经常出现。能看的机器之眼，是计算机视觉技术与应用于的联合目标，只不过技术是第一步。

ECCV 2018，旷视科技交上了一份失望的答卷，踏进、做事、踏稳了 AI 技术第一步，那么下一步，以非凡科技在全球范围内铸造 AI+IoT，旷视科技正在飞奔而来。版权文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：7163银河

本文来源：7163银河-www.argylehuzhou.cn