东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基 ,SenseCore东升国际官网AI大装置为主题基座 ,布局多领域、多方向前沿钻研 ,
急剧买通AI在各个垂直场景中的利用 ,向行业赋能。

CVPR 2017 | 东升国际官网科技及香港中大-东升国际官网科技结合尝试室精选论文解读(二)

2017-07-25

在今年的CVPR学术会议上东升国际官网科技与香港中大-东升国际官网科技结合尝试室共同颁发的论文多达23篇 ,香港中大林达华教授亲自精选五篇论文与各人分享。这五篇论文的钻研成就在各个专业数据集、较量如ImageNet、Visual Genome、DAVIS Challenge、MPII中 ,获得第一名的成就。

国际推算机视觉与模式鉴别大会 (CVPR) 是人为智能尤其是推算机视觉领域的顶级学术会议。今年CVPR的文章登科率约莫29%。在CVPR上颁发的论文被公以为代表了该领域科技发展的最高水平。从今年7月21日起头这个一年一度的盛会就在俏丽的夏威夷火奴鲁鲁召开。本届CVPR大会东升国际官网科技与香港中大-东升国际官网科技结合尝试室共颁发了23篇论文 ,超过了以人为智能技术著称的科技巨头Google (21篇)和Facebook AI Research (7篇)。这23篇论文涵盖了推算机视觉的多个领域 ,不仅提出了好多新型的利用 ,也在主题技术的研发上获得了多项国际当先的成就。在本文中我们将以其中5篇论文为代表一窥东升国际官网这个AI独角兽背后的主题技术创新之路。


PolyNet:深度网络设计的里程碑 多项角逐夺冠


rhtrjhyj.jpg



深度进建在这几年获得了令多人瞩主张成就。这些成就背后的最重要的技术成分就是深度网络设计技术的不休突破。深度网络的进取首先反映在ImageNet1000类图像分类的正确率上它是业界公认的衡量深度网络机能的一个沉要指标。从AlexNet、GoogLeNet到ResNet网络越来越深正确率也在不休提升。在从前五年ImageNet分类正确率从84%提高到了97%5撬孀磐缟疃瘸中龀せ艿慕徊教嵘鹜酚龅搅似烤。好比ResNet从一百多层增长到一千层机能也没有显著的提高。

面对这样的难题此论文提出了一种新的破局思路加强网络的结构多样性(Structural diversity)。这个思路源自于我们在实际中的一个沉要观察多个分歧结构的超深网络的单一结合往往能带来机能的进一步显著提升。沿着这个思路我们设计了PolyNet。它由多个分歧状态的称为PolyInception的根基元组叠合在一路组成。由于每种元组都能够通过一个数学多项式表白出它的结构所以称为Polynomial Inception简称PolyInception。如上图所示每个PolyInception是内部合成了多个分歧深度的并行通路。这个设计把结构多样性的思想往前推动了沉要一步把它融入到每个单元的设计之中。

此论文的作者透过系统性的对照尝试对PolyNet的设计进行测试发现它相迸宗主流的设计蕴含ResNet以及由Google提出的InceptionResNet v2有更高的效能即在一样的推算量下能获得显著更高的机能。文中描述的Very Deep PolyNet在ImageNet大规模图像分类测试集上获得了single-crop谬误率4.25%和multi-crop谬误率3.45%的机能显著超过了Google提出的InceptionResNet v2和Facebook在统一功夫颁发的ResNeXt成为已颁发的机能最高的网络也是深度网络设计领域的新标杆。

在ImageNet2016的角逐中东升国际官网科技与香港中大-东升国际官网科技结合尝试室在多项角逐当选用了这种网络结构并获得了三个单项第一的优异成就。这一成就反映了一个高效的深度网络架构对于提升利用机能的沉要作用。PolyNet的模型结构已在Github公开

https://github.com/CUHK-MMLAB/polynet


论文标题:PolyNet:A Pursuit of Structural Diversity in Very Deep Networks

论文作者:Xingcheng Zhang, Zhizhong Li, ChenChange Loy, Dahua Lin


Relational Net:Visual Genome上把关系鉴别正确率从48%大幅度提高到82%


dghj.jpg



物体检测与鉴别一向是推算机视觉钻研的沉要方向。近年来随着Faster RCNN等基于深度进建的检测框架的发展物体检测的机能有了长足的进取但这对于图像理解依然是不及够的。出现了同类型物体的图片它们背后传递的寓意可能是截然分歧的。要理解这样的图片我们不仅必要判断图中出现的物体的类型并且必要理解物体之间的关系。


最近一段功夫关系鉴别逐步进入推算机视觉钻研的视野。在这个问题上的一个有代表性的工作是斯坦福大学李飞飞团队在2016年10月颁发在ECCV上的论文。该工作把说话先验用于关系鉴别相迸宗之前的步骤获得了不错的进展关系识此外正确率提高到了48%。然而这样的正确率显然离满足实用需要仍有较大的距离同时它也反映的问题的难度。这个问题的重要挑战在于关系与物体有着显著分歧的性质。某种类型的物体它的表观阐发往往比力一致而统一种关系的表观阐发往往千差万别。


此论文提出了一种新的建模步骤把统计进建和深度网络有机地结合起来。此步骤把一个基于前提随机场(Conditional Random Field)的迭代揣度步骤解开从而把它表白为一个前向推算网络。这个前向网络和CRF一样拥有统计揣度的能力但是它能够被嵌入到一个更大的深度进建系统中和其它?橐宦方卸硕远说慕;谡庵植街璐寺畚奶岢隽艘桓龀莆狣eep Relational Net的关下讽解框架把特点进建以及跨领域关系进建结合成一个统一网络。这个框架在关下讽解领域的重要数据集Visual Genome上把关系鉴别正确率从48%大幅度提高到82%从而为这个问题设立了新的机能标杆。这篇论文在CVPR 2017被接管为Oral presentation。该论文有关代码与模型结构已经在Github公开

https://github.com/doubledaibo/drnet


论文标题:Detecting Visual Relationships with Deep Relational Networks

论文作者:Bo Dai, Yuqi Zhang, Dahua Lin


Deep Layer Cascade:斩获第一届DAVIS Challenge 视频语义宰割角逐冠军


aghjh.jpg


图像语义宰割是图像理解的基石性技术在自动驾驶系统等牵扯街景或场景鉴别利用中表演举足轻沉的角色;谏疃冉ǖ挠镆逶赘罴际豕倘荒芄换竦迷冻巢街璧幕艿峭览涤诩畹耐缁蛘吒丛拥暮蟠χ眉际跆岣吣P偷脑げ饩。因而处置过程通常必要耗费大量的推算资源并且速度不高。


此论文提出了一个很具启发性的创新点对难度分歧的区域区别对待 — 让单一的归于单一把贵重的推算资源投放在难题的部门。具体而言大块滑润的区域宰割是较为容易的而物体天堑或者有复杂纹理的区域的宰割则较作难题;谡庖还鄄齑宋奶岢隽艘桓鲂滦偷挠镆逶赘钅P虳eep Layer Cascade (LC)。它将图像中的像素分为单一、中等、难题三个部门别离由网络中的浅层、中层、高层来针对性实现宰割。


此文还提出了Region Convolution来只处置每个阶段感兴致的区域而忽视其他区域。对于单一区域的低层处置了局通过skip connection直接传送到输出端并与复杂区域处置的了局相融合因而三个档次的处置无缝衔接组成了一个能够端对端训练的统一网络。Deep Layer Cascade不仅提高推算速度并且由于每个阶段只专一处置某类难度的像素精度也会相对地提高。LC能够矫捷地与分歧的深度网络架构结合使用。Inception-ResNet-v2利用LC后速度提高了42.8% 精度提高了1.7%。经测试LC在多个测试集上大幅度提高速度并达到甚至超过state-of-the-art的精度水平LC在VOC12测试集上mIoU可达到80.3在COCO上预训练可达到82.7在Cityscapes测试集上可达到71.1。


除了上述论文值得一提的是东升国际官网科技与香港中大-东升国际官网科技结合尝试室在这次的CVPR斩获了由VideoNet(http://videonet.team/)主办的第一届DAVIS Challenge 视频语义宰割角逐冠军 http://davischallenge.org/ 。参赛者必要提出算法正确地把视坡凤指定的物体进行语义事俘宰割。由于物体急剧移动造成的吞吐状态和多物体之间的遮挡问题角逐的挑战难度出格高。东升国际官网科技与香港中大-东升国际官网科技结合尝试室合作提出的Video Object Segmentation with Re-identificationVS-ReID算法让他们在全球共 22支行列里脱颖而出获得冠军。


论文标题:Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade

论文作者:Xiaoxiao Li, Ziwei Liu, Ping Luo, ChenChange Loy, Xiaoou Tang

此表 ,东升国际官网科技与香港中大-东升国际官网结合尝试室参与DAVIS Challenge角逐的技术规划也在DAVIS Challenge workshop整顿颁发:

论文标题:Video Object Segmentation with Re-identification

论文作者:XiaoxiaoLi, Yuankai Qi, Zhe Wang, Kai Chen, Ziwei Liu, Jianping Shi, Ping Luo, ChenChange Loy, Xiaoou Tang


Tubelet Proposal Network:ImageNet冠军检测技术到视频的跃迁


freghh.jpg


视频中的物体检测问题由于其在高级AI系统如自动驾驶、家居机械人中的潜在用处近年来获得了宽泛的关注。相较于传统静止图片的物体检测问题现有的视频物体检测步骤通;谑笨铡腹苈贰(tubelets)即跨功夫衔接的检测框来有效的利用视频中的时域信息。但是现有步骤中时空管路天生的质量和效能往往差强人意基于活动信息的天生步骤只能天生较短的时空管路而基于图像信息的天生步骤必要破费大量的推算量也不能保障对于物体较高的召回率。


该论文将传统针对静止图像的FasterRCNN框架进行了扩大将视频物体检测框架扩大为「候选时空管路天生」和「候选时空管路鉴别」两个?樘岢隽艘恢指咝艿暮蜓∈笨展苈诽焐街杩赡茉诒U鲜笨展苈方铣こざ鹊耐本】赡艿谋A舴制缡笨展苈返亩嘌源佣岣呶锾宓恼倩芈;谡庑└咧柿康暮蜓∈笨展苈防帽嗦-解码LSTM网络进行时空管路的鉴别可能有效的提升检测整体的正确率。作者还对Tubelet Proposal Network初始化和分歧设置进行了详尽分析基于TPN的物体检测均匀正确率相较于静止图像检测框架有>5%的提升。


该论文作者在2015和2016陆续两年获得ImageNet视频物体检测项目第一。该论文是他们在2016年ImageNet较量第一工作上进行扩大后提出的全新视频物体检测框架相较于现有算法对视频中物体检测的效能和正确率进一步提升。


论文标题:Object Detection in Videos with Tubelet Proposal Networks

论文作者:Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, XihuiLiu, Xiaogang Wang


Multi-Context Attention:单人体姿势鉴别数据集MPII正确率第一


frgtrh.jpg


人体姿势估计旨在检测出图像或视频中人体各关键点的地位拥有很大的利用价值如体感游戏人机交互机械人虚构现实设备作为捉拿机械视觉等。然而由于人体姿势极度丰硕图像视频布景冗杂人体遮挡等情况常有产生所以人体姿势估计问题极具挑战性。要解决上述问题必要充分理解图像的高低文信息传统步骤通常使用多个分歧尺度的图像块来对多尺度信息建模这样获得的多尺度信息往往短缺矫捷性和多样性。 人脑视觉把稳力机造是人脑高效理解天然场景的有效机造。通过将把稳力集中到主题区域人脑能有效排除与工作无关的其他滋扰区域并着沉分析与工作有关的关键区域。


此论文提出的多情境把稳力机造网络multi-context attention network初次将把稳力机造模型与人体姿势估计工作有效结合通过设计三种分歧确把稳力机造模型——多尺度把稳力机造multi-resolution attention多语义把稳力机造multi-semantics attention人体全局-部门把稳力机造hierarchical global-part attention——来进建图像高低文信息可能有效去除人体姿势估计工作里的冗余布景提高对易混合人体部位分辨能力从而人体关键部位的检测精度。在最宽泛使用的单人体姿势鉴别数据集MPII上该步骤正确度在已颁发的工作中最高。该步骤目前已经开源代码可在如下网站获得

https://github.com/bearpaw/pose-attention


论文标题:Multi-Context Attention for Human Pose Estimation


附录

东升国际官网科技及香港中大-东升国际官网科技结合尝试室共有23篇论文被接管 ,附上CVPR2017上Session功夫


  1. Multi-Context Attention for Human Pose Estimation - Saturday, July 22, 2017, 09:00–10:30

  2. Multi-Scale Continuous CRFs as Sequential Deep Networksfor Monocular Depth Estimation - Saturday, July 22, 2017, 09:00–10:30

  3. Accurate Single Stage Detector Using Recurrent Rolling Convolution - Saturday, July 22, 2017, 10:30–12:30

  4. Mimicking Very Efficient Network for Object Detection - Saturday, July 22, 2017, 10:30–12:30

  5. Object Detection in Videos with Tubelet Proposal Networks - Saturday, July 22, 2017, 10:30–12:30

  6. Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion - Saturday, July 22, 2017, 10:30–12:30

  7. Discover and Learn New Objects from Documentaries - Saturday, July 22, 2017, 13:30–15:00

  8. Learning object interactions and descriptions for Semantic Image Segmentation - Saturday, July 22, 2017, 13:30–15:00

  9. Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification Saturday, July 22, 2017, 15:00–17:00

  10. Scale-Aware Face Detection - Saturday, July 22, 2017, 15:00–17:00

  11. Interpretable Structure-Evolving LSTM - Sunday, July 23, 2017, 08:30–10:00

  12. Detecting Visual Relationships with Deep Relational Networks - Sunday, July 23, 2017, 13:00–14:30

  13. Joint Detection and Identification Feature Learning for Person Search - Sunday, July 23, 2017, 13:00–14:30

  14. Learning Cross-Modal Deep Representations for Robust Pedestrian Detection - Sunday, July 23, 2017, 14:30–16:30

  15. PolyNet: A Pursuit of Structural Diversity in Very Deep Networks - Sunday, July 23, 2017, 14:30–16:30

  16. Pyramid Scene Parsing Network - Sunday, July 23, 2017, 14:30–16:30

  17. Person Search with Natural Language Description - Monday, July 24, 2017, 10:00–12:00

  18. Quality Aware Network for Set to Set Recognition - Monday, July 24, 10:00–12:00

  19. Untrimmed Nets for Weakly Supervised Action Recognitionand Detection - Tuesday, July 25, 2017, 10:00–12:00

  20. Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade - Tuesday, July 25, 2017, 13:00–14:30

  21. Residual Attention Network for Image Classification- Tuesday, July 25, 13:00–14:30

  22. ViP-CNN: A Visual Phrase Reasoning Convolutional Neural Network for Visual Relationship Detection - Tuesday, July 25, 2017, 14:30–16:30

  23. Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing - Tuesday, July 25, 2017, 14:30–16:30


rfagth.jpg

产品试用
填写此单一表格 ,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00 ,13:00-18:00
合作同伴招募
【网站地图】