60篇论文入选,两度夺魁,“史上最难ECCV”商汤再攀高峰
来源:商汤科技SenseTime 编辑:lsy631994092 2020-08-25 08:50:20 加入收藏
8月23-28日,全球计算机视觉三大顶会之一,两年一届的欧洲计算机视觉国际会议ECCV(European Conference on Computer Vision) 正式召开。
与今年六月举办的CVPR 2020类似,本届ECCV 2020也堪称“史上最难ECCV”——有效投稿5025篇,比ECCV 2018的两倍还多,最终被接受发表论文1361篇,录取率为27%,较上届下降约5%。
虽然竞争加剧,但商汤科技在ECCV 2020依然斩获傲人成绩,商汤及联合实验室一共有60篇论文入选 ,涵盖对抗式生成模型、三维点云理解与分析、视频理解与分析、目标检测等热门及前沿领域,再次展示了商汤在计算机视觉领域的科研及创新实力。
不仅在论文总数上引领行业,商汤还斩获ECCV LVIS Challenge 2020冠军 ,以及由苏黎世联邦理工学院(ETH)主办的ECCV AIM 2020冠军 。
深耕研究,做真正具有行业价值的学术研究,是商汤在AI顶级会议上屡创佳绩的根源。
▎ ECCV 2020斩获两项世界冠军
ECCV LVIS Challenge 2020是本届ECCV最重磅 的竞赛之一,LVIS 是 FAIR (Facebook人工智能实验室) 在2018年提出的一个用于长尾识别的实例分割数据集,其有超过1000个类别,同时类别具有长尾分布的特性,此外,LVIS的标注相比COCO也更加精细。
商汤科技研究团队在今年针对这两个特性创新地使用了一个二阶段的训练策略,特征学习阶段和微调阶段,以更加高效地解决类别不均衡和高质量Mask预测问题。
除算法改进之外,基于商汤内部的SenseSpring商汤深泉模型生产平台实现了灵活高效和更高精度的模型训练。最终在LVIS Challenge 2020上获得了第一名的好成绩,实现了LVIS比赛的两连冠 。
由ETH主办的AIM比赛,来自商汤科技-中科院深圳先进研究院的XPixel团队获得了视频插帧(Video Temporal Super-Resolution)冠军。这也是商汤连续两届在AIM VTSR项目中夺冠 。
视频插帧是一种可以提升视频帧率,改善视频流畅度的技术。
XPixel团队从原有模型出发,改进了对视频运动的建模,使得模型更加贴合真实运动轨迹;并且针对生成帧提出了新的改善模块,使效果获得了进一步的提升。
▎ 商汤60篇论文录取展示硬核实力
本届ECCV,商汤及联合实验室再次以60篇录用论文成绩领跑行业,并在多个领域实现突破性创新。以下为商汤科技及联合实验室入选ECCV 2020代表性论文:
AI让图像瞬间“复活”
最近,据AI媒体量子位报道,微博网友用AI工具复原了民国时一场时装秀,效果让网友惊叹:老上海的摩登时尚气息扑面而来!
视频作者表示:自己修复影像用了4个AI工具,整体分为补帧、上色、扩分辨率三个环节。
而通过商汤科技的AI技术实现这一切,你需要的仅仅是一个预训练的GAN。
商汤入选ECCV 2020 Oral论文《Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation》,仅仅用一个预训练的对抗生成网络(GAN),不仅能实现上色、补全、超分辨率、对抗防御等图像复原,还能实现图像编辑,包括随机扰动、图像变形、类别转换效果。
原文链接:
https://arxiv.org/abs/2003.13659
AI帮你“读懂”视频上下文
要更好理解互联网视频内容,首先要理解视频中的字幕和场景文字。
当前主流的文字识别方法是基于编码器-解码器的框架,在识别无语义的文字(如随机字符串)图片时会出现严重错误,很难被应用于真实业务特别是中文业务场景。
商汤ECCV 2020入选论文《RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition》提出了位置增强网络分支,动态增强文字解码过程中的位置信息。提出的RobustScanner在有语义数据集,和无语义的数据集都取得不错的效果,验证了其鲁棒性。
上图对比了RobustScanner与典型的基于注意力编码器解码器机制的算法-SAR,在规则文本,非规则文本以及随机文本图片上的效果,RobustScanner在三类数据上表现更优,并且极大地避免了SAR在随机文本图片上识别出乱码的问题。
原文链接:
https://arxiv.org/abs/2007.07542
遮挡也能看见,给机器人装上“火眼金睛”
在机器人、自动驾驶等领域,仅通过激光雷达/深度相机会产生不完整的形状,因为受限于产品特性,分辨率局限,另一方面物体存在遮挡,这些缺失直接影响算法性能。
为解决这些问题,商汤ECCV 2020入选论文《GRNet: Gridding Residual Network for Dense Point Cloud Completion》首次提出了点云补全算法Gridding Residual Network (GRNet),将无序的点云规则化至3D Grid,并提出了Gridding,Gridding Reverse和Cubic Feature Sampling更好地感知点云的几何结构和上下文信息。
在自动驾驶过程中原始点云(上)和补全后点云(下)的对比。本文提出的GRNet可以补全从激光雷达获取的点云,从而更好地获取场景中物体的形状
本文所提出的GRNet在ShapeNet、Completion3D和KITTI上的实验结果超越了state-of-the-art方法的性能 。在Completion 3D Benchmark上,GRNet相比TopNet和PCN分别有25% 和40% 的性能提升。
原文链接:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123540341.pdf
单目RGB相机也能看懂多人动作
随着AI技术的突破,如今在单目RGB相机上,也能实现出色的3D姿态估计,大大降低了应用成本。但是,从单目RGB相机中恢复多人3D姿态是非常有挑战性的任务。
商汤ECCV 2020入选论文《HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular Multi-Person 3D Pose Estimation》将人体检测、姿态估计及人体空间定位统一起来,设计了一种端到端的多人3D姿态估计训练框架,同时将人与人之间的交互信息编码为深度和角度的顺序关系,在达到学界最高精度的同时,大幅降低了模型的计算复杂度。
原文链接:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123480256.pdf
看懂复杂道路状况
语义分割对实现自动驾驶尤为重要,准确区分图像视频中的人物、树木、道路、指示牌等不同元素,可以让车辆精准判断路况变化。但在实际环境中,这些元素经常存在边缘模糊难以区分的情况,给应用带来很大挑战。
商汤ECCV 2020入选论文《Improving Semantic Segmentation via Decoupled Body and Edge Supervision》,提出了一种新的语义分割方法来明确地建模目标对象的主体(body)和边缘(edge),这对应于图像的低频和高频信息。
该方法首先通过warp图像特征来学习 flow field使目标对象主体部分更加一致。在解耦监督下,通过对不同部分(主体或边缘)像素进行显式采样,进一步优化产生的主体特征和残余边缘特征。
实验表明,这一方法在包括Cityscapes、CamVid、KITTI和BDD在内的四个主要道路场景语义分割数据集上超过了目前SOTA的结果。
原文链接:
https://arxiv.org/pdf/2007.10035.pdf
从拓扑视角优化神经网络的连通性
商汤ECCV 2020入选论文《Learning Connectivity of Neural Networks from a Topological Perspective》在连通性维度对神经网络进行优化,进而替代堆叠或手工设计的连接方式,更加适合不同的任务场景。
设计更加高效的神经网络结构是计算机视觉领域一个重要且具有实际意义的问题,目前的工作多关注于神经网络微观结构,在宏观的连通性上的研究较少。
本文通过拓扑表示,在使用完全图的搜索空间下以可微分的方式优化网络的连通性,并通过添加稀疏约束保留重要的连接。
优化得到的连接优于基于先验设计的,并且能够得到更加适应不同场景的连接方式,在图像分类和目标检测上取得明显提升(ImageNet、COCO)。
原文链接:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660732.pdf
填补学术界、工业界大规模多相机数据集的空白
商汤ECCV 2020入选论文《MessyTable: Instance Association in Multiple Camera Views》解决了学术界、工业界研究相对较少,但非常需要的多相机实例关联的问题。
目前行业运用较多的数据集(比如ImageNet、COCO),都是单相机数据集,难以解决多相机系统中遮挡、大角度差、精细特征提取等问题。
本文完成了业界首个大规模多相机通用物品数据集 MessyTable并验证了利用临近信息的新算法。其不仅可作为极富挑战的基线,也可作为高度真实的预训练源。
MessyTable可作为极富挑战的基线,比现有的多相机数据集大两个数量级。也可作为高度真实的预训练源,相比ImageNet有更强的泛化性和迁移能力。
原文链接:
https://caizhongang.github.io/projects/MessyTable/
厉害了,这种方法让预训练功耗降低75%
目标检测是应用最广的AI技术之一,包括自动驾驶、智慧城市、文化娱乐等等。一直以来,目标检测算法模型预训练高功耗一直是一个行业难题,比如一个128万张图片预训练数据集,下载需要数天,对GPU卡是很大消耗。
商汤ECCV 2020入选论文《Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection》,设计了一种通用且高效的预训练新范式,将预训练消耗降至传统预训练的1/4 。
此预训练方式仅需目标检测数据集,而不需要引入额外数据。应用此预训练方法,可以显著降低目标检测中新模型和算法验证的成本。
评论comment