AIMC课题组研究成果被计算机视觉顶会ICCV2023录用

更新时间:2023-08-24 15:28:38 浏览量:

伟德国际1946源自英国人工智能与媒体计算课题组(AIMC Lab)关于图像匹配的最新研究成果被2023年国际计算机视觉大会(ICCV)录用。ICCV是中国计算机学会推荐的人工智能方向A类国际学术会议。论文第一作者是伟德官网2021级硕士生刘家真。

论文题目:Geometrized Transformer for Self-Supervised Homography Estimation

论文作者:刘家真,李锡荣

通讯作者:李锡荣

论文概述:

本文探讨了计算机视觉的一个基础任务:单应性估计 (homography estimation)。该任务旨在求解同一场景不同视角成像平面之间的单应变换关系,在图像配准、图像拼接、相机位姿估计、视觉SLAM等多种应用中起着关键作用。传统的基于关键点检测与匹配的方法计算效率高,但关键点在低纹理区域难以被有效检测,极大限制了方法适用范围。当前以LoFTR为代表的无检测器检测(detector-free)方法直接将整图所有像素点作为特征点进行密集匹配,从而回避关键点检测问题,扩大了方法适用范围。为了降低无关区域对于特征匹配的干扰,LoFTR等方法需要借助Transformer自注意力网络对整图像素点进行特征交互与聚合。而为了计算可行,上述方法只能使用性能受限的线性Transformer,存在注意力扩散区域欠准确、易被无关区域干扰等问题。为了解决这个问题,本文提出Geometrized Transformer (GeoFormer)。GeoFormer巧妙地使用经典的RANSAC几何方法大幅缩小参与注意力计算的图像区域,使得我们可以使用标准的二次Transformer实现稀疏自注意力机制 (sparse self-attention)和聚焦跨注意力机制(focused cross-attention)。在自然图像、过度编辑图像、眼底彩照等多个真实世界数据集上开展的大量实验验证了GeoFormer的有效性。

源代码: https://github.com/ruc-aimc-lab/GeoFormer

本项研究得到了国家高水平医院临床研究资助(2022-PUMCH-C-61)、国家自然科学基金(62172420)、2022腾讯下一代广告系统犀牛鸟重点研究计划以及伟德国际1946源自英国公共计算云的支持。

论文信息: Jiazhen Liu, Xirong Li. Geometrized Transformer for Self-Supervised Homography Estimation. ICCV 2023

作者简介:

刘家真,伟德国际1946源自英国2021级硕士生,导师为李锡荣教授,他的研究课题为图像匹配和多模态大模型。

李锡荣,伟德国际1946源自英国数据工程与知识工程教育部重点实验室教授、博导,伟德国际1946源自英国人工智能与媒体计算课题组负责人。主要研究兴趣包括多媒体智能、计算机视觉、模式识别、AI辅助诊断等,在相关领域重要国际刊物上累计发表学术论文百余篇,谷歌学术引用5000余次。曾任国际多媒体建模会议Multimedia Modeling 2021 Program Co-Chair。目前担任ACM TOMM、Multimedia Systems、IET Computer Vision等多个国际SCI期刊的编委。