AIMC课题组研究成果被计算机视觉顶会ICCV2023录用

更新时间：2023-08-24 15:28:38 浏览量：

伟德国际1946源自英国人工智能与媒体计算课题组（AIMC Lab）关于图像匹配的最新研究成果被2023年国际计算机视觉大会（ICCV）录用。ICCV是中国计算机学会推荐的人工智能方向A类国际学术会议。论文第一作者是伟德官网2021级硕士生刘家真。

论文题目：Geometrized Transformer for Self-Supervised Homography Estimation

论文作者：刘家真，李锡荣

通讯作者：李锡荣

论文概述：

本文探讨了计算机视觉的一个基础任务：单应性估计 (homography estimation)。该任务旨在求解同一场景不同视角成像平面之间的单应变换关系，在图像配准、图像拼接、相机位姿估计、视觉SLAM等多种应用中起着关键作用。传统的基于关键点检测与匹配的方法计算效率高，但关键点在低纹理区域难以被有效检测，极大限制了方法适用范围。当前以LoFTR为代表的无检测器检测（detector-free）方法直接将整图所有像素点作为特征点进行密集匹配，从而回避关键点检测问题，扩大了方法适用范围。为了降低无关区域对于特征匹配的干扰，LoFTR等方法需要借助Transformer自注意力网络对整图像素点进行特征交互与聚合。而为了计算可行，上述方法只能使用性能受限的线性Transformer，存在注意力扩散区域欠准确、易被无关区域干扰等问题。为了解决这个问题，本文提出Geometrized Transformer (GeoFormer)。GeoFormer巧妙地使用经典的RANSAC几何方法大幅缩小参与注意力计算的图像区域，使得我们可以使用标准的二次Transformer实现稀疏自注意力机制 (sparse self-attention)和聚焦跨注意力机制（focused cross-attention）。在自然图像、过度编辑图像、眼底彩照等多个真实世界数据集上开展的大量实验验证了GeoFormer的有效性。

源代码： https://github.com/ruc-aimc-lab/GeoFormer

本项研究得到了国家高水平医院临床研究资助（2022-PUMCH-C-61）、国家自然科学基金（62172420）、2022腾讯下一代广告系统犀牛鸟重点研究计划以及伟德国际1946源自英国公共计算云的支持。

论文信息: Jiazhen Liu, Xirong Li. Geometrized Transformer for Self-Supervised Homography Estimation. ICCV 2023

作者简介：

刘家真，伟德国际1946源自英国2021级硕士生，导师为李锡荣教授，他的研究课题为图像匹配和多模态大模型。

李锡荣，伟德国际1946源自英国数据工程与知识工程教育部重点实验室教授、博导，伟德国际1946源自英国人工智能与媒体计算课题组负责人。主要研究兴趣包括多媒体智能、计算机视觉、模式识别、AI辅助诊断等，在相关领域重要国际刊物上累计发表学术论文百余篇，谷歌学术引用5000余次。曾任国际多媒体建模会议Multimedia Modeling 2021 Program Co-Chair。目前担任ACM TOMM、Multimedia Systems、IET Computer Vision等多个国际SCI期刊的编委。