我校3篇论文被CVPR2025录用

发布时间:2025-03-06作者:数据科学与人工智能研究院来源:数据科学与人工智能研究院 字体: 设置

近期,我校有3篇论文被国际计算机视觉与模式识别领域CCF A类会议IEEE CVPR 2025录用,这是我校首次在计算机视觉领域国际顶会CVPR上取得重要论文突破。论文由数智研究院和信息学院联合西安电子科技大学、墨尔本大学、西澳大学、澳大利亚国立大学等单位合作完成,长安大学为第一作者和通讯作者单位。


录用论文简要介绍如下:


1.Mono3DVLT: Monocular-Video-Based 3D Visual Language Tracking

该研究首创单目视频三维视觉语言跟踪(Mono3DVLT)研究,突破传统技术依赖昂贵传感器及语言融合不足的局限。团队提出三大创新:定义单目视频三维视觉语言跟踪任务范式;构建首个大规模数据集Mono3DVLT-V2X,融合大模型生成与人工标注,提供79,158段含2D/3D标注的自然语言视频;开发多模态架构模型Mono3DVLT-MT,其创新设计的特征提取与融合机制在自建数据集上建立性能新基准,显著超越现有方法,为三维视觉语言跟踪领域提供突破性解决方案。


Mono3DVLT框架示意图


2.Beyond Human Perception: Understanding Multi-Object World from Monocular View

该研究首次聚焦并深入研究了单目视觉下的三维场景理解难题:通过构建具有空间感知能力的视觉-语言联合表征模型,突破传统单目视觉系统在复杂场景理解中的维度缺失瓶颈。针对现有方法在跨模态对齐和空间推理方面的不足,研究团队创新性地提出基于状态提示的视觉编码器(SPVE)和去噪对齐融合(DAF)模块,有效解决了单目图像深度信息缺失带来的几何歧义问题,实现了对多物体三维空间关系的精准定位。实验表明,该方法在自建的MonoMulti3D-ROPE数据集上相比现有最优模型提升显著,平均定位精度达到72.3%,较基线方法提升19.6个百分点。


CyclopsNet模型架构示意图


3.Brain-Inspired Spiking Neural Networks for Energy-Efficient Object Detection

该研究首次聚焦并深入研究了类脑可解释神经网络模型,利用脉冲神经网络(SNN)丰富的动态特性构建用于视觉任务的高效目标检测模型(MSD)。提出一种全新的视神经核团(ONNB)模型,采用脉冲卷积神经元作为核心组件,用于显著增强SNN的深度特征提取能力。此外,提出一种多尺度脉冲检测框架来模拟生物对不同物体刺激,融合不同深度的特征和检测响应结果,实现静态图像和事件数据的高性能和高效处理。在公共数据集上的实验表明,MSD 取得了优异的性能,同时减少了82.9%的能量消耗。


视觉刺激图解与可训练神经元模型SCN示意图


CVPR是由IEEE主办的计算机视觉及人工智能等领域最具影响力和最重要的国际顶级会议之一。此次会议共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。


(审稿:高涛  网络编辑:和燕)