Usage instructions: here
Table of Contents
Publish Date | Title | Code | Abstract |
---|---|---|---|
2025-06-30 | MotionGPT3: Human Motion as a Second Modality | null | 尽管多模态模型的最新进展已展示出在统一理解和生成方面的强大能力和机遇,但统一的运动-语言模型的发展仍有待探索。为了使此类模型能够处理高保真的人体运动,必须解决两个核心挑战。第一个是连续运动模态与自回归方式中的离散表示之间的重构差距,第二个是统一训练期间语言智能的退化。受到混合专家的启发,我们提出了MotionGPT3,这是一种双峰运动-语言模型,该模型将人体运动视为第二种模态,通过单独的模型参数解耦运动建模,从而实现有效的跨模态交互和高效的多模态缩放训练。为了保留语言智能,文本分支保留了预训练语言模型的原始结构和参数,同时通过共享注意力机制集成了一个新的运动分支,从而实现了两种模态之间的双向信息流。我们首先采用运动变分自动编码器(VAE)将原始人体运动编码为潜在表示。在此连续潜在空间的基础上,运动分支使用扩散头直接从中间隐藏状态预测运动潜在变量,从而绕过离散令牌化。大量实验表明,我们的方法在运动理解和生成任务上均实现了具有竞争力的性能,同时保留了强大的语言能力,从而在自回归方式中建立了一个统一的双峰运动扩散框架。 |
2025-06-30 | The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models | null | 测试时自适应(TTA)方法在提升视觉-语言模型(VLM)(如CLIP)在推理过程中的性能方面受到了广泛关注,且无需额外的标注数据。然而,当前的TTA研究普遍存在一些主要的局限性,例如基线结果的重复、有限的评估指标、不一致的实验设置以及不足的分析。这些问题阻碍了TTA方法之间的公平比较,并掩盖了它们的实际优势和劣势。为了应对这些挑战,我们推出了TTA-VLM,这是一个用于评估VLM上TTA方法的综合基准。我们的基准在一个统一且可复现的框架内实现了8种 episodic TTA方法和7种 online TTA方法,并在15个广泛使用的数据集上对它们进行了评估。与之前仅关注CLIP的研究不同,我们将评估范围扩展到SigLIP——一个使用Sigmoid损失训练的模型——并且包括诸如CoOp、MaPLe和TeCoA等训练时调优方法,以评估其泛化性。除了分类准确率之外,TTA-VLM还整合了各种评估指标,包括鲁棒性、校准性、异常检测和稳定性,从而能够对TTA方法进行更全面的评估。通过大量的实验,我们发现:1) 与之前的开创性工作相比,现有的TTA方法产生的增益有限;2) 当前的TTA方法与训练时微调方法表现出较差的协同性;3) 准确率的提升往往以降低模型的可靠性为代价。我们发布TTA-VLM,旨在为VLM的TTA方法提供公平的比较和全面的评估,我们希望它能鼓励社区开发更可靠和更具泛化性的TTA策略。 |
2025-06-30 | GroundingDINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models | null | 由于解剖结构的可变性、不同的成像协议和有限的带注释数据,超声成像中准确且可推广的物体分割仍然是一个重大挑战。在这项研究中,我们提出了一种提示驱动的视觉语言模型(VLM),该模型集成了Grounding DINO和SAM2,以实现跨多个超声器官的物体分割。总共使用了18个公共超声数据集,包括乳腺、甲状腺、肝脏、前列腺、肾脏和脊旁肌。这些数据集被分为15个,用于使用低秩适应(LoRA)对Grounding DINO进行微调和验证,使其适应超声领域,另外3个数据集则完全保留用于测试,以评估在未见分布中的性能。综合实验表明,我们的方法优于最先进的分割方法,包括UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse和SAMUS在大多数已见数据集上的表现,同时在未见数据集上保持了强大的性能,而无需额外的微调。这些结果强调了VLM在可扩展且稳健的超声图像分析中的前景,减少了对大型、器官特异性注释数据集的依赖。我们将在接受后在code.sonography.ai上发布我们的代码。 |
2025-06-30 | Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model | null | 大规模视觉-语言模型(VLMs),如CLIP,通过利用大规模视觉-文本对数据集,在零样本学习(ZSL)中取得了显著成功。然而,这些方法通常缺乏可解释性,因为它们计算整个查询图像和嵌入的类别词之间的相似度,使得很难解释它们的预测。解决这个问题的一种方法是开发通过整合语言的可解释模型,其中分类器是使用离散属性构建的,类似于人类的感知。这引入了一个新的挑战:如何基于预训练的VLMs将局部视觉特征与相应的属性有效地对齐。为了解决这个问题,我们提出了LaZSL,一个用于可解释ZSL的局部对齐视觉-语言模型。LaZSL采用通过最优传输的局部视觉-语义对齐来执行视觉区域和它们相关联的属性之间的交互,从而促进有效的对齐并提供可解释的相似性,而无需额外的训练。大量的实验表明,我们的方法具有几个优点,包括增强的可解释性、提高的准确性和强大的领域泛化能力。代码可在以下网址获取:https://github.com/shiming-chen/LaZSL。 |
2025-06-30 | Visual Textualization for Image Prompted Object Detection | null | 我们提出VisTex-OVLM,一种新颖的图像提示目标检测方法,它引入了视觉文本化——一个将少量视觉范例投影到文本特征空间的过程,以增强对象级视觉语言模型(OVLM)在检测难以用文本描述且几乎不存在于其预训练数据中的稀有类别的能力,同时保留其预训练的对象-文本对齐。具体来说,VisTex-OVLM利用多尺度文本化块和多阶段融合策略来整合来自视觉范例的视觉信息,生成文本化的视觉tokens,与文本提示一起有效地指导OVLM。与先前的方法不同,我们的方法保持了OVLM的原始架构,在保持其泛化能力的同时,提高了在少样本设置中的性能。VisTex-OVLM在与OVLM的预训练数据几乎没有重叠的开放集数据集上表现出卓越的性能,并在少样本基准测试PASCAL VOC和MSCOCO上取得了最先进的结果。代码将在https://github.com/WitGotFlg/VisTex-OVLM上发布。 |
2025-06-30 | PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies? | null | 视觉语言模型(VLMs)在通用机器人操作中正变得越来越关键,从而实现了物理推理、策略生成和故障检测等任务。然而,它们在这些高层次应用中的熟练程度通常假设对低层次物理先决条件的深刻理解,而这种能力在很大程度上仍未得到验证。为了使机器人能够可靠地执行动作,它们必须理解内在的对象属性(例如,材料、重量)、动作可供性(例如,可抓握、可堆叠)和物理约束(例如,稳定性、可达性,或对象的闭合状态)。尽管视觉语言模型在操作任务中被广泛使用,但我们认为,现成的模型可能缺乏这种细粒度的、具有物理基础的理解,因为这些先决条件在训练期间经常被忽略。为了解决这个关键差距,我们引入了PAC Bench,这是一个综合基准,旨在从任务可执行性的角度系统地评估视觉语言模型对核心属性、可供性和约束(PAC)的理解。PAC Bench包含一个多样化的数据集,包含超过30,000个注释,包括673个真实世界的图像(115个对象类别,15种属性类型,以及每个类别定义1到3个可供性),100个真实世界的人形视角场景,以及跨四个任务的120个独特的模拟约束场景。我们的评估揭示了当前视觉语言模型在掌握基本物理概念方面的显著差距,突出了它们在可靠机器人操作中的适用性限制,并指出了有针对性研究的关键领域。PAC Bench还可以作为一个标准化的基准,用于严格评估视觉语言模型中的物理推理,并指导开发更强大、具有物理基础的机器人应用模型。项目页面:https://pacbench.github.io/ |
2025-06-30 | On the Domain Robustness of Contrastive Vision-Language Models | null | 在真实的视觉-语言应用中,从业者越来越依赖于大型预训练基础模型,而非定制解决方案,尽管这些模型的训练数据和过程透明度有限。虽然这些模型在通用基准测试中取得了令人印象深刻的性能,但其有效性在特定领域转移下会显著下降,例如独特的成像条件或环境变化。在这项工作中,我们介绍 Deepbench,一个旨在评估视觉-语言模型 (VLM) 领域特定鲁棒性的框架。Deepbench 利用大型语言模型 (LLM) 生成逼真的、上下文感知的图像损坏,这些损坏是为特定部署领域量身定制的,无需标记数据。我们评估了一系列对比视觉-语言架构和架构变体在六个真实世界领域中的表现,并观察到鲁棒性存在显著差异,突显了针对性的、领域感知的评估的必要性。Deepbench 作为开源软件发布,以支持对领域感知鲁棒性评估的进一步研究。 |
2025-06-30 | CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models | null | 虽然大型视觉语言模型(LVLMs)在解释视觉信息方面表现出强大的能力,但它们经常产生偏离视觉信息的内容,导致对象幻觉。为了解决这个问题,最近的研究主要依赖于昂贵的手动标注和训练成本,或者显著增加推理时间。在这项工作中,我们观察到,与非字幕查询相比,LVLMs在回答字幕查询时,对视觉信息的关注明显更强。受此现象的启发,我们提出了一种字幕敏感的注意力干预(CAI),这是一种无需训练、即插即用的幻觉缓解方法,它利用响应字幕查询的注意力激活模式来增强LVLMs的视觉感知能力。涵盖判别和生成任务的四个基准测试的大量实验结果表明,CAI仅以最小的额外推理成本实现了最先进的(SOTA)幻觉缓解性能。 |
2025-06-30 | A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation | null | 由于医学影像的细微差别和临床文档的可变性,从CT扫描生成放射学报告仍然是一项复杂的任务。在本研究中,我们提出了一个两阶段框架,用于从二维CT切片生成肾脏放射学报告。首先,我们使用多任务学习模型提取结构化的异常特征,该模型经过训练,可以识别病灶属性,例如位置、大小、增强和衰减。然后,将这些提取的特征与相应的CT图像结合起来,并输入到微调的视觉-语言模型中,以生成与临床发现相一致的自然语言报告语句。我们对一个包含手动注释的句子-切片-特征三元组的肾脏CT研究数据集进行了实验,并使用分类指标和自然语言生成指标评估了性能。我们的结果表明,所提出的模型在所有异常类型中均优于随机基线,并且生成的报告以合理的文本准确性捕获了关键的临床内容。这项探索性工作突出了模块化、特征信息报告生成在肾脏成像中的可行性。未来的工作将侧重于将此流程扩展到三维CT容积,并进一步提高多模态医学人工智能系统中的临床保真度。 |
2025-07-01 | ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding | null | 本文介绍了ZonUI-3B,一个轻量级的视觉-语言模型(VLM),专门为图形用户界面定位任务设计,其性能可与规模大得多的模型相媲美。与计算密集型且在消费级硬件上不切实际的大型VLM(>70亿参数)不同,ZonUI-3B在提供强大定位精度的同时,可以在单个GPU(RTX 4090)上完全训练。该模型包含几项关键创新:(i)结合了来自移动、桌面和Web GUI截图等不同来源的2.4万个示例的跨平台、多分辨率数据集,以有效解决高分辨率桌面环境中数据稀缺的问题;(ii)一种两阶段微调策略,其中初始跨平台训练建立强大的GUI理解能力,然后对高分辨率数据进行专门的微调,以显着提高模型的适应性;以及(iii)数据整理和冗余减少策略,表明随机抽样一个较小的、冗余减少的子集可以实现与较大数据集相当的性能,强调了数据多样性而非纯粹的数量。在标准GUI定位基准(包括ScreenSpot、ScreenSpot-v2和具有挑战性的ScreenSpot-Pro)上的实证评估突出了ZonUI-3B的卓越精度,在ScreenSpot上达到84.9%,在ScreenSpot-v2上达到86.4%,超过了之前40亿参数以下的模型。消融研究验证了平衡抽样和两阶段微调在增强鲁棒性方面的关键作用,尤其是在高分辨率桌面场景中。ZonUI-3B可在以下网址获取:https://github.com/Han1018/ZonUI-3B |
2025-06-27 | MiCo: Multi-image Contrast for Reinforcement Visual Reasoning | null | 本研究探索如何使思维链(CoT)推理能够连接多个图像中的视觉线索。一个直接的解决方案是调整基于规则的强化学习,以应用于视觉-语言模型(VLMs)。然而,这类方法通常依赖于人工整理的问答对,这在处理细粒度的视觉细节和跨图像的复杂逻辑时尤其具有挑战性。受到自监督视觉表征学习的启发,我们观察到图像包含固有的约束,可以作为监督。基于这一洞察,我们构建了图像三元组,包括同一图像的两个增强视图和一个第三张相似但不同的图像。在训练过程中,模型被提示生成一个推理过程来比较这些图像(即,确定相同或不同)。然后,我们使用基于规则的强化学习来优化模型。由于高度的视觉相似性和增强的存在,模型必须关注细微的视觉变化,并执行逻辑推理才能成功。实验表明,尽管仅在视觉比较任务上进行训练,但学习到的推理能力可以有效地推广到各种问题。在不依赖任何人工标注的问答对的情况下,我们的方法在多图像推理基准测试中取得了显著的改进,并在通用视觉任务中表现出强大的性能。 |
2025-06-27 | Test-Time Consistency in Vision Language Models | null | 视觉-语言模型(VLMs)在各种多模态任务中取得了令人 впечатляющих 的性能,但当面对语义等价的输入时,它们经常表现出不一致的行为,从而损害了它们的可靠性和鲁棒性。近期的基准测试,例如 MM-R3,表明即使是最先进的 VLM,尽管保持了较高的平均准确率,也可能在语义等价的输入上产生不同的预测。先前的工作通过修改模型架构或在精心策划的数据集上进行大规模微调来解决这个问题。相比之下,我们提出了一个简单而有效的测试时一致性框架,该框架可在没有监督重新训练的情况下增强语义一致性。我们的方法完全是后验的、模型无关的,并且适用于任何可以访问其权重的 VLM。给定一个单一的测试点,我们通过两个互补的目标来强制执行一致的预测:(i)交叉熵一致性损失,它使语义等价输入之间的预测分布保持一致,以及(ii)伪标签一致性损失,它将输出拉向自平均共识。我们的方法是即插即用的,并利用来自单个测试输入本身的信息来提高一致性。在 MM-R3 基准测试上的实验表明,我们的框架在最先进的模型中产生了显著的一致性增益,为多模态学习中的推理时自适应建立了一个新的方向。 |
2025-06-27 | Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment | null | 视频大型多模态模型(VLMM)在理解视频内容方面取得了显著进展,但它们通常难以进行抽象和自适应推理——即在出现新信息时修改其解释的能力。在现实中,结论很少一成不变;额外的上下文可以加强或削弱最初的推断。为了解决这个问题,我们引入了可撤销视频蕴含(DVidE),这是一项新的任务,旨在挑战模型像怀疑论者一样思考,并根据不断发展的证据不断更新其推理。在DVidE中,给定一个视频前提和一个文本假设,模型必须确定一个新的更新是加强还是削弱该假设(分类版本),或者生成一个连贯的更新来修改蕴含关系(生成版本)。为了解决分类任务,我们提出了反事实思维链框架,利用反事实推理、ASR增强的视频内容和理性细化来减少推理偏差。对于生成任务,我们开发了一个框架,该框架将ASR输出与大型语言模型(LLM)相结合,以生成与预期加强或削弱目标相一致的连贯、上下文相关的更新。此外,我们引入了一个新的基准数据集,其中包含加强器/削弱器注释和一个基于LLM的评估指标,专门用于评估生成性能。实验结果表明,我们的方法在增强VLMM的动态推理能力方面取得了显著改进。 |
2025-06-27 | Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment | null | 大型视觉语言模型(LVLMs)将视觉输入编码为密集的patch级token序列,以捕获细粒度的语义信息。这些视觉token的数量通常远超文本token,导致大量的计算开销,并限制了LVLMs在实践中的可扩展性。以往的研究已经探索了在大型语言模型(LLM)之前或之内进行视觉token缩减的方法。然而,大多数LLM内的缩减方法依赖于文本条件交互,隐式地假设文本token可以可靠地捕获视觉token的重要性。在这项工作中,我们重新审视这一假设,并揭示了跨模态不对齐的因果、语义和空间形式。这些不对齐会削弱文本引导的视觉token缩减的有效性。为了解决这个问题,我们提出了一种无需训练的纯视觉剪枝框架VisionDrop,该框架基于模态内(视觉到视觉)注意力选择信息丰富的视觉token,而不依赖于文本信号。为了进一步抑制整个模型层级中的冗余,我们将视觉编码器和LLM视为一个统一的系统,并设计了一个渐进式剪枝流程。我们的方法在多个阶段执行主导token选择和轻量级上下文合并,即使在严格的token预算下也能保留细粒度的视觉信息。在各种基准上的大量实验表明,尽管不需要额外的训练或复杂的修改,VisionDrop仍比现有方法实现了持续的改进。其简单而有效的设计实现了高效的推理,同时保持了跨任务的强大性能。 |
2025-06-27 | Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs | null | 尽管视觉语言模型(VLMs)取得了进展,但它们的视觉推理能力常常受到“绑定问题”的限制:即无法可靠地将感知特征与其正确的视觉参照物相关联。这种限制是诸如计数、视觉搜索、场景描述和空间关系理解等任务中持续存在错误的基础。一个关键因素是,当前的VLM主要以并行方式处理视觉特征,缺乏空间定位的、串行注意机制。本文介绍了一种简单而有效的干预方法:通过低级空间结构(例如,水平线)增强视觉输入,并将其与鼓励顺序的、空间感知解析的文本提示配对。我们通过实验证明,这种方法在核心视觉推理任务中带来了显著的性能提升。具体而言,我们的方法将GPT-4o的视觉搜索准确率提高了25.00%,将计数准确率提高了26.83%,将场景描述中的编辑距离误差减少了0.32,并在2D合成数据集上将空间关系任务的性能提高了9.50%。此外,我们发现视觉修改对于这些提升至关重要;纯粹的文本策略,包括思维链提示,是不够的,甚至可能降低性能。我们的方法仅通过单次查询推理即可增强绑定,突显了视觉输入设计优于纯粹基于语言的方法的重要性。这些发现表明,低级视觉结构化是改进组合视觉推理的一个强大且未被充分探索的方向,并且可以作为提高VLM在空间定位任务中性能的通用策略。 |
2025-06-27 | SODA: Out-of-Distribution Detection in Domain-Shifted Point Clouds via Neighborhood Propagation | null | 随着点云数据在各种应用中的日益普及,检测分布外(OOD)点云对象的能力对于确保模型的安全性和可靠性至关重要。然而,这个问题在现有研究中仍未得到充分探索。受到图像领域成功的启发,我们建议利用三维视觉-语言模型(3D VLM)在点云对象中进行OOD检测。然而,一个主要的挑战是,用于预训练3D VLM的点云数据集在大小和对象多样性方面都远小于基于图像的同类数据集。关键的是,它们通常只包含计算机设计的合成对象。当模型被转移到涉及从物理环境扫描的真实对象的实际任务时,这会导致显著的领域转移。在本文中,我们的实验表明,合成到真实的领域转移显著降低了点云与其在3D VLM潜在空间中相关文本嵌入的对齐,从而阻碍了下游性能。为了解决这个问题,我们提出了一种名为SODA的新方法,该方法通过基于邻域的分数传播方案来提高OOD点云的检测。SODA是基于推理的,不需要额外的模型训练,并且在跨数据集和问题设置的现有方法中实现了最先进的性能。 |
2025-06-27 | Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation | null | 内部世界模型(WM)使智能体能够理解世界的状态并预测状态的转移,从而为高级的审慎推理奠定基础。最近的大型视觉语言模型(VLM),如OpenAI o3、GPT-4o和Gemini,展现出作为通用WM的潜力。虽然最新的研究已经评估并显示了这些模型在特定能力(如视觉理解)方面的局限性,但对VLM的基本WM能力的系统评估仍然缺失。借鉴比较心理学和认知科学,我们提出了一个两阶段框架,该框架评估感知(视觉、空间、时间、定量和运动)和预测(机械模拟、传递推理、组合推理),以提供对VLM作为WM的原子评估。在该框架的指导下,我们引入了WM-ABench,这是一个大规模的基准,包含23个细粒度的评估维度,涵盖6个具有受控反事实模拟的不同模拟环境。通过对15个最新的商业和开源VLM进行的660个实验,我们发现这些模型在基本世界建模能力方面表现出惊人的局限性。例如,几乎所有模型在区分运动轨迹时的准确率都接近随机水平。此外,它们缺乏解耦的理解——例如,一些模型倾向于认为蓝色物体比绿色物体移动得更快。更丰富的结果和分析揭示了VLM与人类水平的世界建模之间存在显著差距。 |
2025-06-27 | Embodied Domain Adaptation for Object Detection | null | 移动机器人依靠物体检测器来实现室内环境中的感知和物体定位。然而,标准的封闭集方法难以处理真实家庭和实验室中遇到的各种物体和动态条件。由视觉语言模型(VLM)驱动的开放词汇物体检测(OVOD)扩展到固定标签之外,但仍然难以应对室内环境中的领域转移。我们引入了一种无源域适应(SFDA)方法,该方法在不访问源数据的情况下调整预训练模型。我们通过时间聚类优化伪标签,采用多尺度阈值融合,并应用带有对比学习的Mean Teacher框架。我们的具身物体检测领域适应(EDAOD)基准评估了在光照、布局和物体多样性顺序变化下的适应性。实验表明,我们的方法在零样本检测性能和对动态室内条件的灵活适应性方面取得了显著提升。 |
2025-06-26 | ImplicitQA: Going beyond frames towards Implicit Video Reasoning | null | 视频问答通过利用多模态学习来对齐视觉和文本模态,已经取得了显著进展。然而,当前的基准测试主要集中于可以通过显式视觉内容回答的问题——在单个帧或短片段中直接可观察到的动作、对象和事件。相比之下,创造性和电影视频——例如电影、电视节目和叙事驱动的内容——采用了有意识地省略某些描述的叙事技巧,要求观看者推断跨越不连续帧的动机、因果关系和关系。人类自然擅长这种隐式推理,无缝地整合跨时间和环境的信息以构建连贯的叙述。当前的视频问答系统和基准测试未能捕捉到这种类人理解的本质维度。为了弥合这一差距,我们提出了ImplicitQA,这是一个专门为测试模型在隐式推理方面的能力而设计的新基准。它包含1K个精心注释的问答对,这些问答对来自320多个高质量的创意视频片段,并系统地分为关键的推理维度:横向和纵向空间推理、深度和邻近度、视点和可见性、运动和轨迹、因果和动机推理、社会互动、物理环境和推断计数。这些注释经过作者精心设计,具有挑战性,以确保高质量。我们对领先的视频问答模型进行了广泛的评估,结果显示性能下降,突显了它们对表面视觉线索的依赖,并强调了隐式推理的难度。不同模型之间的性能差异进一步说明了ImplicitQA提出的挑战的复杂性和多样性。通过发布数据集和我们的数据收集框架,我们旨在刺激社区中进一步的研究和开发。https://huggingface.co/datasets/ucf-crcv/ImplicitQA. |
2025-06-26 | Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs | null | 当前视觉语言模型(VLMs)在精细的空间推理方面表现不佳,尤其是在需要多步骤逻辑和精确空间对齐时。本文介绍了一种视觉语言推理模型SpatialReasoner-R1,旨在解决这些局限性。为了构建高质量的空间推理监督,我们设计了一种多模型蒙特卡洛树搜索(M3CTS)方法,该方法生成多样化的、逻辑上一致的长链思维(LongCoT)推理轨迹。此外,我们提出了细粒度的直接偏好优化(fDPO),它为描述性基础和逻辑推理引入了段特定的偏好粒度,并由空间奖励机制引导,该机制基于视觉一致性、空间基础和逻辑连贯性来评估候选响应。实验结果表明,在空间质量任务中,fDPO比标准DPO平均提高了4.1%,在空间数量任务中提高了9.0%。通过fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench上创造了新的SoTA,在平均准确率上比最强的基线高出9.8%,同时在通用视觉语言任务上保持了竞争性的性能。 |
2025-06-26 | G $^{2}$D: Boosting Multimodal Learning with Gradient-Guided Distillation | null | 多模态学习旨在利用来自不同数据模态的信息,以实现更全面的性能。然而,传统的多模态模型通常受到模态不平衡的影响,其中一个或几个模态主导模型优化,导致次优的特征表示和弱模态的未充分利用。为了应对这一挑战,我们引入了梯度引导蒸馏(G$^{2}$D),这是一个知识蒸馏框架,它使用定制的损失函数来优化多模态模型,该损失函数融合了单模态和多模态目标。G$^{2}$D还在学习过程中融入了动态序列模态优先级排序(SMP)技术,以确保每个模态都能主导学习过程,从而避免了较强模态掩盖较弱模态的陷阱。我们在多个真实世界的数据集上验证了G$^{2}$D,并表明G$^{2}$ D在训练过程中放大了弱模态的重要性,并且在分类和回归任务中优于最先进的方法。我们的代码可在https://github.com/rAIson-Lab/G2D上找到。 |
2025-06-26 | Global and Local Entailment Learning for Natural World Imagery | null | 在视觉-语言模型中学习数据的分层结构是一个重要的挑战。先前的工作试图通过使用蕴含学习来解决这个问题。然而,这些方法未能明确地对蕴含的传递性质进行建模,而传递性质建立了表示空间内顺序和语义之间的关系。在这项工作中,我们介绍了径向跨模态嵌入(RCME),该框架能够对传递性强制执行的蕴含进行显式建模。我们提出的框架优化了视觉-语言模型中概念的部分顺序。通过利用我们的框架,我们开发了一个分层视觉-语言基础模型,该模型能够表示生命之树中的层次结构。我们在分层物种分类和分层检索任务上的实验表明,与现有的最先进模型相比,我们的模型具有更强的性能。我们的代码和模型已在https://vishu26.github.io/RCME/index.html上开源。 |
2025-06-26 | Spatial Mental Modeling from Limited Views | null | 视觉语言模型(VLMs)能否像人类一样,仅凭几个视角就能想象出完整的场景?人类会形成空间心理模型,即对未见空间的内部表征,以推断布局、视角和运动。我们新的MindCube基准测试包含3268张图像中的21154个问题,揭示了这一关键差距,现有视觉语言模型在此表现出接近随机的性能。通过MindCube,我们系统地评估了视觉语言模型通过表征位置(认知地图)、方向(视角转换)和动态(“假设”运动的心理模拟)来构建鲁棒的空间心理模型的能力。然后,我们探索了三种方法来帮助视觉语言模型逼近空间心理模型,包括未见的中间视角、自然语言推理链和认知地图。显著的改进来自一种协同方法“先地图后推理”,该方法联合训练模型首先生成认知地图,然后基于此进行推理。通过训练模型对这些内部地图进行推理,我们将准确率从37.8%提高到60.8%(+23.0%)。添加强化学习进一步将性能提升至70.7%(+32.9%)。我们的关键见解是,这种空间心理模型的构建,即主动构建和利用具有灵活推理过程的内部结构化空间表征,显著提高了对不可观测空间的理解。 |
2025-06-26 | ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models | null | 电影摄影是电影的基本视觉语言,对于传达叙事、情感和审美品质至关重要。虽然最近的视觉-语言模型(VLMs)表现出强大的通用视觉理解能力,但它们在理解嵌入在单个镜头中的细致电影语法方面的能力在很大程度上仍未被探索,并且缺乏可靠的评估。这一关键差距限制了细粒度的视觉理解和人工智能辅助视频生成的精确性。为了解决这个问题,我们推出了\textbf{ShotBench},这是一个专门为电影语言理解而设计的综合基准。它包含超过3.5k个由专家注释的问答对,这些问答对来自图像和视频片段,精心挑选自200多部广受好评的(主要是奥斯卡提名的)电影,涵盖了八个关键的电影摄影维度。我们对ShotBench上24个领先VLM的评估揭示了它们的巨大局限性:即使是表现最佳的模型,平均准确率也低于60%,尤其是在细粒度的视觉线索和复杂的空间推理方面表现不佳。为了促进该领域的进步,我们构建了\textbf{ShotQA},这是一个包含大约70k个电影问答对的大规模多模态数据集。利用ShotQA,我们通过监督微调和群体相对策略优化开发了\textbf{ShotVL}。ShotVL在ShotBench上显著优于所有现有的开源和专有模型,建立了新的\textbf{state-of-the-art}性能。我们将开源我们的模型、数据和代码,以促进人工智能驱动的电影理解和生成这一关键领域的快速发展。 |
2025-06-26 | LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning | null | 当前视觉语言模型(VLMs)在通用视觉理解任务中表现良好。然而,由于缺乏专门的视觉语言指令跟随数据,它们在处理与人类姿势和动作相关的复杂视觉任务时表现不足。我们介绍了一种生成此类数据的方法,该方法将人体关键点与传统视觉特征(如字幕和边界框)集成,从而能够更精确地理解以人为中心的场景。我们的方法构建了一个包含200,328个样本的数据集,专门用于微调模型以执行以人为中心的任务,重点关注三个领域:对话、详细描述和复杂推理。我们建立了一个扩展的人体姿势和动作理解基准(E-HPAUB),以评估模型在人体姿势和动作理解方面的性能。我们使用此数据集对LLaVA-1.5-7B模型进行微调,并在基准上评估我们生成的LLaVA-Pose模型,取得了显著的改进。实验结果表明,与原始LLaVA-1.5-7B模型相比,总体改进了33.2%。这些发现强调了关键点集成数据在增强多模态模型以进行以人为中心的视觉理解方面的有效性。代码可在https://github.com/Ody-trek/LLaVA-Pose获取。 |
2025-06-26 | Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents | null | 随着多模态大型语言模型(MLLM)的发展,多模态智能体在诸如网页导航和具身智能等实际任务中展现出潜力。然而,由于缺乏外部反馈的限制,这些智能体在自我纠正和泛化方面表现不佳。一个有前景的方法是使用奖励模型作为外部反馈,但如何为智能体选择奖励模型尚不明确。因此,迫切需要构建一个针对智能体的奖励基准。为了应对这些挑战,我们提出了Agent-RewardBench,这是一个旨在评估多模态大型语言模型中奖励建模能力的基准。该基准的特点是三个关键特征:(1)多维度和真实世界智能体场景评估。它涵盖感知、规划和安全,包含7个场景;(2)步级奖励评估。它允许在任务的各个步骤评估智能体的能力,从而提供规划过程中性能的更精细视图;以及(3)适当的难度和高质量。我们仔细地从10个不同的模型中进行采样,进行难度控制以保持任务挑战性,并进行人工验证以确保数据的完整性。实验表明,即使是最先进的多模态模型也表现出有限的性能,突显了在智能体奖励建模方面进行专门训练的必要性。代码可在github上获取。 |
2025-06-26 | TRIDENT: Tri-Modal Molecular Representation Learning with Taxonomic Annotations and Local Correspondence | null | 分子性质预测旨在学习将化学结构映射到功能性质的表征。虽然多模态学习已成为学习分子表征的强大范例,但先前的工作在很大程度上忽略了分子的文本和分类信息以进行表征学习。我们介绍 TRIDENT,这是一个新颖的框架,它集成了分子 SMILES、文本描述和分类功能注释,以学习丰富的分子表征。为了实现这一目标,我们整理了一个包含分子-文本对的综合数据集,其中包含结构化的多层次功能注释。TRIDENT 没有依赖传统的对比损失,而是采用基于体积的对齐目标,以在全局层面共同对齐三模态特征,从而实现跨模态的软性、几何感知对齐。此外,TRIDENT 引入了一种新颖的局部对齐目标,可以捕获分子子结构及其相应的子文本描述之间的详细关系。一种基于动量的机制动态地平衡全局和局部对齐,使模型能够学习广泛的功能语义和细粒度的结构-功能映射。TRIDENT 在 11 项下游任务中实现了最先进的性能,证明了结合 SMILES、文本和分类功能注释对于分子性质预测的价值。 |
2025-06-26 | Style-Aligned Image Composition for Robust Detection of Abnormal Cells in Cytopathology | null | 诸如缺乏高质量标注、长尾数据分布和不一致的染色风格等挑战,对训练神经网络以稳健地检测细胞病理学中的异常细胞构成了重大障碍。本文提出了一种风格对齐的图像合成(SAIC)方法,该方法合成了高保真和风格保留的病理图像,以增强检测模型的有效性和鲁棒性。在没有额外训练的情况下,SAIC 首先基于属性指导从异常细胞库中选择合适的候选对象。然后,它采用高频特征重构来实现异常细胞和病理背景的风格对齐和高保真合成。最后,它引入了一个大型视觉语言模型来过滤高质量的合成图像。实验结果表明,结合 SAIC 合成的图像有效地提高了异常细胞检测在尾部类别和风格上的性能和鲁棒性,从而提高了整体检测性能。全面的质量评估进一步证实了 SAIC 在临床应用场景中的通用性和实用性。我们的代码将在 https://github.com/Joey-Qi/SAIC 上发布。 |
2025-06-26 | TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation | null | 三维视觉语言模型(VLM)的快速发展激发了人们对交互式点云处理任务的极大兴趣,尤其是在现实世界的应用中。然而,由于缺乏直接的3D-文本对齐,现有方法在点级任务(如分割)中通常表现不佳,限制了它们将局部3D特征与文本上下文联系起来的能力。为了解决这个问题,我们提出了TSDASeg,一个双阶段模型,结合了直接跨模态对齐模块和记忆模块,用于交互式点云分割。我们引入直接跨模态对齐模块,以建立三维点云与文本/二维图像数据之间的显式对齐。在记忆模块中,我们采用多个专用记忆库来分别存储文本特征、视觉特征以及它们的跨模态对应映射。这些记忆库通过自注意力机制和跨注意力机制被动态地利用,以基于先前存储的数据更新特定场景的特征,从而有效地解决不同场景中交互式分割结果的不一致性。在多个三维指令、参考和语义分割数据集上进行的实验表明,该方法取得了最先进的性能。 |
2025-06-26 | SharpZO: Hybrid Sharpness-Aware Vision Language Model Prompt Tuning via Forward-Only Passes | null | 微调视觉语言模型(VLMs)已在各种下游任务中取得了显著的性能;然而,这需要通过反向传播(BP)访问模型梯度,使得它们不适用于内存受限、仅用于推理的边缘设备。为了解决这个限制,之前的工作已经探索了各种无BP的微调方法。但是,这些方法通常依赖于高方差的演化策略(ES)或零阶(ZO)优化,并且常常无法获得令人满意的性能。在本文中,我们提出了一种混合的锐度感知零阶优化(SharpZO)方法,专门设计用于通过锐度感知的预热训练来增强ZO VLM微调的性能。SharpZO具有一个两阶段的优化过程:一个锐度感知的ES阶段,用于全局探索和优化损失面,以构建一个强大的初始化;然后是通过稀疏ZO优化进行细粒度的局部搜索。整个优化过程仅依赖于前向传播。对CLIP模型的详细理论分析和广泛实验表明,SharpZO显著提高了准确性和收敛速度,与最先进的仅前向方法相比,平均增益高达7%。 |
2025-06-24 | Evaluating Compliance with Visualization Guidelines in Diagrams for Scientific Publications Using Large Vision Language Models | null | 图表被广泛应用于出版物中,以实现数据的可视化。数据可视化的研究领域致力于定义创建和使用这些图表的原则和指南,但研究人员通常并不了解或遵守这些原则和指南,从而导致因提供不准确或不完整的信息而产生误导。在这项工作中,我们使用大型视觉语言模型(VLMs)来分析图表,以识别在选定的数据可视化原则和指南方面存在的潜在问题。为了确定VLMs对这些任务的适用性,我们使用一组从选定的数据可视化指南中衍生出来 10000 问题,对五个开源VLMs和五种提示策略进行了比较。结果表明,所使用的VLMs在准确分析图表类型(F1-score 82.49 %)、3D效果(F1-score 98.55 %)、轴标签(F1-score 76.74 %)、线条(RMSE 1.16)、颜色(RMSE 1.60)和图例(F1-score 96.64 %,RMSE 0.70)方面表现良好,但它们无法可靠地提供关于图像质量(F1-score 0.74 %)和刻度线/标签(F1-score 46.13 %)的反馈。在所使用的VLMs中,Qwen2.5VL表现最佳,而总结性的提示策略对于大多数实验问题表现最佳。研究表明,VLMs可用于自动识别图表中存在的许多潜在问题,例如缺少轴标签、缺少图例以及不必要的3D效果。这项工作中提出的方法可以扩展到数据可视化的更多方面。 |
2025-06-24 | CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation | null | 最近基于预训练视觉-语言模型(VLM)构建的视觉-语言-动作(VLA)模型已 демонстрирует了在 манипулиране задачи的强泛化能力。然而,它们仍然受到单帧观察范式的限制,并且无法充分利用聚合的多帧历史观察提供的运动信息,因为大型视觉-语言骨干网络引入了大量的计算成本和推理延迟。我们提出了 CronusVLA,这是一个统一的框架,通过一个高效的后训练阶段,将单帧 VLA 模型扩展到多帧范式。CronusVLA 包括三个关键组件:(1)在大规模具身数据集上进行单帧预训练,使用自回归动作 tokens 预测,从而建立具身视觉-语言基础;(2)多帧编码,在后训练期间将视觉-语言骨干网络的预测从离散动作 tokens 调整为运动特征,并将来自历史帧的运动特征聚合到特征块中;(3)跨帧解码,通过具有交叉注意力的共享解码器将特征块映射到精确的动作。通过减少冗余的 token 计算并缓存过去的运动特征,CronusVLA 实现了高效的推理。作为运动特征的应用,我们进一步提出了一种基于特征-动作检索的动作适应机制,以提高模型在微调期间的性能。CronusVLA 在 SimplerEnv 上取得了最先进的性能,成功率为 70.9%,并且在 LIBERO 上比 OpenVLA 提高了 12.7%。 реален свят Franka эксперименти също показват силните резултати и стабилност. |
2025-06-24 | UltraAD: Fine-Grained Ultrasound Anomaly Classification via Few-Shot CLIP Adaptation | null | 在医学图像中进行精确的异常检测对于临床决策至关重要。虽然最近在大型正常数据上训练的无监督或半监督异常检测方法显示出很有希望的结果,但它们缺乏细粒度的区分,例如良性肿瘤与恶性肿瘤。此外,超声 (US) 成像对设备和采集参数的变化高度敏感,从而在生成的超声图像中产生显着的域间隙。为了应对这些挑战,我们提出了一种基于视觉-语言模型 (VLM) 的方法 UltraAD,该方法利用少量 US 示例进行广义异常定位和细粒度分类。为了提高定位性能,首先将查询视觉原型的图像级令牌与可学习的文本嵌入融合。然后,将此图像信息提示特征与patch级的令牌进一步集成,从而优化局部表示以提高准确性。对于细粒度分类,从少量图像样本和相应的文本描述构建一个记忆库,以捕获解剖学和异常特异性特征。在训练期间,存储的文本嵌入保持冻结,而图像特征会进行调整,以便更好地与医学数据对齐。UltraAD已在三个乳腺超声数据集上进行了广泛评估,在病灶定位和细粒度医学分类方面均优于最先进的方法。代码将在接收后发布。 |
2025-06-24 | PEVLM: Parallel Encoding for Vision-Language Models | null | 视觉语言模型(VLMs)在视频语言任务中表现出强大的性能,但它们在长视频理解中的应用仍然受到标准注意力机制的二次复杂度的限制。在本文中,我们提出了\textbf{PEVLM},一种专门设计的并行编码策略,旨在提高VLMs的预填充效率,而无需模型微调。PEVLM将输入分割成具有共享sink的块状片段,保留全注意力位置嵌入,并对齐注意力权重以模仿全注意力分布。这种设计将注意力计算从 |
2025-06-24 | V2T-CoT: From Vision to Text Chain-of-Thought for Medical Reasoning and Diagnosis | null | 近年来,多模态技术的进步推动了医学视觉问答(Med-VQA)的显著发展。然而,现有的大多数模型侧重于全局图像特征,而非对诊断至关重要的疾病特定区域的定位。此外,当前的研究倾向于强调答案的准确性,而忽略了推理路径,但两者对于临床决策都至关重要。为了应对这些挑战,我们提出了一种从视觉到文本的思维链(V2T-CoT)的新方法,该方法可自动定位生物医学图像中的偏好区域,并将此定位整合到区域级像素注意力中,作为视觉CoT的知识。通过在构建的R-Med 39K数据集上微调视觉语言模型,V2T-CoT提供了明确的医学推理路径。V2T-CoT集成了视觉基础和文本理由生成,以建立精确且可解释的诊断结果。在四个Med-VQA基准测试上的实验结果表明,该方法具有最先进的性能,并在性能和可解释性方面都取得了显著的改进。 |
2025-06-24 | ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP | null | 持续学习 (CL) 使预训练的视觉-语言模型能够有效地适应新的或先前代表性不足的数据分布,而无需进行全面的重新训练,从而提高其适应性和效率。虽然像 CLIP 这样的视觉-语言模型显示出巨大的潜力,但它们在增量学习场景中难以维持跨领域的性能。现有的提示学习方法面临两个主要限制:1) 它们主要关注类增量学习场景,缺乏针对多领域任务增量学习的特定策略;2) 目前大多数方法采用单模态提示,忽略了跨模态信息交换的潜在好处。为了应对这些挑战,我们提出了 \ChordPrompt 框架,该框架有助于视觉和文本提示之间的和谐互动。\ChordPrompt 引入了跨模态提示,以利用视觉和文本信息之间的交互。我们的方法还采用领域自适应文本提示来选择合适的提示,以实现跨多个领域的持续适应。在多领域增量学习基准上的综合实验表明,\ChordPrompt 在零样本泛化和下游任务性能方面优于最先进的方法。 |
2025-06-24 | Fake or Real, Can Robots Tell? Evaluating Embodied Vision-Language Models on Real and 3D-Printed Objects | null | 机器人场景理解越来越多地依赖于视觉语言模型(VLMs)来生成环境的自然语言描述。在这项工作中,我们对由配备RGB相机的机械臂捕获的桌面场景的字幕策略进行了比较研究。机器人从多个视点收集物体的图像,我们评估了生成场景描述的几种模型。我们比较了各种字幕模型的性能,例如BLIP和VLM。我们的实验检验了单视图和多视图字幕之间的权衡,以及识别真实世界和3D打印物体之间的差异。我们定量评估了物体识别的准确性、完整性和生成字幕的自然性。结果表明,VLM可用于需要识别常见物体的机器人环境中,但无法推广到新的表示。我们的研究结果为在现实环境中为具身智能体部署基础模型提供了实用的见解。 |
2025-06-24 | T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with Vision-Language Models | null | 构建一个能够在真实世界环境中执行各种任务的通用机器人操作系统的任务极具挑战性。视觉-语言模型(VLMs)在机器人操作任务中展现出了卓越的潜力,这主要归功于它们从大规模数据集中获得的广泛世界知识。在此过程中,空间表征(例如表示物体位置的点或表示物体方向的向量)充当了VLMs和真实世界场景之间的桥梁,有效地将VLMs的推理能力与具体任务场景相结合。然而,现有的基于VLM的机器人方法通常对各种任务采用固定的空间表征提取方案,导致表征能力不足或提取时间过长。在这项工作中,我们引入了T-Rex,一个用于空间表征提取的任务自适应框架,该框架基于特定任务需求,动态地为每个实体选择最合适的空间表征提取方案。我们的关键见解是,任务复杂性决定了空间表征的类型和粒度,并且更强的表征能力通常与更高的整体系统运行成本相关。通过在真实世界机器人环境中的综合实验,我们表明我们的方法在空间理解、效率和稳定性方面提供了显著的优势,而无需额外的训练。 |
2025-06-24 | Da Yu: Towards USV-Based Image Captioning for Waterway Surveillance and Scene Understanding | null | 自动化的航道环境感知对于使无人水面艇(USV)了解其周围环境并做出明智的决策至关重要。目前大多数航道感知模型主要集中在实例级别的对象感知范式上(例如,检测、分割)。然而,由于航道环境的复杂性,当前的感知数据集和模型未能实现对航道的全局语义理解,从而限制了大规模监控和结构化日志生成。随着视觉-语言模型(VLM)的发展,我们利用图像描述技术推出了WaterCaption,这是首个专门为航道环境设计的描述数据集。WaterCaption专注于细粒度的、多区域的长文本描述,为视觉地理理解和空间场景认知提供了一个新的研究方向。具体来说,它包括2.02万个图像-文本对数据,词汇量达180万。此外,我们还提出了大禹,一种可边缘部署的无人水面艇多模态大型语言模型,并为此提出了一种名为Nano Transformer Adaptor(NTA)的新型视觉到语言投影器。NTA有效地平衡了计算效率与视觉特征的全局和细粒度局部建模能力,从而显著增强了模型生成长文本输出的能力。大禹在性能和效率之间实现了最佳平衡,在WaterCaption和其他几个图像描述基准测试中均超越了最先进的模型。 |
2025-06-24 | MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models | null | 视觉-语言模型(VLMs)通过增强的思维链能力,在多模态推理任务中取得了显著进展。然而,这种进步也带来了新的安全风险,因为这些模型越来越容易受到有害的多模态提示的影响,从而可能触发不道德或不安全的行为。现有的安全对齐方法主要为单模态语言模型设计,不足以应对多模态输入带来的复杂和细微的威胁。此外,当前的安全数据集缺乏细粒度的、以策略为基础的推理,而这种推理是稳健对齐具有推理能力的VLM所必需的。在这项工作中,我们介绍了{MSR-Align},这是一个高质量的多模态安全推理数据集,旨在弥合这一差距。MSR-Align支持在视觉和文本模态中,对标准化安全策略进行细粒度的、审慎的推理。我们的数据生成流程强调多模态多样性、以策略为基础的推理,以及使用强大的多模态评判器进行严格的质量过滤。大量的实验表明,在MSR-Align上对VLM进行微调,可以显著提高对文本和视觉-语言越狱攻击的鲁棒性,同时保持或提高一般的推理性能。MSR-Align为推进具有推理能力的VLM的安全对齐提供了一个可扩展且有效的基础。我们的数据集已在https://huggingface.co/datasets/Leigest/MSR-Align上公开提供。 |
2025-06-20 | VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning | null | 视觉-语言导航(VLN)是具身人工智能中的一个核心挑战,它要求智能体使用自然语言指令在真实世界的环境中导航。当前的基于语言模型的导航系统在离散的拓扑图上运行,从而将路径规划限制在预定义的节点连接上。我们提出了VLN-R1,这是一个端到端的框架,它利用大型视觉-语言模型(LVLM)直接将以自我为中心的视频流转换为连续的导航动作,并采用受DeepSeek-R1启发的基于GRPO的训练方法。为了实现有效的训练,我们首先使用3D模拟器Habitat构建VLN-Ego数据集,并提出长短时记忆采样来平衡历史和当前的观察结果。虽然大型语言模型可以监督完整的文本指令,但它们缺乏细粒度的动作级控制。我们的框架采用两阶段训练方法:a) 监督式微调(SFT),用于将模型的动作序列文本预测与专家演示对齐;b) 强化微调(RFT),通过时间衰减奖励(TDR)机制进行增强,该机制策略性地加权多步未来动作。实验结果表明,VLN-R1在VLN-CE基准测试中取得了优异的性能。VLN-R1证明了LVLM可以驱动具身导航,并通过数据高效、奖励驱动的后训练来增强特定于任务的推理能力。 |
2025-06-20 | Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens | link | 视觉-语言模型(VLM)擅长多模态理解,但其纯文本解码方式迫使它们将视觉推理进行言语化,限制了在需要视觉想象的任务上的表现。最近的一些尝试训练VLM来渲染显式图像,但繁重的图像生成预训练常常会阻碍推理能力。受到人类通过心理意象进行推理的方式——即内部构建和操纵视觉线索——的启发,我们研究了VLM是否可以通过交错的多模态轨迹进行推理,而无需生成显式图像。为此,我们提出了一个机器心理意象框架,名为Mirage,它用潜在的视觉令牌增强了VLM解码,与普通文本一起使用。具体而言,每当模型选择“以视觉方式思考”时,它会将隐藏状态重铸为下一个令牌,从而在不生成像素级图像的情况下继续多模态轨迹。首先通过从真实图像嵌入中提炼来监督潜在令牌,然后我们切换到纯文本监督,以使潜在轨迹与任务目标紧密对齐。随后的强化学习阶段进一步增强了多模态推理能力。在各种基准上的实验表明,Mirage在没有显式图像生成的情况下,能够释放更强大的多模态推理能力。 |
2025-06-20 | Do We Need Large VLMs for Spotting Soccer Actions? | null | 传统的基于视频的任务,如足球动作识别,严重依赖视觉输入,通常需要复杂且计算成本高的模型来处理密集的视频数据。在这项工作中,我们提出了一种从以视频为中心的方法到以文本为中心的任务的转变,通过使用大型语言模型(LLM)而不是视觉-语言模型(VLM),使其变得轻量级且可扩展。我们认为,专家评论提供了丰富、细致的描述和上下文线索,如兴奋度和战术见解,包含足够的信息来可靠地识别比赛中的关键动作。为了证明这一点,我们使用了SoccerNet Echoes数据集,该数据集提供了带有时间戳的评论,并采用了一个由三个LLM组成的系统,这些LLM充当专门评估结果、兴奋度和战术的裁判。每个LLM评估评论的滑动窗口,以识别进球、红黄牌和换人等动作,并为这些事件生成准确的时间戳。我们的实验表明,这种以语言为中心的方法在检测关键比赛事件方面表现有效,为传统的基于视频的动作识别方法提供了一种轻量级且无需训练的替代方案。 |
2025-06-20 | MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models | null | 多模态大型语言模型(MLLM)在众多视觉语言任务中表现出显著的进步。由于其强大的图像-文本对齐能力,MLLM可以有效地理解具有明确含义的图像-文本对。然而,有效解决自然语言和视觉环境中固有的歧义仍然具有挑战性。现有的多模态基准测试通常忽略语言和视觉歧义,主要依靠单模态上下文进行消歧,因此未能充分利用模态之间的相互澄清潜力。为了弥合这一差距,我们引入了MUCAR,这是一个新颖且具有挑战性的基准,专门用于评估多语言和跨模态场景中的多模态歧义消除。MUCAR包括:(1)一个多语言数据集,其中歧义的文本表达通过相应的视觉上下文得到唯一解决;(2)一个双重歧义数据集,该数据集系统地将歧义图像与歧义文本上下文配对,每种组合都经过精心构建,以通过相互消歧产生单一、清晰的解释。涉及19个最先进的多模态模型(包括开源和专有架构)的广泛评估表明,与人类水平的表现相比存在巨大差距,突显了未来需要研究更复杂的跨模态歧义理解方法,从而进一步推动多模态推理的边界。 |
2025-06-20 | Prmpt2Adpt: Prompt-Based Zero-Shot Domain Adaptation for Resource-Constrained Environments | null | 无监督领域自适应(UDA)是现实世界视觉系统中的一项关键挑战,尤其是在无人机等资源受限的环境中,这些环境的内存和计算能力有限。现有的提示驱动的UDA方法通常依赖于大型视觉-语言模型,并且在自适应期间需要完全访问源域数据,从而限制了它们的适用性。在这项工作中,我们提出Prmpt2Adpt,这是一个轻量级且高效的零样本领域自适应框架,该框架围绕着一个由基于提示的特征对齐引导的师生范式构建。我们方法的核心是一个经过提炼和微调的CLIP模型,用作Faster R-CNN教师的冻结骨干。一小组低级源特征通过提示驱动的实例归一化(PIN)与目标域语义对齐,而目标域语义仅通过自然语言提示指定。这些语义引导的特征用于简要地微调教师模型的检测头。然后,自适应的教师生成高质量的伪标签,这些伪标签指导紧凑型学生模型的即时自适应。在MDS-A数据集上的实验表明,与最先进的方法相比,Prmpt2Adpt实现了具有竞争力的检测性能,同时使用少量源图像实现了高达7倍的更快自适应速度和5倍的更快推理速度,使其成为低资源领域中实时自适应的实用且可扩展的解决方案。 |
2025-06-20 | FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation | null | 最近的大型视觉语言模型(LVLMs)在统一视觉理解和生成建模方面展现出很有希望的能力,既能实现准确的内容理解,又能实现灵活的编辑。然而,目前的方法将“看什么”和“如何编辑”分开处理:它们要么执行孤立的对象分割,要么仅将分割掩码用作局部编辑生成任务的条件提示,通常依赖于多个不相关的模型。为了弥合这些差距,我们引入了FOCUS,这是一个统一的LVLM,它在端到端框架内集成了分割感知的感知和可控的以对象为中心的生成。FOCUS采用双分支视觉编码器来同时捕获全局语义上下文和细粒度的空间细节。此外,我们利用基于MoVQGAN的视觉tokenizer来生成离散的视觉tokens,从而提高生成质量。为了实现准确且可控的图像编辑,我们提出了一种渐进的多阶段训练pipeline,其中分割掩码被联合优化,并用作空间条件提示来指导扩散解码器。该策略对齐了视觉编码、分割和生成模块,有效地将分割感知的感知与细粒度的视觉合成连接起来。在包括多模态理解、指代分割准确性和可控图像生成这三个核心任务中进行的大量实验表明,FOCUS通过联合优化视觉感知和生成能力来实现强大的性能。 |
2025-06-20 | Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes | null | 人类展现出一种卓越的能力,能够识别共视性——即在多个图像中可见的重叠区域——即使这些图像稀疏地分布在一个复杂的场景中。这种能力是3D视觉和机器人感知的基础。尽管视觉学习取得了显著进展,但目前尚不清楚当前的视觉模型在共视性分析方面是否达到了人类水平的熟练程度。在这项工作中,我们推出了共视性推理(Co-VisiON)基准,旨在直接评估超过1000个室内场景中稀疏图像集上的共视性推理。我们的实验表明,虽然共视性通常被视为一个低级特征匹配任务,但它对现有视觉模型在稀疏条件下提出了重大挑战。值得注意的是,一个专有的视觉-语言模型优于所有纯视觉方法,但所有模型都大大落后于人类的表现。这一差距 подчеркивает 需要不仅仅是基本的成对视觉处理——它需要通过跨多个视图的高级推理来实现全面的空间理解。受到人类视觉认知的启发,我们提出了一种新的多视图基线Covis,它在纯视觉模型中实现了最佳性能,并缩小了与专有VLM的差距。我们希望我们的基准和发现将 стимулировать 在开发能够在具有挑战性的稀疏环境中进行稳健的高级推理的视觉模型方面取得进一步的进展。我们的数据集和源代码可以在以下网址找到:https://ai4ce.github.io/CoVISION |
2025-06-20 | Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models | null | 大型视觉语言模型(LVLMs)在多模态任务中表现出卓越的性能,但仍然容易受到越狱攻击的影响,这些攻击会绕过内置的安全机制以诱导生成受限内容。现有的黑盒越狱方法主要依赖于对抗性文本提示或图像扰动,然而这些方法很容易被标准的内容过滤系统检测到,并且查询和计算效率较低。在这项工作中,我们提出了一种新颖的黑盒越狱攻击框架,即跨模态对抗多模态混淆(CAMO),它将恶意提示分解为语义上良性的视觉和文本片段。通过利用LVLMs的跨模态推理能力,CAMO通过多步骤推理隐蔽地重建有害指令,从而避开传统的检测机制。我们的方法支持可调整的推理复杂性,并且比先前的攻击需要明显更少的查询,从而实现了隐蔽性和效率。在领先的LVLMs上进行的全面评估验证了CAMO的有效性,展示了强大的性能和强大的跨模型可迁移性。这些结果突出了当前内置安全机制中的重大漏洞,强调了在视觉语言系统中迫切需要先进的、对齐感知的安全解决方案。 |
2025-06-20 | TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion | null | 红外与可见光图像融合(IVF)旨在结合两种图像模态的互补信息,产生更具信息量和更全面的输出。 近年来,文本引导的IVF由于其灵活性和通用性而显示出巨大的潜力。 然而,对文本语义信息的有效整合和利用仍研究不足。 为了应对这些挑战,我们引入了两个层次的文本语义:掩码语义级别和文本语义级别,两者都源自大型视觉语言模型(VLM)提取的文本描述。 在此基础上,我们提出了一种用于红外与可见光图像融合的文本语义引导方法,称为TeSG,该方法以针对下游任务(如检测和分割)优化的方式指导图像合成过程。 具体来说,TeSG由三个核心组件组成:语义信息生成器(SIG)、掩码引导交叉注意力(MGCA)模块和文本驱动注意力融合(TDAF)模块。 SIG基于文本描述生成掩码和文本语义。 MGCA模块在掩码语义的指导下,对来自红外和可见光图像的视觉特征进行基于注意力的初始融合。 最后,TDAF模块通过文本语义驱动的门控注意力来细化融合过程。 大量实验表明,与现有的最先进方法相比,我们的方法具有竞争力,尤其是在下游任务的性能方面。 |
2025-06-20 | LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation | null | 尽管大型视觉语言模型(LVLMs)取得了令人瞩目的进展,但现有方法仍面临一个根本瓶颈:低效的视觉语言融合。当前的方法要么破坏了模型的固有结构,要么引入了严重的长期上下文计算负担,严重限制了可扩展性和效率。在本文中,我们重新思考了多模态融合,并提出了LaVi,一种新型LVLM,它通过大型语言模型(LLMs)内部的特征调制,实现无缝且高效的视觉语言融合。与依赖视觉token连接的主流LVLM不同,LaVi通过引入轻量级和自适应的转换来绕过长期上下文扩展,该转换通过将token级别的视觉条件delta注入到层归一化的仿射参数中来整合视觉上下文。这种机制直接基于视觉输入来调节语言隐藏状态,确保精确的视觉语言对齐,同时保留LLM的语言先验知识,并大幅降低计算成本。在15个图像和视频基准上的广泛评估表明,LaVi不仅实现了最先进的多模态性能,而且显著提高了效率。与LLaVA-OV-7B相比,LaVi减少了94.0%的FLOPs,提高了3.1倍的推理速度,并将内存使用量减少了一半——这确立了LaVi作为实时多模态推理的可扩展和实用的解决方案。代码和模型即将发布。 |
2025-06-13 | Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale | null | 基于自然语言交互描述的 affordance 区域定位是智能体理解环境并与之交互的关键挑战。然而,由于需要细粒度的部件级定位、多个有效交互区域引起的歧义以及大规模数据集的稀缺,这项任务仍然具有挑战性。在这项工作中,我们推出了 Affogato,这是一个大规模基准,包含 15 万个实例,并带有开放词汇文本描述和跨各种对象和交互的相应 3D affordance 热图的注释。在此基准的基础上,我们开发了简单而有效的视觉语言模型,该模型利用了预训练的部件感知视觉骨干网络和文本条件热图解码器。我们使用 Affogato 数据集训练的模型在现有的 2D 和 3D 基准上取得了可喜的性能,并且值得注意的是,在开放词汇跨域泛化方面表现出了有效性。Affogato 数据集已公开发布:https://huggingface.co/datasets/project-affogato/affogato |
2025-06-13 | Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation | null | 视觉-语言翻译(VLT)是一项具有挑战性的任务,它需要准确识别图像中嵌入的多语种文本,并在视觉上下文的支持下将其翻译成目标语言。虽然最近的大型视觉-语言模型(LVLM)已经展示出强大的多语种和视觉理解能力,但对于它们在VLT上的性能,仍然缺乏系统的评估和理解。在这项工作中,我们从三个关键角度对VLT进行了全面的研究:数据质量、模型架构和评估指标。(1) 我们发现了现有数据集的关键局限性,尤其是在语义和文化保真度方面,并推出了AibTrans——一个多语种、并行、人工验证的数据集,带有OCR校正的注释。(2) 我们对11个商业LVLM/LLM和6个最先进的开源模型进行了基准测试,涵盖端到端和级联架构,揭示了它们对OCR的依赖性,并对比了生成与推理行为。(3) 我们提出了密度感知评估,以解决不同上下文复杂性下指标可靠性的问题,引入了DA评分作为翻译质量的更可靠衡量标准。基于这些发现,我们为VLT建立了一个新的评估基准。值得注意的是,我们观察到在高资源语言对上微调LVLM会降低跨语言性能,因此我们提出了一种平衡的多语种微调策略,可以有效地使LVLM适应VLT,而不会牺牲它们的泛化能力。 |
2025-06-13 | MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space | null | 视觉-语言模型(VLMs)在解释视觉布局和文本方面表现出了卓越的能力。然而,它们在稳健地解释和推理以图像形式呈现的多表格数据方面的能力仍然面临着巨大的挑战,这种情况在网页和数字文档等现实场景中很常见。现有的基准测试通常针对单个表格或非视觉数据(文本/结构化数据)。这就留下了一个关键的空白:它们没有评估解析各种表格图像、关联它们之间的信息以及对组合的视觉数据执行多跳推理的能力。我们引入了MTabVQA,这是一个专门为多表格视觉问答设计的新基准测试,旨在弥合这一差距。MTabVQA包含3,745个复杂的问题-答案对,这些问题-答案对需要跨多个视觉渲染的表格图像进行多跳推理。我们提供了最先进的VLMs在MTabVQA上的广泛基准测试结果,揭示了显著的性能限制。我们进一步研究了后训练技术以增强这些推理能力,并发布了MTabVQA-Instruct,一个大规模的指令调优数据集。我们的实验表明,使用MTabVQA-Instruct对VLMs进行微调可以显著提高它们在视觉多表格推理方面的性能。代码和数据集(https://huggingface.co/datasets/mtabvqa/MTabVQA-Eval)在线可用(https://anonymous.4open.science/r/MTabVQA-EMNLP-B16E)。 |
2025-06-13 | VLM@school -- Evaluation of AI image understanding on German middle school knowledge | null | 本文介绍了一种新的基准数据集,旨在评估视觉语言模型 (VLM) 在德语环境中,结合视觉推理与特定领域背景知识的任务上的能力。与广泛使用的英语基准数据集(通常依赖于人为制造的难题或脱离语境的问题)不同,该数据集来源于九个领域(包括数学、历史、生物和宗教)的真实中学课程。该基准包括 2000 多个基于 486 张图片的开放式问题,确保模型必须整合视觉解释与事实推理,而不是依赖于表面的文本线索。我们评估了 13 个最先进的开放权重 VLM 在多个维度上的表现,包括特定领域的准确性和对抗性生成问题上的性能。我们的研究结果表明,即使是最强大的模型,其总体准确率也低于 45%,尤其在音乐、数学和对抗性设置中表现较差。此外,结果表明,在流行的基准测试上的成功与现实世界的多模态理解之间存在显著差异。我们得出结论,中学水平的任务为压力测试 VLM 提供了一条有意义且未被充分利用的途径,尤其是在非英语环境中。该数据集和评估协议作为一个严格的试验平台,可以更好地理解和提高未来人工智能系统的视觉和语言推理能力。 |
2025-06-13 | Investigating Vulnerabilities and Defenses Against Audio-Visual Attacks: A Comprehensive Survey Emphasizing Multimodal Models | null | 多模态大型语言模型(MLLM)弥合了视听和自然语言处理之间的差距,并在多个视听任务上实现了最先进的性能。尽管MLLM具有卓越的性能,但高质量视听训练数据和计算资源的稀缺性,使得利用第三方数据和开源MLLM成为必要,这种趋势在当代研究中越来越常见。这种繁荣掩盖了重大的安全风险。实证研究表明,最新的MLLM可以被操纵以产生恶意或有害的内容。这种操纵完全通过指令或输入来实现,包括对抗性扰动和恶意查询,从而有效地绕过了模型内部嵌入的安全机制。为了更深入地理解与基于视听的多模态模型相关的固有安全漏洞,一系列调查研究了各种类型的攻击,包括对抗性攻击和后门攻击。虽然现有的关于视听攻击的调查提供了全面的概述,但它们仅限于特定类型的攻击,缺乏对各种类型攻击的统一审查。为了解决这个问题并深入了解该领域的最新趋势,本文对视听攻击进行了全面而系统的回顾,其中包括对抗性攻击、后门攻击和越狱攻击。此外,本文还回顾了最新基于视听的MLLM中的各种类型的攻击,这是现有调查中明显缺失的一个维度。本文从大量审查中获得的全面见解出发,描述了未来视听攻击和防御研究的挑战和新兴趋势。 |
2025-06-13 | Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs | null | 双塔视觉-语言模型(VLMs)已在各种下游视觉语言任务中表现出强大的性能。虽然BridgeTower通过在编码器之间建立桥梁进一步提高了性能,但它\textit{(i)} 存在单模态表示的逐层利用效率低下的问题,\textit{(ii)} 限制了对不同层次的单模态语义知识的灵活利用,并且\textit{(iii)} 仅限于使用双塔VLM架构在传统的低分辨率数据集上进行评估。在这项工作中,我们提出了Manager,一个轻量级、高效且有效的插件,可以自适应地聚合来自不同层次的预训练单模态专家的见解,以促进更全面的视觉语言对齐和融合。首先,在双塔VLM架构下,我们引入了ManagerTower,这是一种新型VLM,在每个跨模态层中引入了管理器。无论是否进行视觉语言预训练,ManagerTower都优于之前的强大基线,并在4个下游视觉语言任务上取得了优异的性能。此外,我们将探索扩展到最新的多模态大型语言模型(MLLM)架构。我们证明了LLaVA-OV-Manager显著提高了LLaVA-OV在20个下游数据集上不同类别的功能、图像和分辨率的零样本性能,无论是否启用多网格算法。深入分析表明,我们的管理器和多网格算法都可以被视为一个插件,通过从两个正交的角度(深度和宽度)捕获更多样化的视觉细节来改善视觉表示。它们的协同作用可以减轻多网格算法引起的语义模糊,并进一步提高性能。代码和模型可在https://github.com/LooperXX/ManagerTower上找到。 |
2025-06-13 | Taming Stable Diffusion for Computed Tomography Blind Super-Resolution | null | 高分辨率计算机断层扫描(CT)成像对于医学诊断至关重要,但需要增加辐射暴露,这在图像质量和患者安全之间造成了关键的权衡。虽然深度学习方法在CT超分辨率方面显示出希望,但它们面临着复杂退化和有限医学训练数据的挑战。同时,大规模预训练扩散模型,特别是Stable Diffusion,已经在各种视觉任务中展示了合成精细细节的卓越能力。受此启发,我们提出了一个新颖的框架,该框架适用于CT盲超分辨率的Stable Diffusion。我们采用实用的退化模型来合成逼真的低质量图像,并利用预训练的视觉-语言模型来生成相应的描述。随后,我们使用具有专门控制策略的Stable Diffusion执行超分辨率,该策略以低分辨率输入和生成的文本描述为条件。大量实验表明,我们的方法优于现有方法,证明了其在降低辐射剂量下实现高质量CT成像的潜力。我们的代码将公开提供。 |
2025-06-13 | On the Natural Robustness of Vision-Language Models Against Visual Perception Attacks in Autonomous Driving | null | 自动驾驶车辆(AV)依赖于深度神经网络(DNN)来执行诸如交通标志识别(TSR)、自动车道居中(ALC)和车辆检测(VD)等关键任务。然而,这些模型容易受到攻击,可能导致错误分类并危及安全。包括对抗训练在内的传统防御机制通常会降低良性准确率,并且无法推广到未见过的攻击。在这项工作中,我们引入了车辆视觉语言模型(V2LM),这是一种专门为AV感知而微调的视觉-语言模型。我们的研究结果表明,V2LM本身就表现出对未见过的攻击的卓越鲁棒性,而无需对抗训练,并且在对抗条件下保持比传统DNN显著更高的准确率。我们评估了两种部署策略:单人模式,其中单个V2LM处理特定的感知任务;以及串联模式,其中单个统一的V2LM同时针对多个任务进行微调。实验结果表明,在攻击下,DNN的性能下降了33%到46%,而V2LM保持了对抗准确率,平均降幅小于8%。串联模式进一步提供了一种内存效率高的替代方案,同时实现了与单人模式相当的鲁棒性。我们还探索了将V2LM集成作为AV感知的并行组件,以增强对对抗威胁的抵御能力。我们的结果表明,V2LM为实现更安全和更具弹性的AV感知系统提供了一条有希望的途径。 |
2025-06-13 | Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables | null | 化学表格通过符号表达式、结构化变量和嵌入式分子图形编码了复杂的实验知识。现有的基准测试在很大程度上忽略了这种多模态和领域特定的复杂性,限制了多模态大型语言模型在化学领域支持科学理解的能力。在这项工作中,我们引入了ChemTable,这是一个大规模的真实化学表格基准,它来源于文献的实验部分。ChemTable包括专家注释的单元格多边形、逻辑布局和领域特定的标签,包括试剂、催化剂、产率和图形组件,并支持两个核心任务:(1)表格识别,涵盖结构解析和内容提取;(2)表格理解,包括基于表格结构和领域语义的描述性和推理型问答。我们评估了一系列具有代表性的多模态模型,包括开源和闭源模型,并在ChemTable上报告了一系列具有实践和概念性见解的发现。虽然模型在基本的布局解析上表现出合理的性能,但与人类的表现相比,它们在描述性和推理型问答任务上都表现出很大的局限性,并且我们观察到开源和闭源模型在多个维度上存在显著的性能差距。这些结果强调了化学感知表格理解的挑战,并将ChemTable定位为推进科学推理的严格而真实的基准。 |
2025-06-12 | Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving | null | 我们提出了Poutine,一个拥有30亿参数的视觉语言模型(VLM),专为长尾驾驶场景中的端到端自动驾驶而定制。Poutine的训练分为两个阶段。为了获得强大的基础驾驶能力,我们以自监督的视觉-语言-轨迹(VLT)下一令牌预测方式,在83小时的CoVLA标称驾驶和11小时的Waymo长尾驾驶数据上训练Poutine-Base。随附的语言注释由一个720亿参数的VLM自动生成。通过使用来自Waymo验证集的少于500个偏好标记帧,利用Group Relative Policy Optimization(GRPO)对Poutine-Base进行微调,从而获得最终的Poutine模型。我们证明了VLT预训练和强化学习微调对于在长尾中获得强大的驾驶性能至关重要。Poutine-Base在验证集上实现了8.12的评分员反馈分数(RFS),几乎与Waymo的专家真实RFS相匹配。最终的Poutine模型在Waymo官方测试集上实现了7.99的RFS,在2025年Waymo基于视觉的端到端驾驶挑战赛中以显著优势获得第一名。这些结果突显了可扩展的VLT预训练和轻量级强化学习微调在实现稳健且可泛化的自主性方面的潜力。 |
2025-06-12 | Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction | null | 在自然条件下进行语音情感识别(SER)对语音处理领域提出了重大挑战。这些挑战包括标注者之间在标签上的不一致以及数据分布的不平衡。本文介绍了一个可复现的框架,该框架在自然条件下情感识别挑战赛(IS25-SER挑战赛)的任务2中取得了优异(第一名)的性能,该挑战赛在MSP-Podcast数据集上进行评估。我们的系统旨在通过多模态学习、多任务学习和不平衡数据处理来应对上述挑战。具体来说,我们最好的系统是通过添加文本嵌入、预测性别以及在训练集中包含“其他”(O)和“无协议”(X)样本来训练的。我们的系统在IS25-SER挑战赛中获得了第一名和第二名,其中最佳性能是通过一个简单的双系统集成实现的。 |
2025-06-12 | AIR: Zero-shot Generative Model Adaptation with Iterative Refinement | link | 零样本生成模型适配 (ZSGM) 旨在仅使用文本指导,无需来自目标域的任何样本,即可将预训练的生成器适配到目标域。最近的 ZSGM 方法的核心是方向损失,它以图像偏移与视觉-语言模型(如 CLIP)的嵌入空间中的文本偏移对齐的形式使用文本指导。这类似于自然语言处理中的类比推理,其中一对词之间的偏移用于通过对齐这两对之间的偏移来识别另一对中缺失的元素。然而,现有 ZSGM 方法的一个主要限制是,学习目标假设 CLIP 嵌入空间中图像偏移和文本偏移之间的完全对齐,从而导致生成图像的质量下降。我们的工作做出了两个主要贡献。受到自然语言处理中偏移未对齐研究的启发,作为我们的第一个贡献,我们进行了一项实证研究,以分析各种大型公开可用数据集中 CLIP 嵌入空间中文本偏移和图像偏移之间的未对齐情况。我们的重要发现是,CLIP 嵌入空间中的偏移未对齐与概念距离相关,即,接近的概念具有较小的偏移未对齐。为了解决当前方法的局限性,作为我们的第二个贡献,我们提出了迭代细化适配 (AIR),这是第一个基于我们对偏移未对齐的新见解,专注于提高目标域图像质量的 ZSGM 方法。在 26 个实验设置中的定性、定量和用户研究一致表明,所提出的 AIR 方法实现了 SOTA 性能。更多实验在补充材料中。 |
2025-06-12 | RationalVLA: A Rational Vision-Language-Action Model with Dual System | null | 在现实世界中部署机器人的一项基本要求是具备理解和响应自然语言指令的能力。现有的语言条件操作任务通常假设指令与环境完全对齐。这种假设限制了在实际场景中的鲁棒性和泛化能力,因为在实际场景中指令可能是模糊的、不相关的或不可行的。为了解决这个问题,我们引入了理性操作(RAMA),这是一个新的基准,它用未见过的可执行指令和应该被拒绝的有缺陷的指令来挑战模型。在RAMA中,我们构建了一个包含超过14,000个样本的数据集,其中包括跨越六个维度的各种有缺陷的指令:视觉、物理、语义、运动、安全和脱离上下文。我们进一步提出了理性视觉-语言-动作模型(RationalVLA)。它是一个用于机械臂的双重系统,通过引入可学习的潜在空间嵌入,将高层视觉-语言模型与低层操作策略集成在一起。这种设计使RationalVLA能够推理指令,拒绝不可行的命令,并有效地执行操作。实验表明,RationalVLA在RAMA上优于最先进的基线,成功率提高了14.5%,平均任务长度提高了0.94,同时在标准操作任务上保持了具有竞争力的性能。真实世界的试验进一步验证了其在实际应用中的有效性和鲁棒性。我们的项目页面是https://irpn-eai.github.io/rationalvla。 |
2025-06-12 | Prompts to Summaries: Zero-Shot Language-Guided Video Summarization | null | 视频数据的爆炸式增长,加剧了对灵活的、用户可控的摘要工具的需求,这些工具无需特定领域的训练数据即可运行。现有方法要么依赖数据集,限制了泛化能力,要么无法结合以自然语言表达的用户意图。我们引入了Prompts-to-Summaries:第一个零样本、文本可查询的视频摘要器,它通过大型语言模型(LLM)的判断,将现成的视频-语言模型(VidLM)的字幕转换为用户引导的略读,完全不使用训练数据,击败了所有无监督方法,并与有监督方法相媲美。我们的流程包括:(i)将原始视频片段分割成连贯的场景,(ii)通过一种内存高效的、批量式VidLM提示方案生成丰富的场景级描述,该方案可在单个GPU上扩展到数小时的视频,(iii)利用LLM作为判断器,在精心设计的提示下分配场景级重要性分数,最后,(iv)通过两个新的指标:一致性(时间连贯性)和独特性(新颖性),将这些分数传播到短片段级别,从而产生细粒度的帧重要性。在SumMe和TVSum上,我们的无数据方法超越了所有先前依赖数据的无监督方法。尽管没有使用训练数据,并且竞争方法需要有监督的帧级重要性,但它在Query-Focused Video Summarization (QFVS) 基准测试中也表现出竞争力。为了促进进一步的研究,我们发布了VidSum-Reason,这是一个新的查询驱动数据集,具有长尾概念和多步骤推理;我们的框架获得了强大的F1分数,并作为第一个具有挑战性的基线。总的来说,我们的结果表明,预训练的多模态模型,当通过有原则的提示和分数传播进行协调时,已经为通用的、文本可查询的视频摘要提供了强大的基础。 |
2025-06-12 | IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain | link | 视觉语言模型(如CLIP)的最新进展显著提高了零样本和少样本异常检测(ZFSAD)任务的性能。然而,大多数现有的基于CLIP的方法都假定具备类别先验知识,并依赖于为特定场景量身定制的精心设计的提示。虽然这些文本提示捕获了文本空间中的语义信息,但它们通常无法区分联合嵌入空间中的正常实例和异常实例。此外,大多数ZFSAD方法都侧重于工业领域,在医疗任务中的探索有限。为了解决这些局限性,我们提出了一种名为IQE-CLIP的新型框架,用于医疗领域的ZFSAD。我们表明,集成文本和实例感知视觉信息的查询嵌入可以作为更有效的异常指标。具体来说,我们引入了基于类别的和可学习的提示令牌,以使CLIP更好地适应医疗环境。此外,我们设计了一个实例感知查询模块,该模块从两种模态中提取区域级上下文信息,从而能够生成异常敏感的嵌入。在六个医疗数据集上进行的大量实验表明,IQE-CLIP在零样本和少样本设置中均实现了最先进的性能。代码和数据可在\href{https://github.com/hongh0/IQE-CLIP/}{this https URL}获取。 |
2025-06-12 | GigaVideo-1: Advancing Video Generation via Automatic Feedback with 4 GPU-Hours Fine-Tuning | null | 扩散模型近期的进展极大地提高了视频生成的质量,但这些模型仍然需要进行微调,以改善诸如实例保持、运动合理性、构图和物理合理性等特定维度。现有的微调方法通常依赖于人工标注和大规模计算资源,限制了它们的实用性。在这项工作中,我们提出了GigaVideo-1,一个高效的微调框架,无需额外的人工监督即可推进视频生成。GigaVideo-1没有从外部来源注入大量高质量数据,而是通过自动反馈解锁预训练视频扩散模型的潜在能力。具体来说,我们专注于微调过程的两个关键方面:数据和优化。为了改进微调数据,我们设计了一个提示驱动的数据引擎,该引擎构建多样化的、面向弱点的训练样本。在优化方面,我们引入了一种奖励引导的训练策略,该策略使用来自具有真实感约束的预训练视觉-语言模型的反馈自适应地加权样本。我们使用Wan2.1作为基线,在VBench-2.0基准上对GigaVideo-1进行了评估,涵盖17个评估维度。实验表明,GigaVideo-1在几乎所有维度上都持续提高了性能,仅使用4个GPU小时,平均增益约为4%。GigaVideo-1无需手动标注和最少的真实数据,展示了有效性和效率。代码、模型和数据将公开提供。 |
2025-06-12 | Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning | null | 受益于图文对比学习,预训练的视觉-语言模型,例如CLIP,允许直接利用文本作为图像(TaI)进行参数高效的微调(PEFT)。虽然CLIP能够使图像特征与相应的文本特征相似,但模态差异仍然是一个不容忽视的问题,并限制了TaI的图像识别性能。以多标签图像识别(MLR)为例,我们提出了一种名为T2I-PAL的新方法,以解决仅使用文本描述进行PEFT时的模态差异问题。T2I-PAL的核心设计是利用预训练的文本到图像生成模型,从文本描述中生成照片般逼真且多样的图像,从而缩小模态差异。为了进一步增强MLR,T2I-PAL结合了类别热图和可学习原型。这聚合了局部相似性,使得局部视觉特征的表示对于多标签识别更加鲁棒和信息丰富。为了更好地进行PEFT,我们进一步结合了提示调优和适配器学习,以提高分类性能。T2I-PAL具有显著的优势:它无需完全语义标注的训练图像,从而减少了手动标注工作量,并且保留了CLIP模型的内在模式,允许与任何现有的CLIP框架无缝集成。在包括MS-COCO、VOC2007和NUS-WIDE在内的多个基准数据集上的大量实验表明,我们的T2I-PAL能够比排名最高的先进方法平均提高3.47%的识别性能。 |
2025-06-12 | Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation | null | 大型语言模型(LLM)的最新进展使得多模态基础模型能够在统一的框架内处理图像理解和生成任务。尽管取得了这些进展,但统一模型在任一任务中的表现通常不如专门模型。开发统一模型的关键挑战在于图像理解与生成所需的视觉特征之间的固有差异,以及每种模态所需的不同的训练过程。在这项工作中,我们介绍了一种自回归多模态基础模型Pisces,它通过一种新颖的解耦视觉编码架构和为多模态生成优化的定制训练技术来应对这一挑战。结合细致的数据管理、预训练和微调,Pisces在图像理解和图像生成方面都取得了具有竞争力的性能。我们在超过20个图像理解公共基准上评估了Pisces,结果表明它在各种任务中都表现出色。此外,在广泛采用的图像生成基准GenEval上,Pisces表现出强大的生成能力。我们广泛的分析揭示了图像理解和生成之间的协同关系,以及使用单独的视觉编码器的优势,从而推动了统一多模态模型领域的发展。 |
2025-06-12 | Demonstrating Multi-Suction Item Picking at Scale via Multi-Modal Learning of Pick Success | null | 这项工作展示了如何从工业规模的已部署工程解决方案的稀疏标记真实世界数据中自主学习机器人操作的各个方面,从而提供能够实现改进性能的解决方案。具体而言,它侧重于多吸盘机器人抓取,并对多模态视觉编码器在预测候选机器人抓取成功率方面的应用进行了全面研究。从非结构化堆中抓取各种物品是现实世界环境中(如仓库)机器人操作的一项重要且具有挑战性的任务。从杂乱中抓取物品的方法必须适用于开放的物品集合,同时满足延迟约束以实现高吞吐量。所展示的方法利用多种输入模态,例如RGB、深度和语义分割,来估计候选多吸盘抓取的质量。该策略通过真实世界的物品抓取数据进行训练,结合了多模态预训练和微调。该手稿提供了在大型物品抓取数据集、旨在包含部分遮挡的物品抓取数据集以及包装抓取数据集上进行的全面实验评估,其中包装抓取数据集侧重于容器(如盒子和信封),而不是未包装的物品。评估衡量了不同物品配置、抓取场景和对象类型的性能。消融实验有助于理解领域内预训练的效果、不同模态的影响以及微调的重要性。这些消融实验揭示了在多种模态上进行训练的重要性,以及模型在预训练期间学习模态之间关系的能力,从而在微调和推理期间,仅可以使用其中的一个子集作为输入。 |
2025-06-12 | Using Vision Language Models to Detect Students' Academic Emotion through Facial Expressions | null | 学生的情绪会显著影响他们的社交行为和学习表现。传统上,自动且准确地分析这些情绪的方法主要依赖于监督式机器学习算法。然而,这些模型通常难以在不同情境中泛化,需要重复进行数据收集、标注和训练。视觉-语言模型(VLM)的出现提供了一种有前景的替代方案,它可以通过零样本提示实现跨视觉识别任务的泛化,而无需微调。本研究旨在探索VLM在分析在线学习环境中学生面部表情所表达的学业情绪方面的潜力。我们使用Llama-3.2-11B-Vision-Instruct和Qwen2.5-VL-7B-Instruct这两个VLM,通过零样本提示分析了5000张描绘困惑、分心、高兴、中性和疲劳表情的图像。初步结果表明,这两个模型在学业面部表情识别方面表现出中等的性能,其中Qwen2.5-VL-7B-Instruct的表现优于Llama-3.2-11B-Vision-Instruct。值得注意的是,这两个模型都擅长识别学生高兴的情绪,但未能检测到分心的行为。此外,Qwen2.5-VL-7B-Instruct在识别学生困惑的表情方面表现出相对较高的性能,突显了其在识别导致学生困惑的内容方面的潜在实际应用价值。 |
2025-06-10 | Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs | link | 视觉-语言模型(VLMs)在回答视觉输入相关问题(例如,计算图像中的物体数量)方面表现出令人印象深刻的能力,但在执行类似的文本任务(例如,计算文本中的单词数量)时,准确率更高。我们通过识别和比较不同模态下的\textit{电路}(即特定于任务的计算子图)来研究这种准确率差距。我们发现,虽然不同模态之间的电路在很大程度上是不相交的,但它们实现的功能相对相似:差异主要在于处理特定模态的数据位置(图像或文本序列)。深入研究图像数据表示,我们观察到它们仅在后面的层中才与表现更好的类似文本表示对齐,此时对后续位置的影响已经太晚。为了克服这个问题,我们将视觉数据token的表示从后面的层反向patch到前面的层。在多个任务和模型的实验中,这种简单的干预平均消除了模态之间三分之一的性能差距。我们的分析揭示了VLM中多模态性能差距的原因,并提出了一种无需训练即可缩小差距的方法。 |
2025-06-10 | Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better | link | 典型的大型视觉语言模型(LVLMs)通常仅将自回归监督应用于文本序列,而没有将视觉模态完全纳入学习过程。这导致了三个主要局限性:(1)无法使用没有附带标题的图像,(2)标题可能遗漏关键视觉细节的风险,以及(3)某些以视觉为中心的内容无法通过文本充分传达的挑战。因此,当前的LVLMs通常优先考虑视觉到语言的对齐,而可能忽略了细粒度的视觉信息。虽然一些先前的工作已经探索了自回归图像生成,但有效利用自回归视觉监督来增强图像理解仍然是一个开放的挑战。在本文中,我们介绍了自回归语义视觉重建(ASVR),它能够在统一的自回归框架内联合学习视觉和文本模态。我们表明,自回归地重建图像的原始视觉外观并不能增强,甚至可能损害多模态理解。相反,自回归地重建图像的语义表示可以持续提高理解能力。值得注意的是,我们发现即使模型被赋予连续的图像特征作为输入,它们也可以有效地重建离散的语义标记,从而在各种多模态理解基准测试中产生稳定和一致的改进。我们的方法在不同的数据规模(556k-2M)和LLM骨干类型上都实现了显著的性能提升。具体而言,ASVR在14个多模态基准测试中的平均得分提高了LLaVA-1.5 5%。代码可在https://github.com/AlenjandroWang/ASVR获得。 |
2025-06-10 | Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models | link | 通过跨模态对比学习实现医学图像-文本对齐在图像-文本匹配任务(如检索和零样本分类)中表现出良好的性能。然而,传统的基于CLIP的跨模态对比学习方法存在次优的视觉表征能力,这也限制了它们在图像-文本对齐中的有效性。相比之下,尽管通过多模态掩码建模预训练的模型在直接跨模态匹配方面表现不佳,但它们在视觉表征方面表现出色。为了解决这个矛盾,我们提出了一种高效的医学图像-文本对齐方法ALTA(通过自适应对齐),该方法仅使用大约8%的可训练参数和不到1/5的掩码记录建模所需的计算消耗。ALTA通过调整来自掩码记录建模的预训练视觉模型,在图像-文本匹配任务(如检索和零样本分类)中实现了卓越的性能。此外,我们集成了时间-多视角X光片输入,以增强X光片及其报告中相应描述之间的信息一致性,进一步提高了图像-文本对齐效果。实验评估表明,ALTA在文本到图像的准确率方面比性能最佳的同类方法高出4%以上,在图像到文本的检索准确率方面高出约6%。在高效对齐过程中对图像-文本模型的自适应也促进了更好的视觉和语言理解。代码已在https://github.com/DopamineLcy/ALTA上公开提供。 |
2025-06-10 | Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought | null | 视频内容理解对于从视频分析到交互系统的各种应用至关重要。尽管大规模视觉语言模型(VLMs)取得了进展,但这些模型通常难以捕捉对于彻底视频分析至关重要的细致的时空细节。为了解决这一差距,我们推出了Video-CoT,这是一个开创性的数据集,旨在通过思维链(CoT)方法增强时空理解。Video-CoT包含192,000个细粒度的时空问答对和23,000个高质量的CoT注释样 629A 本,为评估视频理解中的时空理解提供了坚实的基础。此外,我们还提供了一个全面的基准,用于评估这些任务,每个任务都包含750个图像和定制的评估指标。我们广泛的实验表明,当前的VLM在实现令人满意的性能方面面临着重大挑战,突显了有效时空理解的困难。总的来说,Video-CoT数据集和基准为多媒体理解的研究开辟了新的途径,并支持未来在需要高级视频分析功能的智能系统中的创新。通过公开提供这些资源,我们旨在鼓励对这一关键领域的进一步探索。项目网站:https://video-cot.github.io/ 。 |
2025-06-10 | PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly | null | 虽然视觉语言模型(VLMs)在具身智能体的推理和规划方面表现出很有希望的能力,但它们理解物理现象的能力,尤其是在结构化的3D环境中,仍然受到严重限制。为了弥合这一差距,我们引入了PhyBlock,这是一个渐进式基准,旨在通过机器人3D积木组装任务评估VLM在物理理解和规划方面的能力。PhyBlock整合了一种新颖的四级认知层次组装任务,以及有针对性的视觉问答(VQA)样本,共同旨在评估渐进式的空间推理和基本的物理理解,包括物体属性、空间关系和整体场景理解。PhyBlock包括2600个积木任务(400个组装任务,2200个VQA任务),并从三个关键维度评估模型:部分完成、失败诊断和规划鲁棒性。我们对21个最先进的VLM进行了基准测试,突出了它们在物理基础上的多步骤规划中的优势和局限性。我们的经验结果表明,VLM的性能在高层次的规划和推理能力方面表现出明显的局限性,导致任务复杂性增加时性能显著下降。误差分析表明,在空间定位和依赖关系推理方面存在持续的困难。令人惊讶的是,思维链提示几乎没有提供改进,这表明空间任务严重依赖于直观的模型理解。我们将PhyBlock定位为一个统一的测试平台,以推进具身推理,弥合视觉语言理解和现实世界物理问题解决之间的差距。 |
2025-06-10 | VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism | link | 大型视觉-语言模型(LVLMs)在多模态任务中表现出卓越的性能,但它们在复杂视觉推理中的有效性仍然受到限制,尤其是在采用思维链提示技术时。在本文中,我们提出了一种新颖的免训练方法VReST,该方法通过蒙特卡洛树搜索和自奖励机制来增强LVLMs中的推理能力。VReST通过建立搜索树来细致地遍历推理场景,其中每个节点封装一个推理步骤,每条路径描绘一个完整的推理序列。我们创新的多模态自奖励机制通过整合子问题的效用、答案的正确性以及视觉-语言线索的相关性来评估推理步骤的质量,所有这些都不需要额外的模型。VReST超越了当前的提示方法,并在三个多模态数学推理基准测试中获得了最先进的性能。此外,它证实了测试时缩放定律在多模态任务中的有效性,为未来的研究提供了有希望的方向。 |
2025-06-10 | ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction | null | 视觉语言模型(如CLIP)最近通过实现对广泛视觉概念的识别,推动了开放词汇密集预测任务的发展。然而,CLIP在细粒度的区域级理解方面仍然存在困难,这阻碍了其在这些密集预测任务中的有效性。我们确定了解决此限制所需的两个关键因素:语义连贯性和细粒度视觉语言对齐。当前的适配方法通常以牺牲语义连贯性为代价来改进细粒度对齐,并且通常依赖于额外的模块或监督微调。为了克服这些问题,我们提出了一种任意到任意自蒸馏(ATAS),这是一种新颖的方法,通过利用模型在所有表示层面的自身知识,同时增强语义连贯性和细粒度对齐。与先前的方法不同,ATAS仅使用未标记的图像和一个内部自蒸馏过程来改进CLIP视觉编码器的表示,从而在保持局部语义一致性的同时,锐化局部细节识别。在开放词汇目标检测和语义分割基准测试中,ATAS获得了显著的性能提升,优于基线CLIP模型。这些结果验证了我们方法的有效性,并强调了共同维护语义连贯性和细粒度对齐对于高级开放词汇密集预测的重要性。 |
2025-06-10 | LLaVA-c: Continual Improved Visual Instruction Tuning | null | 像LLaVA-1.5这样的多模态模型通过在多任务数据集上进行视觉指令调整来实现最先进的视觉理解,从而实现强大的指令跟随和多模态性能。然而,多任务学习面临着诸如任务平衡等挑战,需要仔细调整数据比例,以及扩展成本,即新任务有导致灾难性遗忘的风险,并且需要昂贵的重新训练。持续学习提供了一种有希望的替代方案,可以在增量获取新知识的同时保留现有能力。然而,当前的方法优先考虑特定于任务的性能,而忽略了因过度拟合特定指令而导致的基础模型退化,这会损害通用能力。在这项工作中,我们提出了一种简单但有效的方法,对LLaVA-1.5进行了两项修改:用于改进任务平衡的频谱感知巩固和用于防止基础模型退化的无监督查询正则化。我们评估了持续预训练和微调过程中的通用性能和特定于任务的性能。实验表明,LLaVA-c始终可以提高标准基准性能并保持通用能力。我们首次证明,逐任务的持续学习可以达到与多任务联合学习相匹配或超过多任务联合学习的结果。代码将公开发布。 |
2025-06-10 | MOSAIC-F: A Framework for Enhancing Students' Oral Presentation Skills through Personalized Feedback | null | 在本文中,我们提出了一种新颖的多模态反馈框架,名为MOSAIC-F,它是一个数据驱动框架的缩写,该框架集成了多模态学习分析(MMLA)、观察、传感器、人工智能(AI)和协作评估,用于生成关于学生学习活动的个性化反馈。该框架包含四个关键步骤。首先,通过标准化的评价量规(包括定量和定性评估)进行同伴和教授的评估。其次,在学习活动期间收集多模态数据,包括视频记录、音频捕获、眼动追踪、生理信号(心率、运动数据)和行为互动。第三,使用人工智能生成个性化反馈,综合基于人的评估和基于数据的多模态见解,例如姿势、语音模式、压力水平和认知负荷等。最后,学生通过视频记录回顾自己的表现,并参与自我评估和反馈可视化,将自己的评估与同伴和教授的评估、班级平均水平以及人工智能生成的建议进行比较。通过结合基于人的评估和基于数据的评估技术,该框架能够实现更准确、个性化和可操作的反馈。我们在提高口头表达能力的背景下测试了MOSAIC-F。 |
2025-06-10 | SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding | link | 尽管视觉-语言模型(VLM)取得了显著进展,但现有VLM的性能仍然受到对象幻觉的阻碍,这是实现准确视觉理解的关键挑战。为了解决这个问题,我们提出了一种新的方法SECOND:选择性和对比解码,使VLM能够以对象为中心的方式有效地利用多尺度视觉信息,从而与人类的视觉感知紧密结合。SECOND逐步选择和整合多尺度视觉信息,从而有助于更精确地解释图像。通过迭代地对比这些视觉信息,SECOND显著减少了感知幻觉,并在广泛的基准测试中表现优异。我们的理论分析和实验突出了VLM中多尺度应用的巨大潜力,表明跨尺度的优先级排序和对比优于现有方法。 |
2025-06-06 | CoMemo: LVLMs Need Image Context with Image Memory | null | 基于大型语言模型构建的大型视觉语言模型(LVLM)的最新进展已将视觉特征与LLM表示对齐确立为主导范式。然而,继承的LLM架构设计为多模态处理引入了次优特性。首先,LVLM在注意力分配中表现出双峰分布,导致随着上下文扩展,中间视觉内容逐渐被忽略。其次,传统的 positional encoding 方案在处理动态高分辨率图像时,无法保留重要的2D结构关系。为了解决这些局限性,我们提出了CoMemo——一种双路径架构,它结合了上下文图像路径和图像记忆路径进行视觉处理,有效地缓解了视觉信息忽略。此外,我们还引入了RoPE-DHR,一种新颖的 positional encoding 机制,它采用基于缩略图的位置聚合来维持2D空间感知,同时减轻扩展序列中的远程衰减。在包括长上下文理解、多图像推理和视觉问答在内的七个基准测试中的评估表明,与传统的LVLM架构相比,CoMemo具有卓越的性能。项目页面可在https://lalbj.github.io/projects/CoMemo/上找到。 |
2025-06-06 | Movie Facts and Fibs (MF $^2$): A Benchmark for Long Movie Understanding | null | 尽管视觉语言模型(VLMs)最近取得了进展,但对长篇视频内容的整体理解仍然是一个重大挑战,部分原因是当前基准测试的局限性。许多基准测试侧重于外围的、“大海捞针”式的细节,鼓励不考虑上下文的检索,而不是深入的理解。另一些则依赖于大规模的、半自动生成的问题(通常由语言模型自身生成),这些问题更容易被模型回答,但未能反映真正的理解。在本文中,我们介绍了MF$^2$,这是一个新的基准测试,用于评估模型是否能够理解、巩固和回忆完整电影(50-170分钟)中的关键叙事信息。MF$^2$ 包含超过50部完整的、开放许可的电影,每部电影都配有手动构建的声明对——一个为真(事实),一个看似合理但为假(虚构),总计超过850对。这些声明针对核心叙事元素,如人物动机和情感、因果链和事件顺序,并涉及人类无需重看电影也能回忆起的难忘时刻。我们没有采用多项选择格式,而是采用了二元声明评估协议:对于每一对声明,模型必须正确识别真假声明。这减少了诸如答案排序之类的偏差,并能够更精确地评估推理能力。我们的实验表明,无论是开放权重模型还是封闭的最新模型,都远未达到人类的表现水平,这突显了该任务对人类而言的相对容易性,以及他们保留和推理关键叙事信息的能力——而这正是当前VLM所缺乏的能力。 |
2025-06-06 | Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study | null | 虽然传统的计算机视觉模型在内窥镜领域一直难以泛化,但涌现出的基础模型已显示出良好的跨领域性能。在这项工作中,我们首次进行大规模研究,评估视觉语言模型(VLM)在内窥镜任务中的能力,特别关注腹腔镜手术。通过使用多样化的最先进模型、多个手术数据集和广泛的人工参考标注,我们解决了三个关键研究问题:(1)当前的VLM能否解决手术图像上的基本感知任务?(2)它们能否处理基于帧的高级内窥镜场景理解任务?(3)在此背景下,专门的医学VLM与通用模型相比如何?我们的结果表明,VLM可以有效地执行基本的手术感知任务,例如物体计数和定位,其性能水平与通用领域任务相当。但是,当任务需要医学知识时,它们的性能会显着下降。值得注意的是,我们发现,在基本和高级手术任务中,专门的医学VLM目前的表现均不如通用模型,这表明它们尚未针对手术环境的复杂性进行优化。这些发现突显了需要进一步的改进,以使VLM能够应对手术带来的独特挑战。总而言之,我们的工作为下一代内窥镜AI系统的开发提供了重要的见解,并确定了医学视觉语言模型中需要改进的关键领域。 |
2025-06-06 | GenIR: Generative Visual Feedback for Mental Image Retrieval | null | 视觉语言模型(VLMs)在文本到图像检索基准测试中表现出强大的性能。然而,将这种成功转化为实际应用仍然是一个挑战。在实践中,人类的搜索行为很少是一次性的动作。相反,它通常是一个多轮的过程,由头脑中的线索引导,即从模糊的回忆到目标图像的生动心理表征的心理图像。受此差距的启发,我们研究了心理图像检索(MIR)的任务,该任务针对现实但未被充分探索的场景,即用户通过与图像搜索引擎的多轮交互来完善他们对心理设想图像的搜索。成功交互式检索的关键是机器能够为用户提供清晰、可操作的反馈;然而,现有方法依赖于间接或抽象的口头反馈,这对于用户改进查询来说可能是模棱两可、具有误导性或无效的。为了克服这一点,我们提出了GenIR,一种生成式多轮检索范例,利用基于扩散的图像生成来明确地具体化AI系统在每一轮的理解。这些合成视觉表示提供清晰、可解释的反馈,使用户能够直观有效地改进他们的查询。我们进一步引入了一个全自动管道来生成高质量的多轮MIR数据集。实验结果表明,GenIR在MIR场景中显著优于现有的交互式方法。这项工作建立了一个新的任务,包含一个数据集和一个有效的生成式检索方法,为未来在该方向的研究奠定了基础。 |
2025-06-06 | Building Models of Neurological Language | null | 本报告记录了神经内科领域特定语言模型的开发和评估过程。最初专注于构建定制模型,但该项目适应了开源和商业医疗大型语言模型 (LLM) 的快速发展,转而利用检索增强生成 (RAG) 和表征模型进行安全本地部署。主要贡献包括创建神经内科专用数据集(病例报告、问答集、教科书衍生数据)、多词表达提取工具以及基于图的医学术语分析。该项目还生成了用于本地托管的脚本和 Docker 容器。报告中提供了性能指标和图社区结果,未来的可能工作包括使用 phi-4 等开源架构的多模态模型。 |
2025-06-06 | WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management | null | 小麦管理策略在决定产量方面起着关键作用。传统的管理决策通常依赖于劳动密集型的专家检查,这些检查既昂贵、主观又难以扩展。最近,视觉-语言模型(VLM)已成为实现可扩展、数据驱动的管理支持的一种有前景的解决方案。然而,由于缺乏领域特定知识,直接将VLM应用于小麦管理任务会导致量化和推理能力不足,最终产生模糊甚至误导性的管理建议。为了解决这个问题,我们提出了WisWheat,这是一个小麦专用数据集,具有三层设计,旨在增强VLM在小麦管理任务中的性能:(1)一个包含47,871个图像-标题对的基础预训练数据集,用于将VLM粗略地适应小麦形态;(2)一个包含7,263个VQA风格的图像-问题-答案三元组的定量数据集,用于定量性状测量任务;以及(3)一个包含4,888个样本的指令微调数据集,目标是针对不同物候阶段的生物和非生物胁迫诊断和管理计划。大量的实验结果表明,在我们数据集上对开源VLM(例如,Qwen2.5 7B)进行微调可以显著提高性能。具体而言,在我们的小麦指令数据集上微调的Qwen2.5 VL 7B在小麦胁迫和生长阶段对话任务上分别实现了79.2%和84.6%的准确率,甚至超过了GPT-4o等通用商业模型,幅度分别为11.9%和34.6%。 |
2025-06-06 | Full Conformal Adaptation of Medical Vision-Language Models | null | 大规模预训练的视觉语言模型(VLMs)已展现出前所未有的可迁移性,并正逐步整合到医学图像分析中。虽然其判别潜力已被广泛探索,但其可靠性方面仍被忽视。本研究探讨了它们在日益流行的分离共形预测(SCP)框架下的行为,该框架通过利用带标签的校准集,从理论上保证了输出集上给定的误差水平。然而,VLMs的零样本性能本质上是有限的,常见的做法包括少样本迁移学习流程,但这无法满足SCP严格的可交换性假设。为了缓解这个问题,我们提出完全共形适应,这是一种用于联合适应和共形化预训练基础模型的新颖设置,它使用少样本适应集,对每个测试数据点进行转导式操作。此外,我们还使用SS-Text来补充这个框架,这是一种用于VLMs的新型免训练线性探针求解器,可减轻这种转导式方法的计算成本。我们使用3种不同的模态专用医学VLMs和9个适应任务,提供了全面的实验。我们的框架需要与SCP完全相同的数据,并在保持相同覆盖率保证的同时,在集合效率上提供高达27%的一致相对改进。 |
2025-06-06 | Do Large Vision-Language Models Distinguish between the Actual and Apparent Features of Illusions? | null | 人类容易受到视错觉的影响,视错觉是研究感觉和认知过程的宝贵工具。受到人类视觉研究的启发,研究已经开始探索大型视觉语言模型(LVLM)等机器是否也表现出对视觉错觉的类似敏感性。然而,研究通常使用非抽象图像,并且没有区分实际特征和表观特征,从而导致对机器认知的评估含糊不清。为了解决这些局限性,我们引入了一个视觉问答(VQA)数据集,该数据集分为真错觉和假错觉,以及相应的控制图像。真错觉呈现出实际特征和表观特征之间的差异,而假错觉具有相同的实际特征和表观特征,即使由于相似的几何配置而看起来具有错觉。我们评估了LVLM在真假错觉VQA任务中的表现,并研究了模型是否能区分实际特征和表观特征。我们的研究结果表明,尽管LVLM可能通过正确回答关于两种特征类型的问题来识别错觉,但它们对真错觉和假错觉VQA问题预测相同的答案。这表明他们的反应可能基于对错觉的先验知识,而不是真正的视觉理解。该数据集可在https://github.com/ynklab/FILM获取。 |
2025-06-05 | When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding | null | 大型多模态模型(LMM)在视觉感知和推理方面取得了显著进展。然而,当面对视觉上模糊或非语义的场景文本时,它们通常难以准确地识别和理解内容,经常生成语义上合理但视觉上不正确的答案,我们称之为语义幻觉。在这项工作中,我们研究了语义幻觉的根本原因,并发现了一个关键结论:LLM中对场景文本区域具有更强注意力关注的Transformer层,更不容易产生语义幻觉。因此,我们提出了一个无需训练的语义幻觉缓解框架,包含两个关键组成部分:(1)ZoomText,一种粗到精的策略,无需外部检测器即可识别潜在的文本区域;(2)Grounded Layer Correction,自适应地利用来自不易产生幻觉的层的内部表示来指导解码,校正非语义样本的幻觉输出,同时保留有意义样本的语义。为了实现严格的评估,我们引入了TextHalu-Bench,一个包含超过1730个样本的基准测试,涵盖语义和非语义案例,其中包含人工策划的问答对,旨在探测模型的幻觉。大量的实验表明,我们的方法不仅有效地缓解了语义幻觉,而且在场景文本定位和理解的公共基准测试上取得了优异的性能。 |
2025-06-05 | MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning | null | 尽管视觉语言模型(VLMs)取得了快速进展,但当前的多模态推理基准测试在三个关键维度上存在不足。首先,它们过度依赖静态图像,无法捕捉真实世界环境的时间复杂性。其次,它们狭隘地专注于数学问题解决,忽略了更广泛的推理技能——包括抽象、物理、规划、空间和时间能力——这些都是实现稳健多模态智能所必需的。第三,许多基准测试很快达到饱和,为诊断失败模式或衡量持续进展提供的空间有限。我们推出了MORSE-500(多模态推理压力测试环境),这是一个视频基准,由500个完全脚本化的片段组成,其中嵌入的问题涵盖六个互补的推理类别。每个实例都使用确定性的Python脚本(通过Manim、Matplotlib、MoviePy)、生成式视频模型和精心挑选的真实镜头进行程序化生成。这种脚本驱动的设计可以对视觉复杂性、干扰物密度和时间动态进行细粒度控制——从而能够随着模型的改进系统地扩展难度。与饱和后变得过时的静态基准不同,MORSE-500的设计目标是不断发展:其可控的生成管道支持创建任意具有挑战性的新实例,使其非常适合对下一代模型进行压力测试。使用最先进的系统(包括各种Gemini 2.5 Pro和OpenAI o3,它们代表了当时可用的最强系统,以及强大的开源模型)进行的初步实验表明,所有类别都存在巨大的性能差距,尤其是在抽象和规划任务方面存在较大缺陷。我们发布完整的数据集、生成脚本和评估工具,以支持透明、可重复和前瞻性的多模态推理研究。 |
2025-06-05 | Refer to Anything with Vision-Language Prompts | null | 近期的图像分割模型已经发展到可以将图像分割成高质量的视觉实体掩码,然而,它们无法为基于语言和视觉的复杂查询提供全面的语义理解。这种局限性降低了它们在需要由视觉-语言提示驱动的用户友好型交互应用中的有效性。为了弥合这一差距,我们引入了一种新的全模态指代表达式分割(ORES)任务。在这个任务中,模型基于任意的提示(仅由文本指定或由文本加上参考视觉实体指定)生成一组掩码。为了应对这一新的挑战,我们提出了一个名为“指代任意分割掩码组”(RAS)的新框架,该框架通过以掩码为中心的大型多模态模型,利用复杂的多模态交互和理解来增强分割模型。为了训练ORES模型并进行基准测试,我们创建了数据集MaskGroups-2M和MaskGroups-HQ,以 A92E 含由文本和参考实体指定的多样化掩码组。通过广泛的评估,我们证明了RAS在我们新的ORES任务以及经典的指代表达式分割(RES)和广义指代表达式分割(GRES)任务上的卓越性能。项目主页:https://Ref2Any.github.io。 |
2025-06-05 | Unleashing Hour-Scale Video Training for Long Video-Language Understanding | null | 最近的长视频-语言理解基准测试推动了视频大型多模态模型 (Video-LMM) 的发展。然而,由于缺乏良好注释的长视频,对长达一小时的 Video-LLM 的训练仍未得到充分探索。为了弥补这一差距,我们提出了 VideoMarathon,一个大规模的、长达一小时的视频指令跟随数据集。该数据集包含约 9,700 小时的长视频,这些视频来源于不同的领域,每个视频的时长从 3 分钟到 60 分钟不等。具体来说,它包含 330 万个高质量的问答对,涵盖六个基本主题:时间性、空间性、物体、动作、场景和事件。与现有的视频指令数据集相比,VideoMarathon 显著地将训练视频时长扩展到 1 小时,并支持 22 个需要短期和长期视频理解的多样化任务。在 VideoMarathon 的基础上,我们提出了 Hour-LLaVA,一个强大而高效的 Video-LMM,用于小时级视频-语言建模。它通过利用一个记忆增强模块,实现了以 1-FPS 采样进行长达一小时的视频训练和推理,该模块自适应地整合了来自缓存的完整视频上下文中与用户问题相关的和时空信息丰富的语义。在我们的实验中,Hour-LLaVA 在多个长视频-语言基准测试中取得了最佳性能,证明了 VideoMarathon 数据集的高质量和 Hour-LLaVA 模型的优越性。 |
2025-06-05 | Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs | null | 二维视觉-语言模型(VLMs)的显著进展激发了人们将其扩展到三维环境中,用于诸如三维问题解答、密集描述和视觉定位等任务的兴趣。与通常通过图像编码器处理图像的二维VLM不同,三维场景凭借其复杂的空间结构,允许多样化的模型架构。基于其编码器设计,本文将近期的三维VLM分为以三维对象为中心、基于二维图像和以三维场景为中心的方法。尽管以三维场景为中心的VLM在架构上与其二维对应模型相似,但与最新的以三维对象为中心和基于二维图像的方法相比,它们的性能相对较低。为了理解这种差距,我们进行了深入分析,揭示了以三维场景为中心的VLM对三维场景编码器的依赖性有限,并且预训练阶段的效果似乎不如二维VLM。此外,我们观察到数据规模扩展在更大的数据集上带来的好处不太明显。我们的研究表明,虽然这些模型具有跨模态对齐能力,但它们倾向于过度依赖语言线索,并且过度拟合频繁的答案分布,从而降低了三维编码器的有效利用率。为了解决这些限制并鼓励真正的三维场景理解,我们引入了一种新颖的“三维相关性判别QA”数据集,旨在打破捷径学习并提高三维理解能力。我们的研究结果强调,需要先进的评估方法和改进的策略,以在三维VLM中实现更好的三维理解。 |
2025-06-05 | MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm | link | 我们介绍了MonkeyOCR,一种用于文档解析的视觉-语言模型,它通过利用结构-识别-关系(SRR)三元组范式,推动了该领域的技术发展。这种设计简化了原本复杂的多工具流水线(如MinerU的模块化方法),并避免了使用大型端到端模型(例如,像Qwen-VL这样的大型多模态LLM)处理完整页面所带来的效率低下问题。在SRR中,文档解析被抽象为三个基本问题——“它在哪里?”(结构)、“它是什么?”(识别)和“它如何组织?”(关系)——分别对应于布局分析、内容识别和逻辑排序。这种有重点的分解平衡了准确性和速度:它实现了高效、可扩展的处理,而又不牺牲精度。为了训练和评估这种方法,我们推出了MonkeyDoc(迄今为止最全面的文档解析数据集),其中包含390万个实例,涵盖中英文的十多种文档类型。实验表明,MonkeyOCR的性能平均优于MinerU 5.1%,尤其是在公式(+15.0%)和表格(+8.6%)等具有挑战性的内容方面,改进尤为显著。值得注意的是,我们30亿参数的模型超越了更大的、性能最好的模型,包括Qwen2.5-VL(72B)和Gemini 2.5 Pro,在英语文档解析任务上实现了最先进的平均性能。此外,MonkeyOCR处理多页文档的速度明显更快(每秒0.84页,而MinerU为0.65页,Qwen2.5-VL-7B为0.12页)。这个30亿参数的模型可以有效地部署在单个NVIDIA 3090 GPU上进行推理。代码和模型将在https://github.com/Yuliang-Liu/MonkeyOCR上发布。 |
2025-06-05 | Quantifying Cross-Modality Memorization in Vision-Language Models | null | 理解神经网络在训练过程中记忆了什么以及如何记忆至关重要,这既关系到对潜在敏感信息的意外记忆,也关系到针对现实世界、知识密集型任务的有效知识获取。虽然之前的研究主要调查单一模态中的记忆,例如大型语言模型中的文本记忆或扩散模型中的图像记忆,但统一的多模态模型在实际应用中正变得越来越普遍。在这项工作中,我们专注于跨模态记忆的独特特征,并围绕视觉-语言模型进行系统研究。为了方便受控实验,我们首先引入一个合成角色数据集,其中包含各种合成人物图像和文本描述。我们通过在单一模态上训练模型并在另一种模态中评估其性能来量化事实知识记忆和跨模态可迁移性。我们的结果表明,在一个模态中学习的事实可以转移到另一个模态,但在源模态和目标模态中回忆信息之间存在显着差距。此外,我们观察到这种差距存在于各种场景中,包括更强大的模型、机器遗忘和多跳案例。最后,我们提出了一种基线方法来缓解这一挑战。我们希望我们的研究能够启发未来开发更强大的多模态学习技术以增强跨模态可迁移性的研究。 |
2025-06-05 | CIVET: Systematic Evaluation of Understanding in VLMs | null | 尽管视觉-语言模型(VLMs)在各种任务中取得了具有竞争力的性能,但它们对场景底层结构和语义的理解仍未得到充分研究。为了调查VLMs的理解能力,我们研究了它们在受控和可解释的方式下对物体属性和关系的处理能力。为此,我们引入了CIVET,这是一个新颖且可扩展的框架,用于通过受控刺激进行系统评估。CIVET解决了缺乏标准化系统评估来评估VLMs理解能力的问题,使研究人员能够以统计严谨性测试假设。通过CIVET,我们评估了五个最先进的VLMs在详尽的刺激集上,这些刺激集没有注释噪声、数据集特定偏差和不受控制的场景复杂性。我们的研究结果表明:1) 当前的VLMs只能准确识别有限的一组基本对象属性;2) 它们的性能在很大程度上取决于对象在场景中的位置;3) 它们难以理解对象之间的基本关系。此外,与人工标注者的比较评估表明,VLMs仍然未能达到人类水平的准确性。 |
2025-06-05 | PixCell: A generative foundation model for digital histopathology images | null | 组织学切片的数字化彻底改变了病理学,为癌症诊断和研究提供了海量数据集。对比自监督和视觉语言模型已被证明可以有效地挖掘大型病理学数据集,以学习判别性表示。另一方面,生成模型能够合成逼真且多样化的图像,为解决病理学中涉及图像合成的独特问题提供了一个引人注目的解决方案;克服了带注释数据的稀缺性,实现了保护隐私的数据共享,并执行了诸如虚拟染色等内在的生成任务。我们介绍了PixCell,这是首个用于组织病理学的基于扩散的生成式基础模型。我们使用PanCan-30M训练PixCell,这是一个庞大而多样化的数据集,源自69,184张H&E染色的全切片图像,涵盖各种癌症类型。我们采用了一种渐进式训练策略和一种基于自监督的调节,这使我们能够在没有任何带注释数据的情况下扩大训练规模。PixCell生成了跨多种癌症类型的多样化且高质量的图像,我们发现这些图像可以代替真实数据来训练自监督判别模型。与真实临床图像相比,机构之间共享的合成图像受到的监管障碍更少。此外,我们展示了使用一小部分带注释的图像来精确控制图像生成的能力,该能力可用于数据增强和教育目的。在细胞分割任务的测试中,基于掩码引导的PixCell能够实现有针对性的数据增强,从而提高下游性能。最后,我们展示了PixCell使用H&E结构染色来推断分子标记物研究结果的能力;我们使用此功能从H&E图像推断IHC染色。我们公开发布训练好的模型,以加速计算病理学领域的研究。 |
2025-06-05 | Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System | null | 异构多机器人系统在需要协同混合协作的复杂任务中显示出巨大的潜力。然而,依赖于静态模型的传统方法通常难以应对任务的多样性和动态环境。这突显了对通用智能的需求,该智能可以将高级推理与异构代理之间的低级执行连接起来。为了解决这个问题,我们提出了一个分层框架,该框架集成了提示的大型语言模型 (LLM) 和 GridMask 增强的微调视觉语言模型 (VLM)。LLM 执行任务分解和全局语义地图构建,而 VLM 从航拍图像中提取任务指定的语义标签和 2D 空间信息,以支持局部规划。在该框架内,空中机器人遵循全局优化的语义路径并持续提供鸟瞰图像,从而指导地面机器人的局部语义导航和操纵,包括在目标缺失的情况下保持隐式对齐。在真实世界的字母立方体排列任务上的实验证明了该框架在动态环境中的适应性和鲁棒性。据我们所知,这是第一个集成基于 VLM 的感知与 LLM 驱动的任务推理和运动规划的空地异构系统的演示。 |
2025-06-05 | SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs | null | 视觉-语言模型(VLMs)在图像描述方面取得了显著的性能,但最近的研究表明它们容易受到后门攻击。攻击者可以将难以察觉的扰动(例如,局部像素触发器或全局语义短语)注入到训练数据中,导致模型为特定输入生成恶意的、受攻击者控制的描述。由于这些攻击具有隐蔽性和跨模态性,因此难以检测和防御。通过分析攻击样本,我们发现了两个关键漏洞:(1)对特定图像区域的异常注意力集中,以及(2)生成描述中的语义漂移和不连贯。为了应对这种情况,我们提出了语义奖励防御(SRD),这是一个强化学习框架,可以在没有触发器先验知识的情况下减轻后门行为。SRD使用深度Q网络来学习对敏感图像区域应用离散扰动(例如,遮挡、颜色掩蔽)的策略,旨在破坏恶意路径的激活。我们设计了一个语义保真度评分作为奖励信号,该信号共同评估输出的语义一致性和语言流畅性,引导代理生成稳健而忠实的描述。在主流VLM和数据集上进行的实验表明,SRD将攻击成功率降低至5.6%,同时在干净输入上保持了描述质量,性能下降不到10%。SRD提供了一种触发器无关、可解释的防御范例,用于防御多模态生成模型中隐蔽的后门威胁。 |
2025-06-05 | Line of Sight: On Linear Representations in VLLMs | null | 通过在视觉输入的嵌入上进行微调,可以为语言模型配备多模态能力。但是,这种多模态模型如何在隐藏激活中表示图像?我们探索了 LlaVA-Next(一种流行的开源 VLLM)中图像概念的表示。我们发现,残差流中存在一组多样化的 ImageNet 类,它们通过线性可解码的特征来表示。我们通过对模型输出执行有针对性的编辑来证明这些特征具有因果关系。为了增加所研究的线性特征的多样性,我们训练了多模态稀疏自动编码器 (SAE),创建了一个高度可解释的文本和图像特征词典。我们发现,尽管跨模态的模型表示非常不相交,但它们在更深的层中变得越来越共享。 |
2025-06-03 | EgoVLM: Policy Optimization for Egocentric Video Understanding | link | 新兴的具身人工智能应用,如可穿戴相机和自主代理,突显了对第一人称视角视频流进行稳健推理的需求。我们推出了EgoVLM,这是一种专门设计的视觉-语言模型,旨在整合以自我为中心的视频环境中的视觉理解和时空推理。EgoVLM通过群体相对策略优化(GRPO)进行微调,这是一种强化学习方法,用于使模型输出与类人推理步骤对齐。遵循DeepSeek R1-Zero的方法,我们直接使用强化学习进行调整,而无需在思维链(CoT)数据上进行任何监督微调阶段。我们在以自我为中心的视频问答基准上评估EgoVLM,并表明特定领域的训练显著提高了通用视觉-语言模型的性能。我们的EgoVLM-3B完全在非CoT的以自我为中心的数据上训练,在EgoSchema基准上,其性能分别比基础的Qwen2.5-VL 3B和7B模型高出14.33和13.87个准确率点。通过显式生成推理轨迹,EgoVLM增强了解释性,使其非常适合下游应用。此外,我们引入了一种新颖的基于关键帧的奖励,该奖励结合了显著帧选择来指导强化学习优化。这种奖励公式为未来在时间相关的以自我为中心的推理中的探索开辟了一条有希望的途径。 |
2025-06-03 | DFBench: Benchmarking Deepfake Image Detection Capability of Large Multimodal Models | null | 随着生成模型的快速发展,人工智能生成图像的真实度已显著提高,这对验证数字内容真实性提出了严峻挑战。目前,深度伪造检测方法通常依赖于数据集,但这些数据集的生成模型和内容多样性有限,无法跟上人工智能生成内容不断演变的复杂性和日益提高的真实度。大型多模态模型(LMM)已广泛应用于各种视觉任务,并展示出强大的零样本能力,但它们在深度伪造检测中的潜力仍未得到充分探索。为了弥合这一差距,我们提出了\textbf{DFBench},这是一个大型深度伪造基准,具有(i)广泛的多样性,包括涵盖真实、人工智能编辑和人工智能生成内容的540,000张图像,(ii)最新的模型,伪造图像由12个最先进的生成模型生成,以及(iii)双向基准测试和评估,既评估深度伪造检测器的检测准确性,又评估生成模型的规避能力。基于DFBench,我们提出了\textbf{MoA-DF},即用于深度伪造检测的混合代理,它利用来自多个LMM的组合概率策略。MoA-DF实现了最先进的性能,进一步证明了利用LMM进行深度伪造检测的有效性。数据库和代码可在https://github.com/IntMeGroup/DFBench公开获取。 |
2025-06-03 | FlySearch: Exploring how vision-language models explore | link | 真实世界是混乱和非结构化的。发现关键信息通常需要主动的、目标驱动的探索。视觉-语言模型(VLMs)最近作为一种流行的零样本工具出现在许多困难的任务中,但它们是否能在这种条件下有效运行还有待观察。在本文中,我们通过引入FlySearch来回答这个问题,FlySearch是一个3D、户外、照片般逼真的环境,用于在复杂场景中搜索和导航到物体。我们定义了三组不同难度的场景,并观察到最先进的VLM甚至无法可靠地解决最简单的探索任务,并且随着任务变得更加困难,与人类表现的差距也在增加。我们确定了一系列主要原因,从视觉幻觉、语境误解到任务规划失败,并且我们表明其中一些问题可以通过微调来解决。我们公开发布基准、场景和底层代码库。 |
2025-06-03 | Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights | null | 我们提出了Surfer-H,一个经济高效的Web代理,它集成了视觉-语言模型(VLM)以在Web上执行用户定义的任务。我们将其与Holo1配对,Holo1是一个新的开放权重VLM集合,专门用于Web导航和信息提取。Holo1是在精心策划的数据源上训练的,包括开放访问的Web内容、合成示例和自我生成的代理数据。Holo1在通用用户界面(UI)基准测试以及我们新的Web UI本地化基准测试WebClick中名列前茅。当由Holo1驱动时,Surfer-H在WebVoyager上实现了92.2%的最先进的性能,在准确性和成本效益之间取得了帕累托最优的平衡。为了加速代理系统方面的研究进展,我们将开源我们的WebClick评估数据集和Holo1模型权重。 |
2025-06-03 | Enriching Location Representation with Detailed Semantic Information | null | 用于城市建模的空间表征需要能够捕捉城市环境的结构和语义特征。传统的空间嵌入通常优先考虑空间邻近性,而未能充分利用来自地点的细粒度上下文信息。为了解决这一局限性,我们引入了CaLLiPer+,它是CaLLiPer模型的扩展,可在多模态对比学习框架内系统地整合兴趣点(POI)名称和类别标签。我们在土地利用分类和社会经济地位分布映射这两个下游任务上评估了它的有效性,结果表明,与基线方法相比,性能始终提升了4%到11%。此外,我们还表明,结合POI名称可以增强位置检索,使模型能够更精确地捕捉复杂的城市概念。消融研究进一步揭示了POI名称的互补作用,以及利用预训练文本编码器进行空间表征的优势。总而言之,我们的研究结果强调了整合细粒度语义属性和多模态学习技术在推进城市基础模型开发方面的潜力。 |
2025-06-03 | Open-PMC-18M: A High-Fidelity Large Scale Medical Dataset for Multimodal Representation Learning | null | 复合图是由包含各种子图的多面板组合而成,在生物医学文献中无处不在,但大规模的子图提取在很大程度上仍未得到解决。先前关于子图提取的工作在数据集大小和泛化性方面都受到限制,留下了一个关键的开放性问题:通过大规模子图提取实现的高保真图像-文本对齐如何影响视觉-语言模型中的表示学习?为了弥补这一差距,我们引入了一个基于 Transformer 的目标检测的可扩展子图提取流程,该流程在包含 50 万个复合图的合成语料库上进行训练,并在 ImageCLEF 2016 和合成基准测试中均实现了最先进的性能。使用此流程,我们发布了 OPEN-PMC-18M,这是一个大规模、高质量的生物医学视觉-语言数据集,包含 1800 万个具有临床意义的子图-标题对,涵盖放射学、显微镜学和可见光摄影。我们在我们精心策划的数据集上训练和评估视觉-语言模型,并表明在检索、零样本分类和鲁棒性基准测试中性能得到提高,优于现有基线。我们发布我们的数据集、模型和代码,以支持可重复的基准测试,并进一步研究生物医学视觉-语言建模和表示学习。 |
2025-06-03 | Small Aid, Big Leap: Efficient Test-Time Adaptation for Vision-Language Models with AdaptNet | null | 测试时自适应(TTA)已经成为增强视觉-语言模型(VLM)在推理过程中泛化能力的关键技术。然而,现有方法通常会产生巨大的计算成本,并表现出较差的可扩展性,这主要是由于样本级的自适应粒度以及对诸如数据增强等昂贵辅助设计的依赖。为了解决这些局限性,我们引入了SAIL(小辅助,大飞跃),这是一种新颖的基于适配器的TTA框架,它利用轻量级的、可学习的AdaptNet来实现高效且可扩展的模型自适应。作为SAIL的核心,冻结的预训练VLM通过基于置信度的插值权重与AdaptNet协同工作,从而在推理过程中生成稳健的预测。这些预测作为自监督目标,通过高效的批处理来对齐AdaptNet的输出,从而在不修改VLM或不需要内存缓存的情况下,显著降低计算成本。为了减轻持续自适应过程中的灾难性遗忘,我们提出了一种由梯度漂移指标(GDI)驱动的、感知梯度的重置策略,该策略动态地检测域转换,并有策略地重置AdaptNet以实现稳定的自适应。在两个场景中的各种基准测试上进行的大量实验表明,SAIL在保持较低计算成本的同时,实现了最先进的性能。这些结果突显了SAIL在实际部署中的有效性、效率和可扩展性。代码将在接受后发布。 |
2025-06-03 | Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models | null | 诸如CLIP之类的视觉-语言模型在对齐视觉和文本表征方面取得了显著成功,成为诸如LLaVA和OpenFlamingo等许多多模态大型语言模型(MLLM)的重要组成部分。然而,大量研究表明,CLIP有限的细粒度感知是一个关键缺陷,导致下游MLLM出现大量失败。相比之下,以视觉为中心的诸如DINOv2之类的基础模型在捕获图像中的精细细节方面表现出卓越的能力。在这项工作中,我们提出了一种新颖的基于核的方法,用于将CLIP的视觉表征与DINOv2的视觉表征对齐,确保生成的嵌入与文本嵌入保持兼容性的同时,增强感知能力。我们的对齐目标旨在实现高效的随机优化。经过这种仅图像对齐的微调后,视觉编码器保持与冻结的文本编码器的兼容性,并在零样本对象识别、细粒度空间推理和定位方面表现出显著的改进。通过集成对齐的视觉编码器,下游MLLM也表现出增强的性能。 |
2025-06-03 | Sign Language: Towards Sign Understanding for Robot Autonomy | null | 标牌是人类环境中无处不在的元素,在场景理解和导航中都起着关键作用。对于自主系统来说,要充分理解人类环境,有效解析和理解标牌至关重要。我们提出了导航标牌理解的任务,旨在从标牌中提取导航线索,这些标牌传达关于场景的符号空间信息。具体来说,我们侧重于捕捉指向远处位置的方向线索和识别特定位置的位置线索的标牌。为了衡量此任务的性能,我们整理了一个全面的测试集,提出了适当的评估指标,并建立了一个基线方法。我们的测试集包含超过160张图像,捕捉了各种公共场所(如医院、购物中心和交通枢纽)中具有不同复杂性和设计的标牌。我们的基线方法利用视觉-语言模型(VLMs)来解析这些高度可变的导航标牌。实验表明,视觉-语言模型在此任务上提供了有希望的性能,可能激发机器人领域的下游应用。代码和数据集可在Github上获取。 |
2025-06-03 | SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence | null | 基础模型通过实现对多模态数据的整体理解,在生物医学领域取得了变革性的成功。然而,它们在外科手术中的应用仍有待探索。外科智能面临着独特的挑战,需要外科视觉感知、时间分析和推理能力。现有的通用视觉-语言模型由于缺乏足够的领域特定监督和大规模高质量的外科数据库,无法满足这些需求。为了弥合这一差距,我们提出了SurgVLM,这是首批用于外科智能的大型视觉-语言基础模型之一,该通用模型可以处理各种外科任务。为此,我们构建了一个大规模多模态外科数据库SurgVLM-DB,包含超过181万帧和779万个对话,涵盖超过16种外科类型和18个解剖结构。我们统一并重组了10个外科任务的23个公共数据集,然后标准化标签并进行分层视觉-语言对齐,以促进对从视觉感知、时间分析到高级推理的逐步细粒度外科任务的全面覆盖。在此综合数据集的基础上,我们提出了SurgVLM,它建立在Qwen2.5-VL之上,并经过指令微调以适应10多个外科任务。我们进一步构建了一个外科多模态基准SurgVLM-Bench,用于方法评估。SurgVLM-Bench由外科领域6个流行的和广泛使用的数据集组成,涵盖了几个关键的下游任务。基于SurgVLM-Bench,我们评估了SurgVLM的性能(3个SurgVLM变体:SurgVLM-7B、SurgVLM-32B和SurgVLM-72B),并与14个主流商业VLM(例如,GPT-4o、Gemini 2.0 Flash、Qwen2.5-Max)进行了全面比较。 |
2025-05-30 | ProxyThinker: Test-Time Guidance through Small Visual Reasoners | link | 基于可验证奖励的强化学习的最新进展推动了大型视觉语言模型(LVLMs)中视觉推理能力的界限。然而,使用强化微调(RFT)训练LVLMs的计算成本很高,对扩展模型尺寸提出了重大挑战。在这项工作中,我们提出了ProxyThinker,这是一种推理时技术,它使大型模型能够继承来自小型、慢速思考的视觉推理器的视觉推理能力,而无需任何训练。通过从RFT推理器的输出分布中减去基础模型的输出分布,ProxyThinker修改了解码动态,并成功地引出了慢速思考推理,从而展示了诸如自我验证和自我纠正等新兴的复杂行为。ProxyThinker持续提升了在空间、数学和多学科推理等具有挑战性的视觉基准上的性能,使未经调整的基础模型能够与其全尺寸RFT对应模型的性能相媲美。此外,我们的实现利用并行技术有效地协调了多个语言模型,与之前的解码时方法相比,实现了高达38倍的更快推理速度,为ProxyThinker的实际部署铺平了道路。代码可在https://github.com/MrZilinXiao/ProxyThinker获取。 |
2025-05-30 | Time Blindness: Why Video-Language Models Can't See What Humans Can? | null | 视觉语言模型(VLMs)的最新进展在理解视频中的时空关系方面取得了显著进展。然而,当空间信息被遮蔽时,这些模型难以捕捉纯粹的时间模式。我们引入了 |
2025-05-30 | When Large Multimodal Models Confront Evolving Knowledge:Challenges and Pathways | link | 大型语言/多模态模型(LLM/LMM)存储了大量的预训练知识,但难以与现实世界的更新保持一致,导致在获取演变知识时难以避免灾难性遗忘。以往的研究主要集中于构建文本知识数据集和探索在LLM中进行知识注入,缺乏对LMM中多模态演变知识注入的探索。为了解决这个问题,我们提出了EVOKE基准,以评估LMM在真实场景中注入多模态演变知识的能力。同时,对多模态演变知识注入的全面评估揭示了两个挑战:(1)现有的知识注入方法在演变知识上表现非常糟糕。(2)监督式微调会导致灾难性遗忘,特别是指令遵循能力会严重受损。此外,我们提供了研究方向,并发现:(1)训练阶段的文本知识增强可以提高性能,而图像增强则无法实现。(2)持续学习方法,特别是Replay和MoELoRA,可以有效缓解遗忘。我们的研究结果表明,当前的知识注入方法在演变知识方面存在诸多局限性,这促使我们进一步研究更有效和稳定的知识注入方法。 |
2025-05-30 | Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning | null | 像CLIP这样的视觉-语言模型已经在分类和检索中展示了卓越的零样本能力。然而,这些模型通常在组合推理方面表现不佳——即理解概念之间关系的能力。最近的基准测试SugarCrepe++表明,先前改进组合性的工作主要提升了词汇敏感性,但忽略了语义理解。此外,下游检索性能通常会下降,尽管人们会期望提高组合性应该会增强检索能力。在这项工作中,我们介绍了一种名为CLIC(CLIP中具有组合感知能力的学习)的微调方法,该方法基于一种新颖的训练技术,结合了多张图像及其相关的描述文字。CLIC在词汇和语义理解方面,都提高了跨架构以及不同预训练CLIP模型的组合性,并在检索性能方面取得了持续的提升。这甚至适用于最近的CLIPS模型,该模型实现了最先进的检索性能。尽管如此,使用CLIC进行短时间的微调可以改善检索,并产生SugarCrepe++上最佳的组合CLIP模型。我们所有的模型和代码都可以在https://clic-compositional-clip.github.io上找到。 |
2025-05-30 | ROAD: Responsibility-Oriented Reward Design for Reinforcement Learning in Autonomous Driving | null | 强化学习在自动驾驶中的应用采用了一种试错机制,从而增强了在不可预测环境中的鲁棒性。然而,设计有效的奖励函数仍然具有挑战性,因为传统方法严重依赖手动设计,并且在复杂场景中效果有限。为了解决这个问题,本研究引入了一种面向责任的奖励函数,该函数将交通规则明确地纳入强化学习框架中。具体来说,我们引入了一个交通规则知识图谱,并利用视觉-语言模型以及检索增强生成技术来自动分配奖励。这种集成引导智能体严格遵守交通法规,从而最大限度地减少违规行为,并优化在各种驾驶条件下的决策性能。实验验证表明,所提出的方法显著提高了事故责任分配的准确性,并有效降低了智能体在交通事故中的责任。 |
2025-05-30 | Benchmarking Foundation Models for Zero-Shot Biometric Tasks | null | 基础模型的出现,特别是视觉-语言模型(VLMs)和多模态大型语言模型(MLLMs),重新定义了人工智能的前沿,能够在最少或没有监督的情况下,在各种任务中实现卓越的泛化。然而,它们在生物特征识别和分析中的潜力仍有待探索。在这项工作中,我们引入了一个综合基准,用于评估最先进的公开VLMs和MLLMs在六项生物特征任务中的零样本和小样本性能,这些任务涵盖面部和虹膜模态:人脸验证、软生物特征属性预测(性别和种族)、虹膜识别、呈现攻击检测(PAD)以及人脸操纵检测(人脸融合和深度伪造)。本次评估共使用了41个VLMs。实验表明,这些基础模型生成的嵌入可以用于各种生物特征任务,并取得不同程度的成功。例如,在人脸验证方面,在LFW数据集上,无需任何微调,即可在1%的错误匹配率(FMR)下获得96.77%的真实匹配率(TMR)。在虹膜识别方面,在IITD-R-Full数据集上,无需任何微调,即可在1%的FMR下获得97.55%的TMR。此外,我们表明,将一个简单的分类器应用于这些嵌入,可以帮助执行人脸的DeepFake检测、虹膜的呈现攻击检测(PAD),并以相当高的准确度从人脸中提取性别和种族等软生物特征属性。这项工作重申了预训练模型在实现通用人工智能长期愿景方面的潜力。 |
2025-05-30 | Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap | null | 确保视觉语言模型(VLMs)生成安全输出对于其可靠部署至关重要。然而,与它们的基础语言模型(LLM)相比,LVLM的安全性显著下降。即使是空白或不相关的图像也可能触发LVLM对仅在文本上下文中会被拒绝的提示生成有害响应。图像和文本表示之间的模态差距最近被认为是导致LVLM安全性下降的原因。然而,模态差距的大小如何影响LVLM的安全性尚未得到研究。在这项工作中,我们表明模态差距的大小与VLM的安全性高度负相关。然后,我们表明这种模态差距是在LVLM预训练期间引入的,并持续到微调阶段。受此观察的启发,我们提出了一种正则化方法,以减少预训练期间的模态差距。我们在LLaVA v1.5、ShareGPT4V和MiniGPT-4上的大量实验表明,我们的方法显著提高了LVLM的安全性对齐,在不影响性能的情况下,将不安全率降低了高达16.3%,并且可以进一步提升现有防御能力高达18.2%。 |
2025-05-30 | DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis? | link | 视觉语言模型(VLMs)在自然图像上表现出强大的零样本泛化能力,并在可解释的医学图像分析中展现出初步的应用前景。然而,现有的基准测试并没有系统地评估这些模型是否真正像人类临床医生一样进行推理,还是仅仅模仿表面模式。为了弥补这一差距,我们提出了DrVD-Bench,这是第一个用于临床视觉推理的多模态基准。DrVD-Bench由三个模块组成:视觉证据理解、推理轨迹评估和报告生成评估,总共包含7,789个图像-问题对。我们的基准测试涵盖20种任务类型、17个诊断类别和五种成像方式——CT、MRI、超声、X光和病理学。DrVD-Bench的结构明确地反映了从模态识别到病灶识别和诊断的临床推理工作流程。我们对19个VLMs进行了基准测试,包括通用和医学专用、开源和专有模型,并观察到随着推理复杂性的增加,性能急剧下降。虽然一些模型开始表现出类似人类推理的痕迹,但它们通常仍然依赖于捷径关联,而不是基于可靠的视觉理解。DrVD-Bench提供了一个严格而结构化的评估框架,以指导临床上值得信赖的VLMs的开发。 |
2025-05-30 | CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs | null | 视觉-语言模型(VLMs)在多模态理解方面取得了显著进展,但其科学推理能力仍未得到充分评估。目前的多模态基准测试主要评估通用图像理解或文本驱动的推理,缺乏真实的科学背景,而这些背景需要领域特定的知识与视觉证据分析相结合。为了填补这一空白,我们提出了CSVQA,这是一个诊断性的多模态基准测试,专门用于通过领域相关的视觉问答来评估科学推理。我们的基准测试包含1378个精心构建的问答对,涵盖不同的STEM学科,每个问答对都需要领域知识、视觉证据的整合以及高阶推理。与之前的多模态基准测试相比,CSVQA更加强调真实的科学内容和复杂的推理。此外,我们还提出了一个严格的评估协议,以系统地评估模型预测是否基于经过筛选的解释,并由有效的中间推理步骤证实。我们对15个VLMs在此基准测试上的全面评估揭示了显著的性能差异,即使是排名最高的专有模型也仅达到49.6%的准确率。这一经验证据强调了在VLMs中提升科学推理能力的迫切需求。我们的CSVQA已在https://huggingface.co/datasets/Skywork/CSVQA上发布。 |
2025-05-29 | mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation | null | 大型视觉语言模型(LVLMs)在视觉问答、视觉定位和复杂推理等多模态任务中取得了显著进展。然而,它们仍然受到静态训练数据、易受幻觉影响以及无法根据最新的外部证据验证声明的限制,从而影响了它们在动态现实世界应用中的性能。检索增强生成(RAG)提供了一种实用的解决方案,通过允许LVLMs通过检索机制访问大规模知识数据库,从而减轻这些挑战,从而将模型输出置于事实性的、上下文相关的信息中。在本文中,我们对LVLMs的多模态RAG流程进行了首次系统解剖,明确地研究了(1)检索阶段:关于模态配置和检索策略,(2)重排序阶段:关于减轻位置偏差和提高检索证据相关性的策略,以及(3)生成阶段:我们进一步研究如何最好地将检索到的候选信息整合到最终生成过程中。最后,我们扩展探索了一个统一的代理框架,该框架通过自我反思整合了重排序和生成,使LVLMs能够动态地选择相关证据并抑制不相关的上下文。我们对LVLMs的RAG的全栈探索产生了实质性的见解,在没有任何微调的情况下,平均性能提高了5%。 |
2025-05-29 | ZeroGUI: Automating Online GUI Learning at Zero Human Cost | link | 大型视觉-语言模型(VLMs)的快速发展推动了纯视觉GUI代理的发展,这些代理能够感知和操作图形用户界面(GUI),从而自主地完成用户指令。然而,现有的方法通常采用离线学习框架,该框架面临两个核心限制:(1)严重依赖于高质量的手动标注来进行元素定位和动作监督;(2)对动态和交互式环境的适应性有限。为了解决这些限制,我们提出了ZeroGUI,这是一个 7438 可扩展的在线学习框架,用于以零人工成本自动进行GUI代理的训练。具体来说,ZeroGUI集成了(i)基于VLM的自动任务生成,以从当前环境状态生成多样化的训练目标;(ii)基于VLM的自动奖励估计,以评估任务成功与否,而无需手工制作的评估函数;以及(iii)两阶段在线强化学习,以持续地与GUI环境交互并从中学习。在两个高级GUI代理(UI-TARS和Aguvis)上的实验表明,ZeroGUI显著提高了在OSWorld和AndroidLab环境中的性能。代码可在https://github.com/OpenGVLab/ZeroGUI获取。 |
2025-05-29 | Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint | link | 填字游戏是一种通过图像、空间排列和符号替换来编码语言的视觉谜题,对当前的视觉-语言模型(VLMs)提出了独特的挑战。与传统的图像描述或问答任务不同,填字游戏求解需要多模态抽象、符号推理以及对文化、语音和语言双关语的掌握。在本文中,我们通过构建一个手工生成和注释的、包含各种英语填字游戏的基准,来研究当代VLM解释和解决填字游戏的能力,这些填字游戏从简单的象形文字替换到空间相关的线索(例如“头”在“脚后跟”之上)。我们分析了不同VLM的表现,我们的研究结果表明,虽然VLM在解码简单的视觉线索方面表现出一些令人惊讶的能力,但它们在需要抽象推理、横向思维和理解视觉隐喻的任务中表现不佳。 |
2025-05-29 | To Trust Or Not To Trust Your Vision-Language Model's Prediction | link | 视觉-语言模型(VLMs)在对齐视觉和文本模态方面表现出强大的能力,从而在多模态理解和生成中实现了广泛的应用。虽然它们在零样本和迁移学习场景中表现出色,但VLM仍然容易出现错误分类,经常产生自信但错误的预测。这种局限性在安全攸关的领域构成了重大风险,因为错误的预测可能导致严重的后果。在这项工作中,我们介绍TrustVLM,这是一个无需训练的框架,旨在解决估计VLM预测何时可以信任的关键挑战。受到VLM中观察到的模态差距以及某些概念在图像嵌入空间中更清晰地表示的见解的推动,我们提出了一种新颖的置信度评分函数,该函数利用该空间来改进错误分类检测。我们通过17个不同的数据集,采用4种架构和2个VLM,严格评估了我们的方法,并展示了最先进的性能,与现有基线相比,AURC提高了高达51.87%,AUROC提高了9.14%,FPR95提高了32.42%。通过提高模型的可靠性而无需重新训练,TrustVLM为VLM在现实世界应用中更安全的部署铺平了道路。代码将在https://github.com/EPFL-IMOS/TrustVLM上提供。 |
2025-05-29 | Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better | null | 视觉-语言-动作 (VLA) 模型为训练物理系统(如机器人)的控制策略提供了一种强大的方法,它将端到端学习与来自网络规模视觉-语言模型 (VLM) 训练的语义知识迁移相结合。然而,实时控制的约束通常与 VLM 的设计相悖:最强大的 VLM 拥有数百亿甚至数千亿的参数,这给实时推理带来了障碍,并且它们在离散的 token 上运行,而不是控制机器人所需的连续值输出。为了应对这一挑战,最近的 VLA 模型使用了专门的模块来实现高效的连续控制,例如动作专家或连续输出头,这些模块通常需要向预训练的 VLM 主干网络添加新的未经训练的参数。虽然这些模块提高了实时性和控制能力,但它们是否保留或降低了预训练 VLM 中包含的语义知识,以及它们对 VLA 训练动态的影响,仍然是一个悬而未决的问题。在本文中,我们研究了在包含连续扩散或流匹配动作专家的 VLA 背景下的这个问题,表明简单地包含这些专家会显著损害训练速度和知识迁移。我们对各种设计选择及其对性能和知识迁移的影响进行了广泛的分析,并提出了一种在 VLA 训练期间隔离 VLM 主干网络的技术,以缓解此问题。视频可在 https://pi.website/research/knowledge_insulation 观看。 |
2025-05-29 | Grounded Reinforcement Learning for Visual Reasoning | link | 虽然基于思维链的强化学习(RL)已显著提升语言模型在数学和编程等任务中的能力,但视觉推理引入了额外的复杂性,它要求模型引导视觉注意力、解释感知输入,并将抽象推理建立在空间证据的基础上。我们引入了ViGoRL(视觉基础强化学习),这是一个通过强化学习训练的视觉-语言模型,旨在将每个推理步骤明确地锚定到特定的视觉坐标。受到人类视觉决策的启发,ViGoRL学习生成空间基础的推理轨迹,引导视觉注意力在每一步都关注任务相关的区域。当需要细粒度的探索时,我们新颖的多轮强化学习框架使模型能够随着推理的展开动态地放大到预测的坐标。在各种视觉推理基准测试中——包括用于空间推理的SAT-2和BLINK,用于视觉搜索的Vbench,以及用于基于Web的基础的ScreenSpot和VisualWebArena——ViGoRL始终优于缺乏显式基础机制的监督式微调和传统强化学习基线。结合多轮强化学习和放大后的视觉反馈,显著提高了ViGoRL在定位小型GUI元素和视觉搜索方面的性能,在VBench上达到了86.4%。此外,我们发现基础化增强了其他视觉行为,如区域探索、有基础的子目标设定和视觉验证。最后,人工评估表明,该模型的视觉参考不仅在空间上是准确的,而且有助于理解模型的推理步骤。我们的结果表明,视觉基础强化学习是一种强大的范例,可以赋予模型通用的视觉推理能力。 |
2025-05-29 | Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles | link | 将基于规则的强化学习(RL)应用于多模态大型语言模型(MLLM)引入了独特的挑战,并可能偏离纯文本领域的研究结果,尤其是在感知密集型任务中。本文以拼图游戏为结构化实验框架,对基于规则的视觉RL进行了全面研究,揭示了几个关键发现。首先,我们发现,最初在简单拼图上表现接近随机猜测的MLLM,通过微调可以达到接近完美的准确率,并推广到复杂、未见过的配置。其次,基于拼图游戏的训练可以诱导模型推广到其他视觉任务,其有效性与特定任务配置相关。第三,MLLM可以在有或没有显式推理的情况下进行学习和泛化,但开源模型通常倾向于直接回答。因此,即使经过逐步推理的训练,它们也可能忽略推导最终答案的思考过程。第四,我们观察到复杂的推理模式似乎是预先存在的,而不是涌现的,其频率随着训练和任务难度的增加而增加。最后,我们的结果表明,RL表现出比监督式微调(SFT)更有效的泛化能力,并且初始的SFT冷启动阶段可能会阻碍后续的RL优化。尽管这些观察结果是基于拼图游戏的,并且可能因其他视觉任务而异,但这项研究为全面理解基于规则的视觉RL及其在多模态学习中的潜力提供了一个有价值的组成部分。代码可在以下网址获取:\href{https://github.com/zifuwanggg/Jigsaw-R1}{https://github.com/zifuwanggg/Jigsaw-R1}。 |
2025-05-29 | Evaluating AI capabilities in detecting conspiracy theories on YouTube | link | 作为一个拥有庞大全球受众的领先在线平台,YouTube的广泛影响力也使其容易成为有害内容(包括虚假信息和阴谋论)的载体。本研究探讨了使用开放权重的大型语言模型(LLM)(包括纯文本和多模态)来识别在YouTube上分享的阴谋论视频。利用数千个已标记视频的数据集,我们评估了各种LLM在零样本设置中的表现,并将其性能与微调的RoBERTa基线进行比较。结果表明,基于文本的LLM实现了高召回率,但精确率较低,导致假阳性增加。多模态模型落后于其纯文本模型,表明视觉数据集成带来的好处有限。为了评估实际应用性,我们在未标记的数据集上评估了最准确的模型,发现RoBERTa的性能接近于具有更多参数的LLM。我们的工作强调了当前基于LLM的方法在在线有害内容检测方面的优势和局限性,强调需要更精确和稳健的系统。 |
2025-05-29 | Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition | link | 手写数学表达式识别(HMER)由于符号布局的内在自由性和手写风格的多样性,仍然是光学字符识别(OCR)中一个持续存在的挑战。先前的方法面临性能瓶颈,提出的孤立架构修改难以连贯地整合到一个统一的框架中。同时,预训练的视觉-语言模型(VLM)的最新进展已经证明了强大的跨任务泛化能力,为开发统一的解决方案提供了有希望的基础。在本文中,我们介绍了Uni-MuMER,它完全微调了一个VLM用于HMER任务,而无需修改其架构,从而有效地将领域特定的知识注入到一个通用框架中。我们的方法集成了三个数据驱动的任务:用于结构化空间推理的树感知链式思考(Tree-CoT),用于减少视觉上相似字符之间混淆的误差驱动学习(EDL),以及用于提高长表达式中识别一致性的符号计数(SC)。在CROHME和HME100K数据集上的实验表明,Uni-MuMER实现了新的最先进的性能,在零样本设置中,超过了最佳轻量级专用模型SSAN 16.31%,以及表现最佳的VLM Gemini2.5-flash 24.42%。我们的数据集、模型和代码已在以下网址开源:https://github.com/BFlameSwift/Uni-MuMER |
2025-05-29 | Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information | link | 推理时间扩展驱动了扩展推理,从而增强了视觉语言模型(VLM)的性能,进而形成了强大的视觉语言推理模型(VLRM)。然而,长时间的推理会稀释视觉tokens,导致视觉信息获得的关注较少,并可能引发幻觉。尽管引入纯文本反思过程在语言模型中显示出前景,但我们证明它不足以抑制VLM中的幻觉。为了解决这个问题,我们引入了Qwen-LookAgain(Qwen-LA),这是一种新颖的VLRM,旨在通过结合视觉-文本反思过程来减少幻觉,该过程引导模型在推理过程中重新关注视觉信息。我们首先提出了一种强化学习方法,即平衡反思策略优化(BRPO),该方法引导模型自主决定何时生成视觉-文本反思,并平衡反思的数量和长度。然后,我们正式证明了VLRM随着推理的进行会减少对视觉tokens的关注,并证明在反思过程中补充视觉信息可以增强视觉注意力。因此,在训练和推理过程中,引入了视觉Token COPY和视觉Token ROUTE,以迫使模型在视觉层面上重新关注视觉信息,从而解决了纯文本反思的局限性。在多个视觉问答数据集和幻觉指标上的实验表明,Qwen-LA在降低幻觉的同时,实现了领先的准确率性能。我们的代码可在以下网址获得:https://github.com/Liar406/Look_Again。 |
2025-05-29 | OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data | null | 现有的地球科学多模态学习基准在地球系统各组成部分和跨领域交互的系统覆盖方面存在严重局限性,通常局限于孤立的子系统(仅限于人类活动领域或大气层),且评估维度有限(少于16个任务)。为了解决这些差距,我们推出了OmniEarth-Bench,这是首个综合性的多模态基准,涵盖所有六个地球科学领域(大气圈、岩石圈、海洋圈、冰冻圈、生物圈和人类活动领域)以及跨领域,具有一百个专家策划的评估维度。OmniEarth-Bench利用来自卫星传感器和原位观测数据的观测数据,整合了跨越四个层级的29,779个标注:感知、通用推理、科学知识推理和思维链(CoT)推理。这涉及到每个领域2-5名专家来建立权威的评估维度并管理相关的观测数据集,40名众包标注员协助专家进行标注,最后,OmniEarth-Bench通过混合专家-众包工作流程进行验证,以减少标签歧义。在9个最先进的MLLM上的实验表明,即使是最先进的模型也难以应对我们的基准,没有一个模型达到35%的准确率。特别是在一些跨领域任务中,GPT-4o等领先模型的性能下降到0.0%。OmniEarth-Bench为具有地球系统意识的AI设定了新标准,推动了环境监测和灾害预测方面的科学发现和实际应用。数据集、源代码和训练好的模型已发布。 |
2025-05-27 | ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models | null | 视觉语言模型(VLMs)在理解和推理视觉内容方面表现出卓越的能力,但在需要跨视角理解和空间推理的任务中仍然存在重大挑战。我们发现了一个关键限制:当前的VLM主要擅长以自我为中心的空间推理(从相机的角度),但当需要采用另一个实体的空间参考系时,无法推广到以他人为中心的视角。我们推出了ViewSpatial-Bench,这是第一个全面的基准,专门用于跨五种不同任务类型的多视角空间定位识别评估,并由自动3D注释流程支持,该流程生成精确的方向标签。对ViewSpatial-Bench上各种VLM的全面评估显示出显著的性能差异:模型在相机视角任务上表现出合理的性能,但在以人类视角进行推理时,准确性降低。通过在我们的多视角空间数据集上对VLM进行微调,我们在各项任务中的总体性能提高了46.24%,突出了我们方法的有效性。我们的工作为具身人工智能系统中的空间智能建立了一个关键基准,并提供了经验证据,表明对3D空间关系进行建模可以增强VLM相应的空间理解能力。 |
2025-05-27 | Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration | null | 大型视觉语言模型(LVLMs)在多模态任务上表现出色,但经常出现幻觉问题,即自信地描述图像中不存在的物体或属性。目前在推理时进行的干预措施虽然无需训练,但在开放式和长格式生成场景中难以保持准确性。我们引入了一种置信度感知注意力校准(CAAC)框架,通过解决两个关键偏差来应对这一挑战:空间感知偏差(将注意力不成比例地分配到图像 tokens 上)和模态偏差(随着时间的推移,将注意力从视觉输入转移到文本输入)。CAAC 采用两步法:视觉 Token 校准(VTC)用于平衡视觉 tokens 之间的注意力,自适应注意力重缩放(AAR)用于根据模型的置信度加强视觉 grounding。这种置信度驱动的调整确保了生成过程中一致的视觉对齐。在 CHAIR、AMBER 和 POPE 基准测试上的实验表明,CAAC 优于基线方法,尤其是在长格式生成中,能有效地减少幻觉。 |
2025-05-27 | ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models | null | 目前,增强视觉-语言模型(VLM)性能的一种普遍方法是同时编码图像的高分辨率版本和缩略图。虽然有效,但这种方法会生成大量的图像tokens。当与广泛使用的旋转位置嵌入(RoPE)结合使用时,其长期衰减特性会阻碍高分辨率tokens和缩略图tokens之间以及文本和图像之间的交互。为了解决这些问题,我们提出了ID-Align,它通过重新排序位置ID来缓解这些问题。在这种方法中,高分辨率tokens继承来自其相应缩略图token的ID,同时约束位置索引的过度扩展。我们在LLaVA-Next框架内进行的实验表明,ID-Align取得了显著的改进,包括在MMBench的关系推理任务中提高了6.09%,并在多个基准测试中获得了显著的收益。我们的代码可在以下链接获取:https://github.com/zooblastlbz/ID-Align。 |
2025-05-27 | XBOUND: Exploring the Capability Boundaries of Device-Control Agents through Trajectory Tree Exploration | null | 视觉语言模型(VLMs)的最新进展激发了人们对设备控制代理(DC代理)的兴趣,例如利用实际设备控制来管理图形用户界面。评估DC代理能力的传统方法,如计算逐步动作准确率和总体任务成功率,提供了DC代理性能的宏观视图;然而,这些方法无法提供对真实应用中可能发生的潜在错误的微观见解。对DC代理进行更细粒度的性能评估提出了重大挑战。本研究通过提出XBOUND评估方法,引入了一种评估DC代理方法的新视角,该方法采用计算一种新的探索度量来描绘DC代理的能力边界。与之前的评估方法相比,XBOUND侧重于单个状态,以评估DC代理掌握这些状态的熟练程度。此外,我们还开发了一个源自Android Control测试数据的“伪”情节树数据集。利用该数据集和XBOUND,我们全面评估了OS-Atlas和UI-TARS系列,检查了五个常见任务的总体和特定性能。此外,我们选择代表性案例来突出这两个系列中固有的当前缺陷和局限性。代码可在https://github.com/sqzhang-lazy/XBOUND获取。 |
2025-05-27 | RefAV: Towards Planning-Centric Scenario Mining | link | 自动驾驶车辆(AVs)在正常的车队测试中收集和伪标记数TB的多模态数据,这些数据都定位到高清地图上。然而,从未经筛选的驾驶日志中识别有趣和对安全至关重要的场景仍然是一个巨大的挑战。传统的场景挖掘技术容易出错且非常耗时,通常依赖于手工制作的结构化查询。在这项工作中,我们通过最近的视觉-语言模型(VLMs)的角度重新审视时空场景挖掘,以检测所描述的场景是否发生在驾驶日志中,如果是,则在时间和空间上精确定位它。为了解决这个问题,我们引入了RefAV,这是一个大型数据集,包含10,000个不同的自然语言查询,这些查询描述了与运动规划相关的复杂多智能体交互,这些查询来自Argoverse 2传感器数据集中1000个驾驶日志。我们评估了几个参考多目标跟踪器,并对我们的基线进行了实证分析。值得注意的是,我们发现简单地重新利用现成的VLM会产生较差的性能,这表明场景挖掘提出了独特的挑战。我们的代码和数据集可在https://github.com/CainanD/RefAV/和https://argoverse.github.io/user-guide/tasks/scenario_mining.html上找到。 |
2025-05-27 | On VLMs for Diverse Tasks in Multimodal Meme Classification | null | 本文针对不同的模因分类任务,对视觉-语言模型(VLM)进行了全面而系统的分析。我们提出了一种新颖的方法,该方法生成基于VLM的模因图像理解,并对嵌入式模因文本的文本理解进行LLM微调,以提高性能。我们的贡献有三方面:(1)使用专门针对每个子任务的不同提示策略对VLM进行基准测试;(2)评估跨所有VLM组件的LoRA微调,以评估性能提升;(3)提出一种新颖的方法,其中使用VLM生成的详细模因解释来训练较小的语言模型(LLM),从而显着提高分类效果。VLM与LLM相结合的策略分别将讽刺、冒犯和情感分类的基线性能提高了8.34%、3.52%和26.24%。我们的结果揭示了VLM的优势和局限性,并提出了一种新的模因理解策略。 |
2025-05-27 | PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding | null | 现实世界的物体由独特的、物体特定的部件组成。识别这些部件是进行细粒度、组合推理的关键,然而,大型多模态模型(LMM)很难完成这项看似简单的任务。在这项工作中,我们推出了PARTONOMY,这是一个专为像素级部件定位而设计的LMM基准。我们利用现有的部件数据集和我们自己严格标注的图像集构建PARTONOMY,包括862个部件标签和534个对象标签用于评估。与现有仅要求模型识别通用部件的数据集不同,PARTONOMY使用专门的概念(例如,农业飞机),并挑战模型比较对象的部件、考虑部件-整体关系,并用视觉分割来证明文本预测的合理性。我们的实验表明,最先进的LMM存在显著的局限性(例如,LISA-13B仅达到5.9%的gIoU),突显了它们在部件定位能力方面的一个关键差距。我们注意到,现有的支持分割的LMM(分割LMM)有两个关键的架构缺陷:它们使用在预训练期间未见过的特殊[SEG]令牌,这会导致分布偏移;并且它们丢弃了预测的分割,而不是使用过去的预测来指导未来的预测。为了解决这些缺陷,我们训练了几个以部件为中心的LMM,并提出了PLUM,一种新颖的分割LMM,它使用跨度标记而不是分割令牌,并在反馈循环中以先前的预测为条件。我们发现,预训练的PLUM在推理分割、VQA和视觉幻觉基准测试中优于现有的分割LMM。此外,在我们的解释性部件分割任务上进行微调的PLUM与在明显更多的分割数据上训练的分割LMM具有竞争力。我们的工作为在LMM中实现细粒度的、基于基础的视觉理解开辟了新的途径。 |
2025-05-27 | Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models | link | 大型多模态模型(LMM)最近在视觉语言和以视觉为中心任务上都展示了卓越的视觉理解性能。然而,它们在整合用于组合推理的先进的、特定于任务的能力方面常常不足,这阻碍了它们朝着真正有能力的一般视觉模型发展。为了解决这个问题,我们提出了一种统一的视觉推理机制,使LMM能够通过利用其内在能力(例如,基础和视觉理解能力)来解决复杂的组合问题。与先前的捷径学习机制不同,我们的方法引入了一种类似人类的理解-思考-回答过程,允许模型在单次前向传播中完成所有步骤,而无需多次推理或外部工具。这种设计弥合了基础视觉能力和一般问题解答之间的差距,鼓励LMM为复杂的视觉推理生成忠实且可追溯的响应。同时,我们整理了33.4万个视觉指令样本,涵盖了一般场景和富文本场景,并涉及多种基础视觉能力。我们训练的模型Griffon-R具有端到端的自动理解、自我思考和推理答案的能力。综合实验表明,Griffon-R不仅在包括VSR和CLEVR在内的复杂视觉推理基准测试中取得了领先的性能,而且还增强了跨各种基准测试(如MMBench和ScienceQA)的多模态能力。数据、模型和代码将很快在https://github.com/jefferyZhan/Griffon/tree/master/Griffon-R上发布。 |
2025-05-27 | Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models | null | 空间推理是人类认知的一个核心组成部分,使个体能够感知、理解物理世界并与之互动。它依赖于对空间结构和对象间关系的细致理解,是复杂推理和决策的基础。为了研究当前视觉-语言模型(VLMs)是否表现出类似的能力,我们引入了Jigsaw-Puzzles,这是一个新颖的基准,包含1100个精心策划的、具有高空间复杂度的真实世界图像。基于此数据集,我们设计了五个任务,以严格评估VLMs的空间感知、结构理解和推理能力,同时刻意减少对特定领域知识的依赖,以便更好地区分和评估一般的空间推理能力。我们对24个最先进的VLMs进行了全面评估。结果表明,即使是最强大的模型Gemini-2.5-Pro,也仅达到77.14%的总体准确率,并且在Order Generation任务上的表现尤其糟糕,准确率仅为30.00%,远低于人类参与者超过90%的准确率。这种持续存在的差距强调了持续进步的必要性,使Jigsaw-Puzzles成为一个具有挑战性和诊断性的基准,以推动VLMs中空间推理的研究。 |
2025-05-27 | Automating eHMI Action Design with LLMs for Automated Vehicle Communication | null | 自动驾驶车辆(AVs)与其它道路使用者之间缺乏显式的通信渠道,因此需要使用外部人机界面(eHMIs)在不确定的场景中有效地传递信息。目前,大多数eHMI研究采用预定义的文本消息和手动设计的动作来执行这些消息,这限制了eHMI的实际部署,而在实际部署中,动态场景中的适应性至关重要。鉴于大型语言模型(LLMs)的通用性和多功能性,它们有可能作为消息-动作设计任务的自动动作设计者。为了验证这个想法,我们做出了三个贡献:(1)我们提出了一个集成了LLMs和3D渲染器的流程,使用LLMs作为动作设计者来生成可执行的动作,以控制eHMIs并渲染动作片段。(2)我们收集了一个用户评分的动作设计评分数据集,该数据集包含总共320个动作序列,对应八个预期消息和四个代表性的eHMI模态。该数据集验证了LLMs可以将预期消息转换为接近人类水平的动作,特别是对于具有推理能力的LLMs。(3)我们引入了两个自动评分器,即动作参考评分(ARS)和视觉-语言模型(VLMs),以对18个LLMs进行基准测试,发现VLM与人类偏好相符,但在不同的eHMI模态中有所不同。 |
2025-05-23 10000 | TokBench: Evaluating Your Visual Tokenizer before Visual Generation | null | 在这项工作中,我们揭示了视觉标记器和变分自编码器(VAE)在保留细粒度特征方面的局限性,并提出了一个基准,用于评估两种具有挑战性的视觉内容(文本和面部)的重建性能。图像标记化技术显著推动了视觉生成和多模态建模的发展,特别是由于离散标记的建模简单性,自回归模型更是受益匪浅。自回归模型通常依赖图像标记器将图像压缩成离散的标记,以进行序列预测,而扩散模型通常在连续潜在空间中操作,以降低计算成本。然而,这两种视觉压缩方法都不可避免地会丢失视觉信息,从而限制了视觉生成质量的上限。为了评估这些压缩损失如何影响文本和面部(最受人类关注的视觉元素),我们首先从现有数据集中收集和整理了一系列文本和面部图像,确保其清晰度和多样性。对于文本重建,我们采用光学字符识别(OCR)模型来评估重建文本的识别准确率;然后,我们测量原始面部和重建面部之间的特征相似性,从而量化面部重建的保真度。我们的方法非常轻量级,仅需2GB内存和4分钟即可完成评估。通过我们的基准,我们分析了不同图像标记器和变分自编码器在各种尺度下文本和面部的重建质量。我们的结果表明,现代视觉标记器仍然难以保留细粒度特征,尤其是在较小尺度下。此外,我们将此评估框架扩展到视频领域,对视频标记器进行了全面分析。另外,我们发现传统指标未能准确反映面部和文本的重建性能,而我们提出的指标可以作为有效的补充。 |
2025-05-23 | VideoGameBench: Can Vision-Language Models complete popular video games? | null | 视觉语言模型(VLMs)在对人类具有挑战性的编码和数学基准测试中取得了显著成果,但它们执行对人类来说很自然的任务(如感知、空间导航和记忆管理)的能力仍未得到充分研究。真实的视频游戏被设计成利用人类固有的归纳偏见,使其易于学习和掌握,这使得它们成为评估VLMs中这些能力的理想试验平台。为此,我们推出了VideoGameBench,这是一个由20世纪90年代的10款流行视频游戏组成的基准测试,VLMs可以直接实时地与这些游戏进行交互。VideoGameBench要求模型仅通过原始视觉输入以及目标和控制的高级描述来完成整个游戏,这与依赖于特定于游戏的支架和辅助信息的现有设置有很大不同。我们对其中三款游戏保密,以鼓励推广到未见环境的解决方案。我们的实验表明,前沿视觉语言模型很难在每个游戏的开头取得进展。我们发现推理延迟是实时环境中前沿模型的主要限制;因此,我们推出了VideoGameBench Lite,这是一种在等待LM的下一个动作时游戏暂停的设置。性能最佳的模型Gemini 2.5 Pro仅完成了0.48%的VideoGameBench和1.6%的VideoGameBench Lite。我们希望将上述人类技能形式化到此基准测试中,能够推动这些研究方向的进展。 |
2025-05-23 | One RL to See Them All: Visual Triple Unified Reinforcement Learning | null | 强化学习(RL)显著提升了视觉语言模型(VLMs)的推理能力。然而,强化学习在推理任务之外的应用,特别是在诸如目标检测和定位等感知密集型任务中的应用,仍有待探索。我们提出了V-Triune,一个视觉三重统一强化学习系统,它使VLMs能够在单一训练流程中联合学习视觉推理和感知任务。V-Triune包含三个互补的组件:样本级数据格式化(用于统一不同的任务输入),验证器级奖励计算(用于通过专门的验证器传递自定义奖励),以及源级指标监控(用于在数据源级别诊断问题)。我们进一步引入了一种新颖的动态IoU奖励,它为V-Triune处理的感知任务提供自适应、渐进和明确的反馈。我们的方法使用开源的7B和32B骨干模型在现成的强化学习训练框架中实例化。由此产生的模型,被称为Orsta(One RL to See Them All),在推理和感知任务中都表现出持续的改进。这种广泛的能力主要得益于其在多样化数据集上的训练,该数据集围绕四个代表性的视觉推理任务(数学、拼图、图表和科学)和四个视觉感知任务(定位、检测、计数和OCR)构建。随后,Orsta在MEGA-Bench Core上取得了显著的提升,在其各种7B和32B模型变体中,改进幅度从+2.1到令人印象深刻的+14.1不等,性能优势扩展到广泛的下游任务。这些结果突显了我们用于VLMs的统一强化学习方法的有效性和可扩展性。V-Triune系统以及Orsta模型已在https://github.com/MiniMax-AI上公开提供。 |
2025-05-23 | CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays | link | 大型视觉语言模型(LVLMs)的最新进展已经在医疗任务中实现了有前景的应用,例如报告生成和视觉问答。然而,现有的基准主要侧重于最终的诊断答案,对于模型是否参与具有临床意义的推理提供的见解有限。为了解决这个问题,我们提出了CheXStruct和CXReasonBench,这是一个构建在公开可用的MIMIC-CXR-JPG数据集上的结构化流程和基准。CheXStruct直接从胸部X光片自动推导出一系列中间推理步骤,例如分割解剖区域、推导解剖标志和诊断测量、计算诊断指标以及应用临床阈值。CXReasonBench利用此流程来评估模型是否可以执行临床上有效的推理步骤,以及它们可以在多大程度上从结构化指导中学习,从而实现对诊断推理的细粒度和透明评估。该基准包括跨12个诊断任务的18,988个QA对和1,200个病例,每个病例都配有多达4个视觉输入,并支持多路径、多阶段评估,包括通过解剖区域选择和诊断测量进行视觉定位。即使是经过评估的10个LVLM中最强的模型,也在结构化推理和泛化方面表现不佳,经常无法将抽象知识与解剖学上可靠的视觉解释联系起来。代码可在https://github.com/ttumyche/CXReasonBench获取。 |
2025-05-23 | FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation | null | 提示学习作为一种参数高效的方法,已被广泛用于将视觉-语言模型(VLM)适应于下游任务。硬提示设计需要领域专业知识和迭代优化,而软提示方法则严重依赖于特定于任务的硬标签,从而限制了它们对未见类别的泛化能力。最近流行的基于蒸馏的提示学习方法通过利用更大的教师VLM和无监督知识转移来提高泛化能力,但它们重复的教师模型在线推理牺牲了提示学习固有的训练效率优势。在本文中,我们提出了一种更快的基于蒸馏的提示学习(FDBPL),它通过在多个训练阶段共享软监督上下文并实施加速I/O来解决这些问题。此外,FDBPL引入了一种具有双重正负提示空间的区域感知提示学习范例,以充分利用包含多层次信息的随机裁剪区域。我们提出了一种基于相似性-差异学习的正负空间互学习机制,使学生CLIP模型能够识别正确的语义,同时学习拒绝弱相关的概念,从而提高零样本性能。与现有的以牺牲参数效率为代价来提高泛化能力的基于蒸馏的提示学习方法不同,FDBPL保持了参数效率和强大的下游泛化的双重优势。在11个数据集上的全面评估表明,其在基类到新类的泛化、跨数据集迁移和鲁棒性测试中表现出色,并实现了快2.2倍的训练速度。 |
2025-05-23 | Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation | null | 诸如CLIP(对比语言-图像预训练)之类的基础模型通过跨模态对齐实现了零样本和小样本学习,从而彻底改变了视觉-语言任务。然而,它们的计算复杂性和庞大的内存占用使其不适合部署在资源受限的边缘设备上,例如用于图像采集和实时处理的车载摄像头。为了应对这一挑战,我们提出了Clip4Retrofit,这是一个高效的模型蒸馏框架,可以在边缘设备上实现实时图像标记。该框架部署在Retrofit相机上,这是一种经济高效的边缘设备,已改装到数千辆汽车中,尽管其计算性能和内存受到严格限制。我们的方法将CLIP模型的知识提炼成一个轻量级的学生模型,结合了EfficientNet-B3和多层感知器(MLP)投影头,以保持跨模态对齐,同时显著降低计算需求。我们证明了我们提炼的模型实现了效率和性能之间的平衡,使其成为在现实场景中部署的理想选择。实验结果表明,Clip4Retrofit可以在资源有限的边缘设备上执行实时图像标记和对象识别,为自动驾驶和改造现有系统等应用提供了一种实用的解决方案。这项工作弥合了最先进的视觉-语言模型与其在资源受限环境中部署之间的差距,为基础模型在边缘计算中的更广泛应用铺平了道路。 |
2025-05-23 | Seeing It or Not? Interpretable Vision-aware Latent Steering to Mitigate Object Hallucinations | null | 大型视觉语言模型(LVLMs)已经取得了显著的成功,但仍然难以解决对象幻觉(OH)问题,即生成与视觉输入不一致的输出。虽然之前的工作已经提出了减少OH的方法,但导致幻觉的视觉决策机制仍然不甚明了。在本文中,我们提出了VaLSe,一个视觉感知潜在引导框架,它采用了解释-然后-缓解的策略来解决LVLMs中的OH问题。通过应对建模复杂视觉-语言交互以及消除虚假激活伪影的双重挑战,VaLSe可以生成视觉贡献图,追踪特定视觉输入如何影响单个输出token。这些图揭示了模型的视觉感知焦点区域,然后用于执行潜在空间引导,将内部表示重新调整到语义相关的内容,并减少幻觉输出。大量的实验表明,VaLSe是一个强大的可解释性工具,也是一种有效的方法,可以提高模型在多个基准测试中对抗OH的鲁棒性。此外,我们的分析揭示了现有OH评估指标的局限性,强调了未来工作中需要更细致、可解释且以视觉为基础的OH基准测试。代码可在以下网址获取:https://github.com/Ziwei-Zheng/VaLSe。 |
2025-05-23 | U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding | null | 超声是一种广泛使用的成像方式,对全球医疗保健至关重要,但由于其图像质量因操作者、噪声和解剖结构而异,其解读仍然具有挑战性。尽管大型视觉语言模型(LVLMs)已在自然和医学领域展示出令人印象深刻的多模态能力,但它们在超声上的性能在很大程度上仍未被探索。我们推出了U2-BENCH,这是第一个综合性基准,用于评估LVLMs在超声理解方面的能力,涵盖分类、检测、回归和文本生成任务。U2-BENCH汇集了7,241个病例,涵盖15个解剖区域,并定义了8个临床启发任务,例如诊断、视图识别、病灶定位、临床价值评估和报告生成,涵盖50个超声应用场景。我们评估了20个最先进的LVLMs,包括开源和闭源、通用和医学专用模型。我们的结果表明,在图像级分类方面表现出色,但在空间推理和临床语言生成方面仍然存在挑战。U2-BENCH建立了一个严谨而统一的测试平台,旨在评估和加速LVLM在医学超声成像这一独特多模态领域的研究。 |
2025-05-23 | Towards General Continuous Memory for Vision-Language Models | null | 语言模型(LM)及其扩展,即视觉-语言模型(VLM),已在各种任务中取得了显著的性能。然而,它们在需要多模态或多语言现实世界知识的复杂推理任务中仍然面临挑战。为了支持这些能力,一个能够有效提供相关多模态信息的外部记忆系统至关重要。现有方法通常将图像和文本标记连接成一个长序列作为记忆,但这可能会急剧增加上下文长度,甚至降低性能。相比之下,我们建议使用连续记忆,这是一种紧凑的密集嵌入集合,可以更有效和高效地表示多模态和多语言知识。我们的关键见解是,VLM可以作为其自身的连续记忆编码器。我们通过实验表明,这种设计提高了复杂多模态推理任务的性能。在此基础上,我们引入了一种数据高效和参数高效的方法,将VLM微调为记忆编码器,仅需模型1.2%的参数和一个包含1.56万个自合成样本的小型语料库。我们的方法CoMEM利用VLM的原始能力,将任意多模态和多语言知识编码成仅8个连续嵌入。由于推理时的VLM保持冻结状态,我们的记忆模块是即插即用的,可以根据需要灵活集成。在八个多模态推理基准上的大量实验证明了我们方法的有效性。 |
2025-05-23 | EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications | null | 电子商务平台越来越多地依赖大型语言模型(LLM)和视觉-语言模型(VLM)来检测非法或误导性的产品内容。然而,这些模型仍然容易受到规避性内容的攻击:这些输入(文本或图像)表面上符合平台政策,但暗中传达被禁止的主张。与诱导明显失败的传统对抗性攻击不同,规避性内容利用歧义和上下文,使其更难被检测到。现有的鲁棒性基准测试为此项要求严苛的现实世界挑战提供的指导甚少。我们推出了EVADE,这是首个由专家策划的中文多模态基准,专门用于评估基础模型在电子商务中对规避性内容检测的能力。该数据集包含2,833个带注释的文本样本和13,961张图像,涵盖六个要求严格的产品类别,包括塑身、增高和保健品。两个互补的任务评估不同的能力:“单项违规”探测短提示下的细粒度推理,以及“多合一”通过将重叠的策略规则合并为统一的指令来测试长上下文推理。值得注意的是,“多合一”设置显著缩小了部分匹配和完全匹配准确率之间的性能差距,表明更清晰的规则定义可以改善人类和模型判断之间的一致性。我们对26个主流LLM和VLM进行了基准测试,并观察到显著的性能差距:即使是最先进的模型也经常错误分类规避性样本。通过发布EVADE和强大的基线,我们为评估规避性内容检测提供了首个严格的标准,揭示了当前多模态推理的基本局限性,并为电子商务中更安全、更透明的内容审核系统奠定了基础。该数据集可在https://huggingface.co/datasets/koenshen/EVADE-Bench公开获取。 |
2025-05-22 | CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms | link | 大型多模态模型(LMM)的出现显著增强了大型语言模型(LLM)处理和解释多样数据模态(例如,图像和视频)的能力。然而,随着输入复杂性的增加,特别是对于长视频序列,所需token的数量显著增长,导致计算成本呈二次方增长。这使得在LMM中高效压缩视频token,同时保持性能完整性,成为一个紧迫的研究挑战。在本文中,我们介绍了CrossLMM,通过双重交叉注意力机制将长视频序列与LMM解耦,从而在最小性能下降的情况下大幅减少视觉token的数量。具体来说,我们首先通过一种池化方法,从预训练的视觉编码器中实现显著的token缩减。然后,在LLM层中,我们采用一种视觉到视觉的交叉注意力机制,其中池化的视觉token作为查询,针对原始的视觉token集合。该模块能够更有效地利用token,同时保留细粒度的信息保真度。此外,我们还引入了一种文本到视觉的交叉注意力机制,通过与原始视觉token的交互来增强文本token,从而丰富文本token的视觉理解。全面的经验评估表明,尽管使用明显更少的计算资源,我们的方法在各种基于视频的LMM基准测试中实现了可比或更优越的性能。 |
2025-05-22 | OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning | link | 开放词汇分割 (OVS) 因其将分割推广到预定义类别之外的能力而受到越来越多的关注。然而,现有方法通常通过简单的前向推理来预测分割掩码,缺乏明确的推理和可解释性。由于缺乏上下文理解和区分性视觉线索,这使得 OVS 模型难以区分开放世界环境中的相似类别。为了解决这个限制,我们提出了一个用于开放词汇分割的逐步视觉推理框架,名为 OpenSeg-R。所提出的 OpenSeg-R 利用大型多模态模型 (LMM) 在分割前执行分层视觉推理。具体来说,我们为每个图像生成通用和图像特定的推理,形成结构化的三元组,以粗到精的方式解释对象的可视原因。基于这些推理步骤,我们可以编写详细的描述提示,并将它们提供给分割器,以生成更准确的分割掩码。据我们所知,OpenSeg-R 是第一个将显式的逐步视觉推理引入 OVS 的框架。实验结果表明,OpenSeg-R 在五个基准数据集上的开放词汇语义分割方面显着优于最先进的方法。此外,它在开放词汇全景分割的所有指标上都取得了持续的收益。定性结果进一步突出了我们的推理引导框架在提高分割精度和可解释性方面的有效性。我们的代码可在 https://github.com/Hanzy1996/OpenSeg-R 公开获取。 |
2025-05-22 | ICYM2I: The illusion of multimodal informativeness under missingness | link | 多模态学习在基于人工智能的应用中一直备受关注,其动机在于结合不同类型的数据可能带来的潜在信息增益。然而,在开发过程中收集和整理的模态可能与部署时可用的模态不同,这可能是由于多种因素造成的,包括成本、硬件故障,或者——正如我们在这项工作中论证的那样——对给定模态的信息量的感知。在没有考虑缺失的情况下,天真地估计与包含额外模态相关的信息增益,可能会导致对该模态在下游任务中的价值的不正确估计。我们的工作形式化了多模态学习中缺失的问题,并展示了忽略此过程所导致的偏差。为了解决这个问题,我们引入了ICYM2I(以防你错过了多模态信息),这是一个通过基于逆概率加权的校正来评估缺失情况下预测性能和信息增益的框架。我们通过合成、半合成和真实世界的医疗数据集,证明了所提出的调整对于估计缺失情况下信息增益的重要性。 |
2025-05-22 | Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models | link | 强化学习(RL)已被证明是一种有效的后训练策略,可以增强视觉-语言模型(VLMs)的推理能力。群组相对策略优化(GRPO)是最近一种突出的方法,它鼓励模型在回答之前生成完整的推理轨迹,从而导致token使用量和计算成本增加。受到类似人类的思考过程的启发——人们会跳过简单问题的推理,但在需要时会仔细思考——我们探索如何使VLM首先决定何时需要推理。为了实现这一点,我们提出了TON,一种两阶段训练策略:(i)一个带有简单而有效的“思想dropout”操作的监督式微调(SFT)阶段,其中推理轨迹被随机替换为空思想。这引入了一种“思考或不思考”的格式,作为选择性推理的冷启动;(ii)一个GRPO阶段,使模型能够自由探索何时思考或不思考,同时最大化任务相关的结果奖励。实验结果表明,与原始GRPO相比,TON可以将完成长度减少高达90%,而不会牺牲性能,甚至可以提高性能。在3B和7B模型下,对涵盖各种推理难度的不同视觉-语言任务的进一步评估一致表明,随着训练的进行,模型逐渐学会绕过不必要的推理步骤。这些发现揭示了强化学习方法中类人推理模式的路径。我们的代码可在https://github.com/kokolerk/TON上找到。 |
2025-05-22 | LaViDa: A Large Diffusion Language Model for Multimodal Understanding | link | 现代视觉-语言模型(VLMs)能够解决各种需要视觉推理的任务。在实际应用场景中,理想的VLMs应具备快速推理和可控生成等特性(例如,约束输出以符合期望的格式)。然而,现有的自回归(AR)VLMs(如LLaVA)在这些方面表现不佳。离散扩散模型(DMs)提供了一种有前景的替代方案,它可以通过并行解码实现更快的推理,并通过文本填充的双向上下文实现可控生成。尽管DMs在纯语言环境中表现出色,但其在多模态任务中的潜力尚未被充分挖掘。我们推出了LaViDa,一个基于DMs构建的VLMs家族。我们通过为DMs配备视觉编码器,并联合微调组合部件以进行多模态指令跟随来构建LaViDa。为了应对遇到的挑战,LaViDa融合了诸如用于有效训练的互补掩码、用于高效推理的前缀KV缓存以及用于高质量采样的步长偏移等创新技术。实验表明,LaViDa在MMMU等多模态基准测试中取得了与AR VLMs相媲美甚至更优越的性能,同时还提供了DMs的独特优势,包括灵活的速度-质量权衡、可控性和双向推理。在COCO图像描述任务中,LaViDa超越了Open-LLaVa-Next-8B,CIDEr指标提高了+4.1,速度提高了1.92倍。在双向任务中,它在约束诗歌补全任务上实现了+59%的改进。这些结果表明,LaViDa是AR VLMs的一个强大的替代方案。代码和模型将在最终版本中发布。 |
2025-05-22 | Perceptual Quality Assessment for Embodied AI | link | 具身人工智能近年来发展迅速,但仍主要部署在实验室中,现实世界的各种失真限制了其应用。传统上,图像质量评估(IQA)方法被用于预测人类对失真图像的偏好;然而,目前还没有IQA方法来评估图像在具身任务中的可用性,即机器人的感知质量。为了给未来的具身场景提供准确可靠的质量指标,我们首先提出了一个主题:具身人工智能的IQA。具体来说,我们(1)基于默顿体系和元认知理论,构建了一个感知-认知-决策-执行的管道,并定义了一个全面的主观评分收集过程;(2)建立了Embodied-IQA数据库,包含超过3.6万个参考/失真图像对,以及由视觉语言模型/视觉语言行为模型/真实世界机器人提供的超过500万个细粒度注释;(3)在Embodied-IQA上训练并验证了主流IQA方法的性能,证明了有必要为具身人工智能开发更准确的质量指标。我们真诚地希望通过评估,能够促进具身人工智能在现实世界复杂失真下的应用。项目页面:https://github.com/lcysyzxdxc/EmbodiedIQA |
2025-05-22 | SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving | null | 将视觉-语言模型(VLM)集成到自动驾驶系统中,已显示出解决诸如学习复杂性、可解释性和常识推理等关键挑战的潜力。然而,由于计算需求,现有方法通常难以实现高效集成和实时决策。在本文中,我们介绍了一种创新的框架SOLVE,它将VLM与端到端(E2E)模型协同作用,以增强自动驾驶车辆的规划能力。我们的方法强调通过共享视觉编码器在特征层面上进行知识共享,从而实现VLM和E2E组件之间的全面交互。我们提出了一种轨迹链式思考(T-CoT)范式,该范式逐步改进轨迹预测,减少不确定性并提高准确性。通过采用时间解耦策略,SOLVE通过将高质量的VLM输出与E2E实时性能对齐来实现高效协作。在nuScenes数据集上的评估表明,我们的方法在轨迹预测精度方面取得了显著改进,为更强大、更可靠的自动驾驶系统铺平了道路。 |
2025-05-22 | REOBench: Benchmarking Robustness of Earth Observation Foundation Models | link | 地球观测基础模型已展现出在多个地球观测任务中的强大泛化能力,但它们在真实扰动下的鲁棒性仍有待探索。为了弥合这一差距,我们推出了REOBench,这是首个综合性的基准,用于评估地球观测基础模型在六个任务和十二种图像损坏类型(包括基于外观和几何的扰动)下的鲁棒性。为了确保真实和细粒度的评估,我们的基准侧重于高分辨率光学遥感图像,这些图像广泛应用于城市规划和灾害响应等关键应用中。我们对使用掩蔽图像建模、对比学习和视觉-语言预训练范式训练的各种模型进行了系统评估。我们的结果表明:(1)现有的地球观测基础模型在暴露于输入损坏时,性能会显著下降。(2)降级的严重程度因任务、模型架构、骨干大小和损坏类型而异,性能下降范围从小于1%到超过20%。(3)视觉-语言模型显示出增强的鲁棒性,尤其是在多模态任务中。REOBench强调了当前地球观测基础模型对真实世界损坏的脆弱性,并为开发更强大和可靠的模型提供了可行的见解。 |
2025-05-22 | Four Eyes Are Better Than Two: Harnessing the Collaborative Potential of Large Models via Differentiated Thinking and Complementary Ensembles | null | 本文介绍了我们在 CVPR 2025 Ego4D EgoSchema 挑战赛中获得的亚军解决方案(于 2025 年 5 月 20 日确认)。受到大型模型成功的启发,我们评估并利用了领先的、可访问的多模态大型模型,并通过少样本学习和模型集成策略将其应用于视频理解任务。具体来说,我们系统地探索和评估了多样化的提示风格和处理范式,以有效地引导大型模型的注意力,充分发挥其强大的泛化和适应能力。实验结果表明,通过我们精心设计的方法,直接利用单个多模态模型已经优于之前的最佳方法 (SOTA),后者包含几个额外的处理步骤。此外,我们还引入了一个额外的阶段,以促进周期性结果的协作和集成,从而实现了令人印象深刻的性能提升。我们希望这项工作能够为大型模型的实际应用提供有价值的参考,并启发该领域未来的研究。 |
2025-05-22 | Single Domain Generalization for Few-Shot Counting via Universal Representation Matching | link | 少样本计数旨在利用少量带标注的样本图像来估计图像中目标对象的数量。然而,领域迁移严重阻碍了现有方法在未见场景中的泛化能力。这属于单领域泛化的范畴,在少样本计数中仍未被探索。为了解决这个问题,我们首先分析了当前方法的主要局限性,这些方法通常遵循一个标准流程,即从样本图像中提取对象原型,然后将它们与图像特征进行匹配以构建相关图。我们认为现有方法忽略了学习高度泛化原型的重要性。基于这一洞察,我们提出了第一个单领域泛化少样本计数模型,即通用表示匹配(URM)。我们的主要贡献是发现将从大规模预训练视觉-语言模型中提取的通用视觉-语言表示融入到相关性构建过程中,可以显著提高对领域迁移的鲁棒性,而不会影响领域内的性能。因此,URM在领域内和新引入的领域泛化设置上都实现了最先进的性能。 |
2025-05-20 | Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning | null | 长期以来,学习通用推理能力一直是人工智能领域的一项挑战。最近,大型语言模型(LLM)的研究,如DeepSeek-R1,表明像GRPO这样的强化学习技术可以使预训练的LLM利用简单的问答对来发展推理能力。在本文中,我们的目标是训练视觉语言模型(VLM),使其通过强化学习和视觉问答对在图像数据上执行推理,而无需任何显式的思维链(CoT)监督。我们的研究结果表明,简单地将强化学习应用于VLM——通过提示模型在提供答案之前生成一个推理链——可能会导致模型从简单的问题中发展出捷径,从而降低其在未见过的数据分布中进行泛化的能力。我们认为,减轻捷径学习的关键是鼓励模型在推理之前解释图像。因此,我们训练模型使其遵循“描述-推理-回答”的输出格式:首先为图像生成详细的描述,然后构建一个广泛的推理链。当在27.3万个无CoT的视觉问答对上进行训练,并且仅使用强化学习时,我们的模型Visionary-R1在多个视觉推理基准测试中优于强大的多模态模型,如GPT-4o、Claude3.5-Sonnet和Gemini-1.5-Pro。 |
2025-05-20 | UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens | link | 个性化模型在理解和生成用户提供的概念方面已经 демонстрировали 出色的成功。然而,现有方法使用单独的概念标记进行理解和生成,将这些任务孤立地对待。这可能会导致生成具有复杂提示的图像时出现限制。例如,给定概念 |
2025-05-20 | CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation | link | 高效创建精确且可编辑的3D CAD模型在工程设计中至关重要,对产品创新中的成本和上市时间产生重大影响。目前的人工工作流程仍然非常耗时,并且需要广泛的用户专业知识。虽然最近在人工智能驱动的CAD生成方面的发展显示出了希望,但现有模型受到CAD操作表示不完整、无法推广到真实世界图像以及输出精度低的限制。本文介绍CAD-Coder,这是一个开源的视觉-语言模型(VLM),经过专门微调,可以直接从视觉输入生成可编辑的CAD代码(CadQuery Python)。利用我们创建的新型数据集GenCAD-Code,该数据集包含超过16.3万个CAD模型图像和代码对,CAD-Coder优于最先进的VLM基线,如GPT-4.5和Qwen2.5-VL-72B,实现了100%的有效语法率和最高的3D实体相似度精度。值得注意的是,我们的VLM显示出一定的泛化能力,成功地从真实世界的图像生成CAD代码,并执行在微调期间未见过的CAD操作。CAD-Coder的性能和适应性突显了在代码上微调的VLM在简化工程师和设计师的CAD工作流程方面的潜力。CAD-Coder可在以下网址公开获取:https://github.com/anniedoris/CAD-Coder。 |
2025-05-20 | VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation | null | 大型多模态模型(LMM)最近已成为长视频理解(LVU)的强大工具,从而推动了标准化LVU基准的发展,以评估其性能。然而,我们的研究揭示了现有LVU基准一个相当令人警醒的问题。首先,大多数现有基准严重依赖多项选择题(MCQ),由于可能猜对正确答案,其评估结果被夸大;其次,这些基准中的很大一部分问题具有很强的先验性,使得模型无需阅读输入视频即可直接回答。例如,在Video-MME上,即使只给定来自长视频的随机帧,Gemini-1.5-Pro也能达到超过50%的准确率。我们还观察到,增加帧数并不一定能提高在现有基准上的性能,这与直觉相悖。因此,当前LVU基准的有效性和鲁棒性受到损害,阻碍了对LMM长视频理解能力的真实评估。为了解决这个问题,我们提出了VideoEval-Pro,这是一个真实的LVU基准,包含开放式简答题,真正需要理解整个视频。VideoEval-Pro通过感知和推理任务评估片段级别和完整视频的理解。通过评估21个专有和开源的视频LMM,我们得出以下结论:(1)与多项选择题相比,视频LMM在开放式问题上的表现急剧下降(>25%);(2)令人惊讶的是,在VideoEval-Pro上,较高的多项选择题分数并不一定带来更高的开放式问题分数;(3)与其他多项选择题基准相比,VideoEval-Pro能更多地受益于增加输入帧数。我们的结果表明,VideoEval-Pro提供了一种更真实、更可靠的长视频理解度量方法,为该领域的进展提供了更清晰的视角。 |
2025-05-20 | Debating for Better Reasoning: An Unsupervised Multimodal Approach | null | 随着大型语言模型(LLM)在不同领域和模式中获得专业知识,可扩展的监督变得越来越具有挑战性,尤其是在它们的能力可能超过人类评估者时。辩论已成为一种很有前景的实现此类监督的机制。在这项工作中,我们将辩论范式扩展到多模态设置,探索其使较弱模型能够监督和增强较强模型性能的潜力。我们专注于视觉问答(VQA),其中两个“有视觉”的专家视觉-语言模型就一个答案进行辩论,而一个“盲”法官仅根据论证的质量进行裁决。在我们的框架中,专家仅捍卫与其信念相符的答案,从而避免了对明确角色扮演的需求,并将辩论集中在专家意见不一致的实例上。在多个多模态任务上的实验表明,辩论框架始终优于单个专家模型。此外,来自较弱LLM的判断可以通过微调帮助在视觉-语言模型中灌输推理能力。 |
2025-05-20 | Spiking Neural Networks with Temporal Attention-Guided Adaptive Fusion for imbalanced Multi-modal Learning | null | 多模态脉冲神经网络(SNN)在节能型感知处理方面具有巨大的潜力,但面临着模态不平衡和时间错位等关键挑战。目前的方法存在各模态之间融合速度不协调以及忽略时变跨模态交互的静态融合机制等问题。我们提出了一种时间注意力引导的自适应融合框架用于多模态SNN,该框架具有两个协同创新点:1) 时间注意力引导的自适应融合(TAAF)模块,该模块在每个时间步动态地为融合的脉冲特征分配重要性分数,从而能够对时间异构的基于脉冲的特征进行分层整合;2) 时间自适应平衡融合损失,该损失基于上述注意力分数调节每个模态的学习率,防止主导模态垄断优化。所提出的框架实现了自适应融合,尤其是在时间维度上,并缓解了多模态学习过程中的模态不平衡问题,模仿了皮层多感官整合原理。在CREMA-D、AVE和EAD数据集上的评估表明,该框架具有最先进的性能(准确率分别为77.55%、70.65%和97.5%),同时具有能源效率。该系统通过可学习的时间扭曲操作和比基线SNN更快的模态收敛协调来解决时间错位问题。这项工作为神经形态系统中时间连贯的多模态学习建立了一个新的范例,弥合了生物感觉处理和高效机器智能之间的差距。 |
2025-05-20 | PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models | null | 在城市规划领域,现有的视觉语言模型(VLMs)通常无法有效地分析和评估规划地图,尽管这些视觉元素对于城市规划师和相关教育背景至关重要。规划地图将土地利用、基础设施布局和功能分区可视化,需要对空间配置、法规要求和多尺度分析有专业的理解。为了应对这一挑战,我们推出了PlanGPT-VL,这是首个专门为城市规划地图量身定制的领域特定视觉语言模型。PlanGPT-VL采用了三种创新方法:(1)用于高质量VQA数据合成的PlanAnno-V框架,(2)通过结构化验证减少幻觉的关键点思维,以及(3)结合监督微调与冻结视觉编码器参数的综合训练方法。通过在我们提出的PlanBench-V基准上的系统评估,我们证明了PlanGPT-VL在专门的规划地图解释任务中显著优于通用最先进的VLM,为城市规划专业人士提供了一个可靠的地图分析、评估和教育应用工具,同时保持了较高的事实准确性。我们轻量级的70亿参数模型实现了与超过720亿参数的模型相当的性能,展示了高效的领域专业化,且不牺牲性能。 |
2025-05-20 | Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency | null | 大型多模态模型(LMM)最近在通用视频理解基准测试中表现出令人印象深刻的性能。然而,对于更广泛的应用,它们的时间分析能力的鲁棒性需要进行彻底的研究,但这一点在很大程度上被忽略了。基于此,我们提出了一个新的时间鲁棒性基准(TemRobBench),它分别在视觉和文本模态中引入时间不一致性扰动,以评估模型的鲁棒性。我们评估了16个主流LMM,发现它们在对抗环境中过度依赖先验知识和文本语境,而忽略了视频中实际的时间动态。为了缓解这个问题,我们设计了全景直接偏好优化(PanoDPO),它鼓励LMM同时结合视觉和语言特征偏好。实验结果表明,PanoDPO可以有效提高模型在时间分析中的鲁棒性和可靠性。 |
2025-05-20 | SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation | null | 随着大型语言模型(LLMs)和视觉语言模型(VLMs)的日益普及,用于检索增强生成(RAG)和视觉RAG等应用的富文档分析技术正受到越来越多的关注。最近的研究表明,使用VLM可以获得更好的RAG性能,但处理富文档仍然是一个挑战,因为单个页面包含大量信息。在本文中,我们提出了一种新方法SCAN(\textbf{S}emanti\textbf{C} Document Layout \textbf{AN}alysis,语义文档布局分析),旨在增强处理视觉富文档的文本和视觉检索增强生成(RAG)系统。这是一种VLM友好的方法,可以识别具有适当语义粒度的文档组件,从而平衡上下文保留和处理效率。SCAN使用粗粒度的语义方法,将文档划分为覆盖连续组件的连贯区域。我们通过使用复杂的注释数据集对目标检测模型进行微调来训练SCAN模型。我们在英语和日语数据集上的实验结果表明,应用SCAN可以将端到端文本RAG性能提高高达9.0%,将视觉RAG性能提高高达6.4%,优于传统方法,甚至优于商业文档处理解决方案。 |
2025-05-20 | Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds | null | 我们提出了一个概念框架,用于训练视觉-语言模型(VLM)以执行视觉视角获取(VPT)。视觉视角获取是具身认知的一项核心能力,对于人机交互(HRI)至关重要。作为实现此目标的第一步,我们引入了一个在 NVIDIA Omniverse 中生成的合成数据集,该数据集支持空间推理任务的监督学习。每个实例都包含一个 RGB 图像、一段自然语言描述以及一个代表物体姿态的真值 4x4 变换矩阵。我们专注于推断 Z 轴距离作为一项基础技能,未来的扩展目标是完整的六自由度(DOF)推理。该数据集是公开的,旨在支持进一步的研究。这项工作是朝着能够在交互式人机场景中进行空间理解的具身人工智能系统迈出的基础性一步。 |
2025-05-16 | Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner | link | 视觉语言模型(VLM)的最新进展已推动了通用医学领域的广泛进步。然而,病理学仍然是一个更具挑战性的子领域,当前特定于病理学的VLM在诊断准确性和推理合理性方面均存在局限性。这些缺点主要归因于当前病理学数据集的性质,这些数据集主要由缺乏真实病理学家所采用的深度和结构化诊断范式的图像描述对组成。在本研究中,我们利用病理学教科书和真实的病理学专家来构建高质量、面向推理的数据集。在此基础上,我们引入了Patho-R1,一种基于多模态强化学习的病理学推理器,通过一个三阶段的流程进行训练:(1)在350万个图像-文本对上进行持续预训练,以进行知识注入;(2)在50万个高质量的思维链样本上进行监督式微调,以激励推理;(3)使用群体相对策略优化以及解耦裁剪和动态采样策略优化策略进行强化学习,以改进多模态推理质量。为了进一步评估我们数据集的对齐质量,我们提出了PathoCLIP,它在用于持续预训练的相同图文语料库上进行训练。全面的实验结果表明,PathoCLIP和Patho-R1在各种病理学相关任务中均实现了稳健的性能,包括零样本分类、跨模态检索、视觉问答和多项选择题。我们的项目可在Patho-R1存储库中找到:https://github.com/Wenchuan-Zhang/Patho-R1。 |
2025-05-16 | Search-TTA: A Multimodal Test-Time Adaptation Framework for Visual Search in the Wild | null | 为了执行用于环境监测的自主视觉搜索,机器人可以利用卫星图像作为先验地图。这有助于指导粗略的、高层次的搜索和探索策略,即使这些图像缺乏足够的分辨率来进行精细的、显式的目标视觉识别。然而,使用卫星图像来指导视觉搜索需要克服一些挑战。首先,在大多数现有数据集中,卫星图像中未见的目标的代表性不足(与地面图像相比),因此在这些数据集上训练的视觉模型无法根据间接视觉线索进行有效推理。此外,利用大型视觉语言模型(VLM)进行泛化的方法可能会因幻觉而产生不准确的输出,从而导致低效的搜索。为了解决这些挑战,我们引入了Search-TTA,这是一个可以接受文本和/或图像输入的多模态测试时自适应框架。首先,我们预训练一个遥感图像编码器,使其与CLIP的视觉编码器对齐,以输出用于视觉搜索的目标存在概率分布。其次,我们的框架在搜索过程中使用测试时自适应机制动态地细化CLIP的预测。通过受空间泊松点过程启发的反馈循环,梯度更新(按不确定性加权)用于纠正(可能不准确的)预测并提高搜索性能。为了验证Search-TTA的性能,我们策划了一个基于互联网规模生态数据的视觉搜索数据集。我们发现Search-TTA将规划器性能提高了高达9.7%,尤其是在初始CLIP预测较差的情况下。它还实现了与最先进的VLM相当的性能。最后,我们通过硬件在环测试,在一个提供机载传感的大规模模拟中模拟其操作,从而在真实的无人机上部署Search-TTA。 |
2025-05-16 | Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models | link | 视觉-语言模型(VLMs)在离线任务中,例如图像描述和视频问答,已经展现出显著的进展。然而,实时交互环境对VLMs提出了新的要求,需要它们生成的语句不仅在语义上准确,而且在时间上精确。我们确定了在这种设置下所需的两个核心能力—— |
2025-05-16 | A Step towards Interpretable Multimodal AI Models with MultiFIX | null | 现实世界的问题通常依赖于多种数据模态,因此多模态融合对于利用不同的信息来源至关重要。在高风险领域,如医疗保健,理解每种模态如何影响预测对于确保可信和可解释的AI模型至关重要。我们提出MultiFIX,一个由可解释性驱动的多模态数据融合流程,它明确地从不同模态中设计不同的特征,并将它们组合起来以进行最终预测。最初,仅使用深度学习组件从数据中训练模型。随后,黑盒(深度学习)组件可以使用事后方法进行解释,例如用于图像的Grad-CAM,或者完全被可解释的块替换,即可解释的表格数据的符号表达式,从而产生一个可解释的模型。我们研究了使用MultiFIX的几种特征提取和预测建模的训练策略。除了强调MultiFIX的优点和缺点外,在具有不同模态交互程度的各种合成数据集上的实验表明,MultiFIX可以生成多模态模型,该模型可用于准确解释提取的特征及其集成,而不会影响预测性能。 |
2025-05-16 | Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization | null | 想象一下,你听到狗叫声,然后转向声音来源,却只看到一辆停着的汽车,而真正无声的狗却坐在别处。这种感官冲突会考验感知能力,但人类通常会优先考虑声音,而非误导性的视觉信息,从而可靠地解决这些冲突。尽管多模态人工智能在整合视觉和音频方面取得了进展,但人们对这些系统如何处理跨模态冲突或是否偏向某种模态知之甚少。在本研究中,我们系统地检查了人工智能声音定位中的模态偏见和冲突解决。我们评估了领先的多模态模型,并在六种视听条件下,通过心理物理学实验,对照人类的表现对它们进行基准测试,这些条件包括一致的、冲突的和缺失的线索。人类的表现始终优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉信息的更强适应能力。相比之下,人工智能模型通常会默认选择视觉输入,从而将性能降低到接近随机水平。为了解决这个问题,我们使用通过 3D 模拟生成的立体声音频-图像数据集,对最先进的模型进行了微调。即使使用有限的训练数据,改进后的模型也超越了现有的基准。值得注意的是,它还反映了类似人类的水平定位偏见,即偏爱左右精度——这可能是由于反映人类耳朵位置的立体声音频结构所致。这些发现强调了感觉输入质量和系统架构如何影响多模态表示的准确性。 |
2025-05-16 | GeoMM: On Geodesic Perspective for Multi-modal Learning | null | 测地距离作为一种可靠的非线性空间距离度量方式,在当前的多模态学习中被广泛应用,因为其中非线性流形很常见。在这些情况下,一些样本可能表现出很高的相似性,但它们传达不同的语义,这使得传统的距离度量不足以区分正样本和负样本。本文首次引入测地距离作为多模态学习中的一种新的距离度量方式,以挖掘样本之间的相关性,旨在解决常见距离度量的局限性。我们的方法采用了一系列综合策略,使测地距离适应当前的多模态学习。具体来说,我们通过阈值化样本之间的距离来构建一个图结构,以表示样本之间的邻接关系,然后应用最短路径算法来获得该图中的测地距离。为了便于高效计算,我们进一步提出了通过聚类构建的分层图结构,并结合增量更新策略来进行动态状态更新。在各种下游任务中进行的大量实验验证了我们所提出的方法的有效性,证明了其能够捕获样本之间复杂关系并提高多模态学习模型的性能。 |
2025-05-16 | Redundancy-Aware Pretraining of Vision-Language Foundation Models in Remote Sensing | null | 通过视觉-语言模型(VLM)的预训练来发展基础模型,最近在遥感(RS)领域引起了极大的关注。VLM预训练旨在从大量的图像-文本对中学习图像和语言的对齐。每个预训练图像通常与包含冗余信息的多个标题相关联,这是因为重复或语义相似的短语,从而导致预训练和推理时间增加。为了克服这个问题,我们为RS中的VLM预训练引入了一种加权特征聚合(WFA)策略。我们的策略旨在从每个图像的多个标题中提取和利用互补信息,同时通过重要性加权的特征聚合来减少冗余。为了计算每个图像的不同标题的自适应重要性权重,我们提出了两种技术:(i)非参数唯一性和(ii)基于学习的注意力机制。在第一种技术中,重要性权重是基于标题的双语互补评估(BLEU)分数计算的,以强调独特的句子并减少重复句子的影响。在第二种技术中,重要性权重通过注意力机制学习,而不是依赖于手工设计的特征。所提出的WFA策略与这两种技术在RS中文本到图像检索的下游性能方面进行了分析。实验结果表明,该策略能够有效且高效地预训练RS中的VLM。基于实验分析,我们推导出了根据下游任务需求和资源约束选择合适技术的指南。这项工作的代码已在https://git.tu-berlin.de/rsim/redundacy-aware-rs-vlm上公开提供。 |
2025-05-16 | Exploiting the Asymmetric Uncertainty Structure of Pre-trained VLMs on the Unit Hypersphere | null | 作为基础模型的视觉语言模型(VLMs)已显著提升了各种视觉和文本任务的性能,而无需为下游任务从头开始进行大规模训练。然而,这些确定性的VLMs未能捕捉到自然语言和视觉数据中固有的模糊性和不确定性。最近的概率后验适应方法通过将确定性嵌入映射到概率分布来解决这个问题;然而,现有方法没有考虑到模态的不对称不确定性结构,以及有意义的确定性嵌入位于单位超球面上的约束,这可能会导致次优的性能。在本文中,我们解决了文本和视觉数据中固有的不对称不确定性结构,并提出了AsymVLM,以从预训练的VLMs在单位超球面上构建概率嵌入,从而实现不确定性量化。我们在已建立的基准上验证了概率嵌入的有效性,并提出了全面的消融研究,证明了文本和视觉数据的不确定性结构中固有的不对称性。 |
2025-05-16 | On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating | null | 混合专家(MoE)方法是大多数大型语言模型架构中的关键组成部分,包括最近的DeepSeek模型系列。与其他MoE实现相比,DeepSeekMoE因其两个独特的特性而脱颖而出:共享专家策略的部署和归一化sigmoid门控机制。尽管DeepSeekMoE在DeepSeek系列模型的成功中发挥了突出作用,但只有少数尝试在理论上证明共享专家策略的价值,而其归一化sigmoid门控仍未被探索。为了弥合这一差距,我们从统计的角度对DeepSeekMoE的这两个特性进行了全面的理论研究。我们对专家估计任务进行了收敛性分析,以突出共享专家策略和归一化sigmoid门控在样本效率方面的提升,为专家和门控结构的设计提供了有用的见解。为了验证我们的理论发现,我们对合成数据和用于(视觉)语言建模任务的真实世界数据集进行了多次实验。最后,我们对路由器的行为进行了广泛的实证分析,范围从路由器饱和、路由器变化率到专家利用率。 |
2025-05-16 | Creating General User Models from Computer Use | null | 人机交互长期以来设想了一种能够理解我们的技术——从我们的偏好和习惯,到我们日常行为的时机和目的。然而,当前的用户模型仍然是分散的,狭隘地针对特定应用程序,并且无法进行实现这些愿景所需的灵活推理。本文提出了一种通用用户模型(GUM)的架构,该模型通过观察你与计算机的任何交互来了解你。GUM将用户的任何非结构化观察(例如,设备屏幕截图)作为输入,并构建置信度加权的命题,以捕获该用户的知识和偏好。GUM可以从与朋友的消息中推断出用户正在为他们要参加的婚礼做准备。或者通过观察多次停滞的编辑和切换到阅读相关工作来识别用户正在与合作者对草稿的反馈作斗争。GUM引入了一种架构,该架构从多模态观察中推断关于用户的新命题,检索相关的命题以获取上下文,并不断修改现有的命题。为了说明GUM所能实现的广泛应用,我们展示了它们如何使用上下文增强基于聊天的助手,管理操作系统通知以选择性地显示重要信息,并启用适应跨应用程序偏好的交互式代理。我们还实例化了主动助手(GUMBO),它们使用用户的GUM代表用户发现并执行有用的建议。在我们的评估中,我们发现GUM对用户进行校准和准确的推断,并且基于GUM构建的助手会主动识别并执行用户不会想到明确请求的操作。总而言之,GUM引入了利用多模态模型来理解非结构化上下文的方法,从而实现了长期以来的人机交互愿景和全新的交互式系统,这些系统可以预测用户需求。 |
2025-05-15 | Enhancing Multi-Image Question Answering via Submodular Subset Selection | null | 大型多模态模型(LMM)在涉及单张图像的视觉-语言任务中已取得优异表现,但当呈现多张图像集合时(多图问答场景),它们的表现不佳。这些任务涉及对大量图像进行推理,在可扩展性(随着图像数量的增加)和检索性能方面存在问题。在这项工作中,我们提出了一种增强MIRAGE模型中引入的检索器框架的方法,该方法使用了子模集合选择技术。我们的方法利用查询感知的子模函数,例如GraphCut,在主要检索组件之前预先选择语义相关的图像子集。我们证明了使用基于锚点的查询并扩充数据可以提高子模检索器管道的有效性,尤其是在大型haystack规模中。 |
2025-05-15 | Vision language models have difficulty recognizing virtual objects | null | 视觉语言模型(VLMs)是配备语言和视觉编码器的人工智能系统,用于处理多模态输入。它们能够执行诸如自动图像描述等复杂的语义任务,但对于它们在多大程度上理解图像中所描绘场景的视觉空间属性,仍然是一个悬而未决的问题。我们认为,对虚拟物体(图像中未以视觉方式呈现的物体)的描述,可以帮助测试这些人工智能系统对场景的理解能力。例如,一张描绘一个人站在树下的图像可以与以下提示配对:想象一下,一架风筝卡在树上。能够理解场景的视觉语言模型应该更新它们的表征,并合理地推断所有三个物体之间的空间关系。我们描述了对最先进的视觉语言模型的系统评估,并表明它们处理虚拟物体的能力不足。 |
2025-05-15 | Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence | link | 多模态学习通过整合来自不同感觉模态的信息来增强认知系统的感知能力。然而,现有的多模态融合研究通常假设静态整合,未能充分结合大脑中存在的关键动态机制。具体而言,大脑表现出逆有效性现象,即较弱的单模态线索产生更强的多感觉整合效益;反之,当单独模态线索较强时,融合效果会减弱。这种机制使生物系统即使在感知线索稀缺或嘈杂的情况下也能实现稳健的认知。受此生物机制的启发,我们探索了多模态输出与来自各个模态的信息之间的关系,提出了一种逆有效性驱动的多模态融合(IEMF)策略。通过将此策略融入神经网络,我们实现了更高效的整合,提高了模型性能和计算效率,在各种融合方法中计算成本最多可降低 50%。我们进行了视听分类、持续学习和问答任务实验来验证我们的方法。结果一致表明,我们的 10000 法在这些任务中表现出色。为了验证通用性和泛化性,我们还在人工神经网络(ANN)和脉冲神经网络(SNN)上进行了实验,结果表明对两种网络类型都具有良好的适应性。我们的研究强调了将生物启发机制融入多模态网络的潜力,并为多模态人工智能的未来发展提供了有希望的方向。代码可在 https://github.com/Brain-Cog-Lab/IEMF 获取。 |
2025-05-15 | PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language | link | 本文评估了大型多模态模型(LMM)在低资源普什图语的光学字符识别(OCR)上的性能。由于普什图语脚本的草书特性和结构化数据集的稀缺,普什图语的自然语言处理(NLP)面临着若干挑战。为了解决这个问题,我们开发了一个合成的普什图语OCR数据集PsOCR,它由一百万张图像组成,这些图像在单词、行和文档级别上用边界框进行注释,适用于训练和评估基于不同架构的模型,包括卷积神经网络(CNN)和Transformer。PsOCR涵盖了1000个独特的字体系列、颜色、图像大小和布局的各种变化。选择了一个包含1万张图像的基准子集,以评估几个LMM的性能,包括七个开源模型:DeepSeek的Janus、InternVL、MiniCPM、Florence和Qwen(3B和7B),以及四个闭源模型:GPT-4o、Gemini、Claude和Grok。实验结果表明,Gemini在所有模型中表现最佳,而开源模型中,Qwen-7B表现突出。这项工作为当前LMM在普什图语OCR任务中的能力和局限性提供了深刻的评估,并为进一步的研究奠定了基础,不仅在普什图语OCR中,而且在其他类似的脚本中,如阿拉伯语、波斯语和乌尔都语。PsOCR可在https://github.com/zirak-ai/PashtoOCR获取。 |
2025-05-15 | PointArena: Probing Multimodal Grounding Through Language-Guided Pointing | null | 指向是一种基础且直观的机制,用于在视觉环境中对语言进行定位,其应用范围涵盖机器人、辅助技术和交互式人工智能系统。虽然最近的多模态模型已经开始支持指向功能,但现有的基准测试通常只关注指称对象定位任务。我们推出了PointArena,这是一个综合平台,用于评估跨不同推理场景的多模态指向能力。PointArena包含三个组成部分:(1)Point-Bench,一个精选的数据集,包含大约1000个跨五个推理类别的指向任务;(2)Point-Battle,一个交互式的、基于网络的竞技场,促进盲、成对模型比较,目前已经收集了超过4500个匿名投票;(3)Point-Act,一个真实的机器人操作平台,允许用户在实际环境中直接评估多模态模型的指向能力。我们对最先进的开源和专有多模态模型进行了广泛的评估。结果表明,Molmo-72B始终优于其他模型,但专有模型的性能也日益接近。此外,我们发现专门针对指向任务的监督训练可以显著提高模型性能。在我们的多阶段评估流程中,我们还观察到强烈的相关性,突显了精确指向能力在使多模态模型能够有效地将抽象推理与具体的现实世界行动联系起来方面的关键作用。项目页面:https://pointarena.github.io/ |
2025-05-15 | AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection | link | 通用视觉异常检测旨在识别来自新的或未见过的视觉领域的异常,而无需额外的微调,这在开放场景中至关重要。最近的研究表明,像CLIP这样的预训练视觉-语言模型仅用零个或几个正常图像就表现出强大的泛化能力。然而,现有的方法在设计提示模板、复杂token交互或需要额外微调方面存在困难,导致灵活性有限。在这项工作中,我们提出了一种简单而有效的方法,称为AdaptCLIP,它基于两个关键见解。首先,应该交替学习自适应的视觉和文本表示,而不是联合学习。其次,查询图像和正常图像提示之间的比较学习应包含上下文和对齐的残差特征,而不是仅仅依赖于残差特征。AdaptCLIP将CLIP模型视为基础服务,仅在其输入或输出端添加三个简单的适配器:视觉适配器、文本适配器和提示-查询适配器。AdaptCLIP支持跨域的零样本/少样本泛化,并且一旦在基础数据集上训练完成,就可以在目标域上进行无训练操作。AdaptCLIP在来自工业和医疗领域的12个异常检测基准测试中取得了最先进的性能,显著优于现有的竞争方法。我们将于https://github.com/gaobb/AdaptCLIP上提供AdaptCLIP的代码和模型。 |
2025-05-14 | ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation | null | 视觉语言模型(VLMs)因其常识推理能力而彻底改变了人工智能和机器人技术。在机器人操作中,视觉语言模型主要用作高层规划器,但最近的工作也研究了它们的低层推理能力,即对精确的机器人运动做出决策。然而,目前业界缺乏一个清晰且通用的基准,来评估视觉语言模型在多大程度上能够辅助机器人的低层推理。因此,我们提出了一个新的基准测试,ManipBench,以评估视觉语言模型在低层机器人操作推理方面的能力,涵盖多个维度,包括它们对物体间交互和可变形物体操作的理解程度。我们使用该基准对10个模型系列的33个代表性视觉语言模型进行了广泛的测试,包括用于测试不同模型大小的变体。我们的评估表明,视觉语言模型在不同任务中的表现差异很大,并且这种表现与我们在现实世界操作任务中的趋势之间存在很强的相关性。它还表明,这些模型与人类水平的理解之间仍然存在显著差距。请访问我们的网站:https://manipbench.github.io。 |
2025-05-14 | Variational Visual Question Answering | null | 尽管视觉问答(VQA)的多模态模型取得了显著进展,但仍然存在主要的可靠性问题,因为这些模型通常会过度自信和错误校准,尤其是在分布外(OOD)设置中。针对单模态模型,已经有很多工作来解决这些问题,但针对多模态情况的研究却很少。在此,我们提出一种变分VQA方法来解决多模态模型中的不可靠性问题。具体而言,我们没有使用AdamW来微调视觉-语言模型,而是采用了一种最近提出的名为IVON的变分算法,该算法可以产生模型参数的后验分布。通过大量的实验,我们证明了我们的方法可以在不牺牲AdamW准确性的前提下,提高校准性和拒绝预测能力。例如,与AdamW微调相比,我们降低了超过50%的预期校准误差,并且相对于最先进水平提高了4%的覆盖率(对于1%的固定风险)。在存在分布偏移的情况下,性能增益甚至更高,当50%的测试用例是OOD时,相对于最先进水平,实现了8%的覆盖率(@ 1%风险)的提高。总而言之,我们将变分学习作为增强多模态模型可靠性的可行选择。 |
2025-05-14 | VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation | null | 尽管视觉-语言模型已经取得了显著进展,但它们在语言条件下的机器人操作中的应用仍有待探索,尤其是在超出视觉主导的拾取和放置场景的、需要丰富接触的任务中。为了弥合这一差距,我们引入了视觉-触觉-语言-动作模型(VTLA),这是一种新颖的框架,它通过跨模态语言基础有效地整合视觉和触觉输入,从而在接触密集型场景中实现稳健的策略生成。我们构建了一个低成本的多模态数据集,该数据集在一个仿真环境中生成,包含专门为指尖插入任务设计的视觉-触觉-动作-指令对。此外,我们引入了直接偏好优化(DPO)来为VTLA模型提供类似回归的监督,从而有效地弥合了基于分类的下一个token预测损失和连续机器人任务之间的差距。实验结果表明,VTLA模型优于传统的模仿学习方法(例如,扩散策略)和现有的多模态基线(TLA/VLA),在未见过的销钉形状上实现了超过90%的成功率。最后,我们进行了真实的销钉插入孔实验,以证明所提出的VTLA模型具有出色的Sim2Real性能。更多补充视频和结果,请访问我们的项目网站:https://sites.google.com/view/vtla |
2025-05-14 | BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset | link | 统一图像理解和生成已成为多模态模型研究中日益关注的焦点。虽然图像理解的设计选择已被广泛研究,但对于具有图像生成的统一框架的最佳模型架构和训练方案仍未得到充分探索。受自回归和扩散模型在高质量生成和可扩展性方面的强大潜力驱动,我们对它们在统一多模态环境中的应用进行了全面研究,重点关注图像表示、建模目标和训练策略。基于这些研究,我们引入了一种新颖的方法,该方法采用扩散Transformer来生成语义丰富的CLIP图像特征,这与传统的基于VAE的表示形成对比。这种设计既提高了训练效率,又改善了生成质量。此外,我们证明了统一模型的顺序预训练策略——首先进行图像理解训练,然后进行图像生成训练——通过在发展强大的图像生成能力的同时保留图像理解能力,从而提供了实际优势。最后,我们精心策划了一个高质量的指令微调数据集BLIP3o-60k,用于图像生成,方法是使用GPT-4o提示各种场景、对象、人类手势等的多样化标题。基于我们创新的模型设计、训练方案和数据集,我们开发了BLIP3-o,这是一套最先进的统一多模态模型。BLIP3-o在涵盖图像理解和生成任务的大多数流行基准测试中都取得了卓越的性能。为了促进未来的研究,我们完全开源了我们的模型,包括代码、模型权重、训练脚本以及预训练和指令微调数据集。 |
2025-05-13 | Aya Vision: Advancing the Frontier of Multilingual Multimodality | null | 构建多模态语言模型极具挑战性:它需要对齐视觉和语言模态,筛选高质量的指令数据,并避免在引入视觉后现有纯文本能力的退化。在多语言环境中,这些困难会进一步放大,因为对不同语言的多模态数据的需求加剧了现有的数据稀缺问题,机器翻译经常扭曲含义,并且灾难性遗忘更为明显。为了应对上述挑战,我们引入了涵盖数据和建模的新技术。首先,我们开发了一个合成注释框架,用于筛选高质量、多样化的多语言多模态指令数据,使Aya Vision模型能够针对多种语言的多模态输入生成自然的、人类偏好的响应。作为补充,我们提出了一种跨模态模型合并技术,以减轻灾难性遗忘,从而有效地保留纯文本能力,同时增强多模态生成性能。与强大的多模态模型(如Qwen-2.5-VL-7B、Pixtral-12B,甚至更大的Llama-3.2-90B-Vision)相比,Aya-Vision-8B实现了同类最佳的性能。我们进一步使用Aya-Vision-32B扩展了这种方法,其性能优于比其大两倍以上的模型,如Molmo-72B和LLaMA-3.2-90B-Vision。我们的工作推进了多模态领域的多语言进展,并为有效减少计算需求同时提供极高性能的技术提供了见解。 |
2025-05-13 | From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation | link | 在机器人操作中实现泛化仍然是一个关键挑战,尤其是在未见过的场景和新任务中。当前的视觉-语言-动作(VLA)模型虽然建立在通用的视觉-语言模型(VLM)之上,但由于具身数据集中普遍存在的稀缺性和异质性,仍然无法实现强大的零样本性能。为了解决这些限制,我们提出了一种新的视觉-语言模型FSD(从看到到做到),该模型通过空间关系推理生成中间表示,为机器人操作提供细粒度的指导。我们的方法结合了用于训练的分层数据管道和将空间坐标与视觉信号对齐的自洽机制。通过广泛的实验,我们全面验证了FSD在“看”和“做”方面的能力,在8个通用空间推理和具身参考能力的基准测试以及我们提出的更具挑战性的基准测试VABench上取得了出色的性能。我们还在机器人操作中验证了零样本能力,证明了在SimplerEnv和真实机器人设置中,与基线方法相比,性能有了显著提高。实验结果表明,FSD在SimplerEnv中实现了54.1%的成功率,在8个真实世界任务中实现了72%的成功率,比最强的基线提高了30%。 |
2025-05-13 | Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning? | link | 图表无处不在,因为它们可以帮助人们理解和推理数据。最近,涌现出各种下游任务,如图表问答、chart2text和事实核查。大型视觉语言模型(LVLM)在解决这些任务方面显示出潜力,但它们的评估成本高昂且耗时,限制了实际部署。虽然使用LVLM作为评判者来评估其他LVLM的图表理解能力可以简化评估流程,但专有数据集、对强大模型的受限访问以及评估成本等挑战阻碍了它们在工业环境中的采用。为此,我们对13个开源LVLM作为评判者进行了全面评估,用于各种图表理解和推理任务。我们设计了成对和逐点评估任务,涵盖事实正确性、信息性和相关性等标准。此外,我们还基于格式一致性、位置一致性、长度偏差和指令遵循来分析LVLM评判者。我们专注于适用于研究和商业用途的经济高效的LVLM(<100亿参数),遵循标准化的评估协议和规则来衡量LVLM评判者的准确性。实验结果显示出显著的差异:虽然一些开源LVLM评判者达到了GPT-4级别的评估性能(与GPT-4判断的一致性约为80%),但另一些则表现不佳(低于约10%的一致性)。我们的研究结果表明,最先进的开源LVLM可以作为与图表相关的任务的经济高效的自动评估器,但位置偏好和长度偏差等偏差仍然存在。 |
2025-05-13 | Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities | null | 多模态学习通过使深度学习模型能够感知和理解来自多种数据模态的信息,例如视觉和文本输入,来增强深度学习模型。然而,大多数现有方法都假设所有模态都是可用的,但这种假设在实际应用中常常不成立。最近的研究引入了可学习的缺失情况感知提示,以减轻由模态缺失引起的性能下降,同时减少对模型进行大量微调的需求。在缺失情况感知处理缺失模态的有效性基础上,我们提出了一种新的解耦原型输出头,该输出头利用针对每个单独模态定制的缺失情况感知的类别原型。这种方法能够动态适应不同的缺失模态场景,并且可以与现有的基于提示的方法无缝集成。大量的实验表明,我们提出的输出头在各种缺失模态场景和不同的缺失率下,显著提高了性能。 |
2025-05-12 | MilChat: Introducing Chain of Thought Reasoning and GRPO to a Multimodal Small Language Model for Remote Sensing | null | 多模态大型语言模型(MLLM)的最新进展已展示出在理解和生成文本-图像内容方面的卓越能力。然而,它们在专业领域,尤其是在需要资源高效和领域特定调整的领域中的有效性仍然有限。在这项工作中,我们介绍了一种轻量级多模态语言模型,名为MilChat,专门用于分析偏远地区的遥感图像,包括具有挑战性的导弹发射场。通过专家评审验证了数百张航拍图像,并编制了一个新的数据集MilData,通过详细的文字说明突出了微妙的军事设施。在具有思维链(CoT)推理注释的20亿参数开源MLLM上进行了监督微调,从而实现了更准确和可解释的解释。此外,利用群体相对策略优化(GRPO)来增强模型检测关键领域特定线索(如防御布局和关键军事结构)的能力,同时最大限度地减少对民用场景的误报。通过实证评估表明,在开放式字幕和分类指标上,MilChat明显优于更大、通用的多模态模型和现有的遥感自适应方法。在新提出的MilData基准上实现了超过80%的召回率和98%的精确率,突显了有针对性的微调和强化学习在专业现实世界应用中的效力。 |
2025-05-12 | Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models | null | 探索对于通用机器人学习至关重要,尤其是在密集奖励、明确目标或特定任务监督稀缺的开放式环境中。视觉语言模型 (VLM) 凭借其对物体、空间关系和潜在结果的语义推理,为生成高级探索行为奠定了引人注目的基础。然而,它们的输出通常是无根据的,因此难以确定想象的转换在物理上是否可行或具有信息量。为了弥合想象和执行之间的差距,我们提出了 IVE(想象、验证、执行),这是一个受人类好奇心启发的主动探索框架。人类的探索通常受到发现新颖场景配置和加深对环境理解的愿望的驱动。类似地,IVE 利用 VLM 将 RGB-D 观测抽象成语义场景图,想象新颖的场景,预测其物理合理性,并通过行动工具生成可执行的技能序列。我们在模拟和真实世界的桌面环境中评估了 IVE。结果表明,与强化学习基线相比,IVE 能够实现更多样化和更有意义的探索,访问状态的熵增加了 4.1 到 7.8 倍证明了这一点。此外,收集到的经验支持下游学习,产生的策略与那些在人类收集的演示数据上训练的策略非常匹配或超过它们的性能。 |
2025-05-12 | Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction | link | 视觉文档检索(VDR)是一个新兴的研究领域,专注于直接编码和检索文档图像,从而绕过对光学字符识别(OCR)的依赖来进行文档搜索。ColPali是VDR领域最近的一项进展,它通过一种后期交互机制显著提高了检索效果。ColPali的方法在已建立的基准测试中,相对于未使用后期交互的现有基线,表现出显著的性能提升。在本研究中,我们通过系统地评估VDR方法在多个预训练的视觉-语言模型中的性能,来研究VDR方法(无论是否具有后期交互机制)的可重复性和可复制性。我们的研究结果证实,后期交互在检索效果方面产生了显著的改进;然而,它也在推理过程中引入了计算效率低下的问题。此外,我们还考察了VDR模型对文本输入的适应性,并评估了它们在所提出的基准测试中,尤其是在扩展索引机制时,在文本密集型数据集上的鲁棒性。更进一步,我们的研究通过考察视觉文档检索背景下的查询-图像块匹配,来研究后期交互的具体贡献。我们发现,虽然查询令牌不能像文本检索场景中那样显式地匹配图像块,但它们倾向于匹配包含视觉上相似令牌的图像块或其周围的图像块。 |
2025-05-12 | Gameplay Highlights Generation | null | 在这项工作中,我们旨在让游戏玩家能够在社交媒体上分享他们的游戏体验,通过从他们的游戏会话中自动生成引人注目的精彩片段。我们的自动化流程将为游戏玩家节省时间,同时提高观众参与度。我们解决精彩片段生成问题的方法是首先识别视频中发生有趣事件的时间间隔,然后将它们连接起来。我们开发了一个内部游戏事件检测数据集,其中包含由人工使用VIA视频注释器标注的有趣事件。传统的精彩片段检测技术,如游戏引擎集成,需要与游戏开发商进行昂贵的合作。检测特定图像或文本补丁的OCR技术需要昂贵的针对每个游戏的工程设计,并且可能无法推广到不同的游戏UI和不同的语言。我们使用我们的数据集对多模态通用视频理解模型(如X-CLIP)进行了微调,该模型可以推广到同一类型的多个游戏,而无需针对每个游戏进行工程设计。我们进行了提示工程,以提高该多模态模型的分类性能。我们的评估表明,这种微调模型可以从看不见的游戏片段中检测第一人称射击游戏中的有趣事件,准确率超过90%。此外,我们的模型在低资源游戏(小数据集)上与高资源游戏一起训练时,表现明显更好,显示出迁移学习的迹象。为了使模型达到可生产状态,我们使用ONNX库来实现跨平台推理。这些库还提供后训练量化工具,以减少模型大小和部署的推理时间。我们使用具有DirectML后端的ONNX运行时库在Windows操作系统上执行高效推理。我们证明了X-CLIP模型中的自然语言监督可以产生数据高效且高性能的视频识别模型。 |
2025-05-12 | Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images | null | 在人工智能研究中,衡量真实图像的逼真程度是一项复杂的任务。例如,一个男孩在沙漠里用吸尘器的图像违反了常识。我们介绍了一种新颖的方法,我们称之为“透过镜子”(TLG),利用大型视觉语言模型(LVLMs)和基于Transformer的编码器来评估图像常识一致性。通过利用LVLMs从这些图像中提取原子事实,我们获得了一系列准确的事实。然后,我们通过对编码的原子事实进行微调,来训练一个紧凑的注意力池化分类器。我们的TLG在WHOOPS!和WEIRD数据集上取得了新的最先进的性能,同时利用了一个紧凑的微调组件。 |
2025-05-12 | Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models | null | 本研究旨在解决多领域任务增量学习(MTIL)问题,该问题要求视觉-语言模型(VLM)在不断获取新知识的同时,保持其固有的零样本识别能力。现有的范例将未见领域样本的测试委托给原始CLIP,这仅能防止模型零样本能力的退化,但未能进一步增强VLM的泛化能力。为此,我们提出了一种新的MTIL框架,名为AFA,它包括两个核心模块:(1)一个对抗前向遗忘适配器,用于学习增量任务中每个数据集的任务不变信息,以增强VLM的零样本识别能力;(2)一个对抗后向遗忘适配器,用于加强VLM的小样本学习能力,同时支持增量学习。大量实验表明,AFA方法显著优于现有的最先进方法,尤其是在小样本MTIL任务中,并且在可迁移性方面超越了CLIP固有的零样本性能。代码在补充材料中提供。 |
2025-05-12 | Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization | link | 通过利用丰富的文本信息和最少的标注数据,视觉-语言模型(VLMs)在各种任务中取得了显著的成功。然而,部署如此大型的模型仍然具有挑战性,尤其是在资源受限的环境中。知识蒸馏(KD)为这个问题提供了一个成熟的解决方案;然而,最近来自VLMs的KD方法通常涉及多阶段训练或额外的调整,从而增加了计算开销和优化复杂性。在本文中,我们提出了双头优化(DHO)--一个简单而有效的KD框架,可以在半监督设置中将知识从VLMs转移到紧凑的、特定于任务的模型。具体来说,我们引入了独立地从标注数据和教师预测中学习的双预测头,并提出在线性组合它们在推理过程中的输出。我们观察到,$\texttt{DHO}$减轻了监督信号和蒸馏信号之间的梯度冲突,从而实现了比单头KD基线更有效的特征学习。因此,大量的实验表明,$\texttt{DHO}$ 在多个领域和细粒度数据集上始终优于基线。值得注意的是,在ImageNet上,它实现了最先进的性能,在使用更少参数的同时,分别使用1%和10%的标注数据将准确率提高了3%和0.1%。 |
2025-05-12 | Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning | null | 我们提出了Skywork-VL Reward,一个多模态奖励模型,为多模态理解和推理任务提供奖励信号。我们的技术方法包括两个关键组成部分:首先,我们构建了一个大规模的多模态偏好数据集,涵盖了广泛的任务和场景,其中的响应数据收集自标准视觉语言模型(VLMs)和高级VLM推理器。其次,我们设计了一个基于Qwen2.5-VL-7B-Instruct的奖励模型架构,集成了一个奖励头,并使用成对偏好数据通过成对排序损失应用多阶段微调。实验评估表明,Skywork-VL Reward在多模态VL-RewardBench上实现了最先进的结果,并在纯文本RewardBench基准测试中表现出有竞争力的性能。此外,基于我们的Skywork-VL Reward构建的偏好数据被证明对训练混合偏好优化(MPO)非常有效,从而显著提高了多模态推理能力。我们的结果表明,Skywork-VL Reward是朝着通用、可靠的多模态对齐奖励模型迈出的重要一步。我们的模型已公开发布,以提高透明度和可重复性。 |
2025-05-12 | Incomplete In-context Learning | null | 大型视觉语言模型(LVLMs)通过视觉上下文学习(VICL)取得了显著的性能,这一过程在很大程度上依赖于从大量带注释的示例集合(检索数据库)中检索到的演示。现有的研究通常假设检索数据库包含所有标签的带注释示例。然而,在实际场景中,数据库更新的延迟或不完整的数据注释可能导致检索数据库仅包含部分类别的带标签样本。我们将这种现象称为不完整的检索数据库,并将在这种条件下进行的上下文学习定义为不完整的上下文学习(IICL)。为了应对这一挑战,我们提出了迭代判断和集成预测(IJIP),这是一个旨在缓解IICL局限性的两阶段框架。迭代判断阶段将一个( \boldsymbol{m} )类分类问题重新表述为一系列( \boldsymbol{m} )个二元分类任务,从而有效地将IICL设置转换为标准的VICL场景。集成预测阶段通过利用输入图像和来自迭代判断阶段的预测来进一步改进分类过程,从而提高整体分类准确率。IJIP在两种LVLM和两个数据集上,在三种不同的标签不完整条件下展示了显著的性能,实现了93.9%的最高准确率。值得注意的是,即使在标签完全可用的情况下,IJIP仍然实现了所有六个基线中的最佳性能。此外,IJIP可以直接应用于提示学习,并且可以适应文本领域。 |
2025-05-12 | EmoVLM-KD: Fusing Distilled Expertise with Vision-Language Models for Visual Emotion Analysis | link | 视觉情感分析在情感计算领域备受关注,旨在预测图像所传达的主导情感。尽管视觉-语言模型的出现推动了视觉情感分析的发展,但我们观察到,经过指令调优的视觉-语言模型和传统视觉模型在视觉情感分析中表现出互补的优势,即视觉-语言模型在某些情况下表现出色,而视觉模型在其他情况下表现更好。这一发现突显了整合这些能力以增强视觉情感分析性能的需求。为了弥合这一差距,我们提出了EmoVLM-KD,这是一个经过指令调优的视觉-语言模型,它增加了一个从传统视觉模型中提炼出的轻量级模块。我们没有同时部署这两个模型(这会产生高昂的计算成本),而是使用知识蒸馏框架将传统视觉模型的预测模式转移到视觉-语言模型中。我们的方法首先在特定于情感的指令数据上微调视觉-语言模型,然后在保持视觉-语言模型冻结的同时,将一个提炼模块附加到其视觉编码器。来自视觉语言模型和蒸馏模块的预测通过一个门控模块有效地平衡,该模块随后生成最终结果。大量实验表明,EmoVLM-KD在多个视觉情感分析基准数据集上实现了最先进的性能,优于现有方法,同时保持了计算效率。代码可在https://github.com/sange1104/EmoVLM-KD中找到。 |
2025-05-11 | A Vision-Language Foundation Model for Leaf Disease Identification | link | 叶片病害识别在智慧农业中起着至关重要的作用。然而,许多现有研究仍然难以整合图像和文本模态,以弥补彼此的局限性。此外,许多此类方法依赖于使用受限数据集(如ImageNet)进行预训练,而这些数据集缺乏领域特定信息。我们提出了SCOLD(用于叶片病害识别的软目标对比学习),这是一种上下文感知的视觉-语言基础模型,旨在解决农业任务中的这些挑战。SCOLD是使用包含超过186,000个图像-标题对的植物叶片图像和相应症状描述的混合语料库开发的,这些图像-标题对与97个独特的概念对齐。通过与任务无关的预训练,SCOLD利用上下文软目标,通过平滑标签来减轻对比学习中的过度自信,从而提高模型在细粒度分类任务中的泛化性和鲁棒性。实验结果表明,SCOLD在多个基准测试中优于现有的视觉-语言模型,如OpenAI-CLIP-L、BioCLIP和SigLIP2,包括零样本和少样本分类、图像-文本检索和图像分类,同时保持了具有竞争力的参数规模。消融研究进一步突出了SCOLD相对于其同类产品的有效性。所提出的方法显著推进了农业视觉-语言基础模型的发展,以极少或无需监督微调即可提供强大的性能。这项工作为未来研究使用长格式和简化上下文训练的模型、涉及类别模糊的任务以及用于智能植物病害诊断的多模态系统奠定了坚实的基础。本研究的代码可在https://huggingface.co/enalis/scold获取。 |
2025-05-02 | Aggregation of Dependent Expert Distributions in Multimodal Variational Autoencoders | null | 基于变分自编码器 (VAE) 的多模态学习需要估计联合分布以评估证据下界 (ELBO)。当前的方法,即专家乘积和专家混合,为了简化计算,假设单模态分布独立并进行聚合,这是一个过于乐观的假设。本研究引入了一种新的方法,通过利用依赖专家共识 (CoDE) 原则来聚合单模态分布,从而规避了上述假设。利用 CoDE 方法,我们提出了一种新的 ELBO,它通过学习每个模态子集的贡献来近似多模态数据的联合似然。由此产生的 CoDE-VAE 模型在平衡生成一致性和生成质量之间的权衡方面表现出更好的性能,并且可以生成更精确的对数似然估计。随着模态数量的增加,CoDE-VAE 进一步缩小了生成质量差距。在某些情况下,它的生成质量可以达到与单模态 VAE 相似的水平,这是一个大多数现有方法都缺乏的理想特性。最后,CoDE-VAE 实现的分类精度与最先进的多模态 VAE 模型相当。 |
2025-05-02 | Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages | null | 人工智能与医疗保健的结合为改进医疗诊断和患者护理开辟了新的视野。然而,在开发能够生成准确且符合上下文相关的放射学报告的系统方面,仍然存在挑战,尤其是在低资源语言方面。在本研究中,我们提出了一个综合基准,用于评估指令微调的视觉语言模型 (VLM) 在三种低资源语言(意大利语、德语和西班牙语)的放射学报告生成专门任务中的性能。采用 LLaVA 架构框架,我们对使用通用数据集、特定领域数据集和低资源特定语言数据集的预训练模型进行了系统评估。鉴于缺乏同时具备医学领域和低资源语言先验知识的模型,我们分析了各种调整方法,以确定针对这些情况的最有效方法。结果表明,特定语言模型在生成放射学报告方面明显优于通用模型和特定领域模型,强调了语言适应的关键作用。此外,与具有通用知识的模型相比,使用医学术语进行微调的模型在所有语言中都表现出更高的性能,突出了特定领域训练的重要性。我们还探讨了温度参数对报告生成连贯性的影响,为优化模型设置提供了见解。我们的研究结果强调了定制语言和特定领域训练对于提高多语言环境中放射学报告的质量和准确性的重要性。这项研究不仅促进了我们对 VLM 在医疗保健中适应性的理解,而且也为未来模型微调和特定语言适应的研究指明了重要方向。 |
2025-05-02 | Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation | null | 生成模型彻底改变了人工智能 (AI),尤其是在多模态应用领域。然而,由于医学数据的复杂性和对临床准确性的严格要求,将这些模型应用于医学领域带来了独特的挑战。在这项工作中,我们介绍了一个专门为多模态医学数据生成而设计的框架。通过生成多视角胸部 X 光片及其相关的临床报告,它弥合了通用视觉语言模型与医疗保健特定需求之间的差距。利用 MIMIC-CXR 数据集,所提出的框架在生成高保真图像和语义连贯的报告方面表现出优异的性能。我们的定量评估揭示了在 FID 和 BLEU 分数方面的显著成果,展示了生成数据的质量。值得注意的是,我们的框架在下游疾病分类任务中实现了与真实数据相当甚至更优的性能,突出了其作为医学研究和诊断工具的潜力。这项研究强调了特定领域适配在增强生成模型在临床应用中的相关性和实用性方面的重要性,为合成多模态医学数据生成的未来发展铺平了道路。 |
2025-05-01 | SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models | null | 人类天生理解三维空间关系,能够进行复杂的推理,例如预测来自不同方向的车辆碰撞。然而,当前的大型多模态模型 (LMM) 缺乏这种三维空间推理能力。这种局限性源于三维训练数据的稀缺性以及当前模型设计对二维数据的偏向。在本文中,我们系统地研究了三维信息数据、架构和训练设置的影响,并介绍了SpatialLLM,一个具有高级三维空间推理能力的大型多模态模型。为了解决数据限制,我们开发了两种类型的3D信息训练数据集:(1)侧重于对象三维位置和方向的3D信息探测数据,以及(2)用于复杂空间关系的3D信息对话数据。值得注意的是,我们是第一个在真实图像上整理包含三维方向关系的VQA数据。此外,我们系统地将这两种类型的训练数据与LMM的架构和训练设计相结合,为旨在实现卓越三维推理能力的最佳设计提供了路线图。我们的SpatialLLM使机器朝着高度 capable 的三维信息推理方向发展,其性能超越了GPT-4o 8.7%。我们的系统性经验设计和由此产生的研究结果为该方向的未来研究提供了宝贵的见解。 |
2025-05-01 | Visual Test-time Scaling for GUI Agent Grounding | link | 我们推出了RegionFocus,一种面向视觉语言模型代理的视觉测试时缩放方法。理解网页具有挑战性,因为GUI图像视觉复杂且界面元素众多,导致难以准确选择操作。我们的方法动态放大相关区域,减少背景干扰并提高基础准确性。为了支持此过程,我们提出了一种图像即地图机制,在每个步骤可视化关键地标,提供透明的操作记录,并使代理能够有效地在候选操作中进行选择。即使使用简单的区域选择策略,我们也观察到在两个最先进的开放视觉语言模型代理UI-TARS和Qwen2.5-VL的基础上,在Screenspot-pro和WebVoyager基准测试中分别实现了28+%和24+%的显著性能提升,突出了视觉测试时缩放在交互式环境中的有效性。通过将RegionFocus应用于Qwen2.5-VL-72B模型,我们在ScreenSpot-Pro基准测试中实现了61.6%的最新最先进的基础性能。我们的代码将在https://github.com/tiangeluo/RegionFocus公开发布。 |
2025-05-01 | MINERVA: Evaluating Complex Video Reasoning | link | 多模态大型语言模型(LLM)正将注意力转向视频基准测试,然而大多数视频基准测试只提供结果监督,没有中间或可解释的推理步骤。这使得评估模型是否真正能够结合感知和时间信息来推理视频,或者仅仅是偶然或利用语言偏差得到正确答案变得具有挑战性。为了解决这个问题,我们为现代多模态模型提供了一个名为MINERVA的新视频推理数据集。数据集中的每个问题都有5个答案选项,以及详细的手工推理轨迹。我们的数据集是多模态的,在视频领域和长度方面各不相同,并且包含复杂的多步骤问题。广泛的基准测试表明,我们的数据集对前沿的开源和专有模型提出了挑战。我们执行细粒度的错误分析,以识别各种模型的常见故障模式,并创建推理错误的分类法。我们使用它来探索人类和LLM作为评判者来评分视频推理轨迹的方法,并发现故障模式主要与时间定位有关,其次是视觉感知错误,而不是逻辑或完整性错误。数据集以及问题、候选答案和推理轨迹将在https://github.com/google-deepmind/neptune?tab=readme-ov-file\#minerva公开发布。 |
2025-05-01 | LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving | link | 视觉语言模型 (VLM) 在端到端自动驾驶方面展现出巨大潜力。然而,如何充分利用其能力实现安全可靠的车辆控制仍然是一个开放的研究挑战。为了系统地 بررسی VLM 在驾驶任务中的优势和局限性,我们引入了 LightEMMA,一个用于自动驾驶的轻量级端到端多模态模型。LightEMMA 提供了一个统一的、基于 VLM 的自动驾驶框架,无需特别的定制,可以轻松集成和评估不断发展的最先进的商业和开源模型。我们使用各种 VLM 构建了十二个自动驾驶代理,并在 nuScenes 预测任务上评估了它们的性能,全面评估了推理时间、计算成本和预测精度等指标。示例表明,尽管 VLM 具有强大的场景解释能力,但其在自动驾驶任务中的实际性能仍然令人担忧,强调需要进一步改进。代码可在 https://github.com/michigan-traffic-lab/LightEMMA 获取。 |
2025-04-30 | V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving | null | 大型视觉语言模型 (LVLMs) 在理解和分析各种领域的视觉场景方面表现出强大的能力。然而,在自动驾驶领域,它们对 3D 环境的理解有限,限制了其有效地全面、安全地理解动态环境。为了解决这个问题,我们引入了 V3LMA,这是一种通过将大型语言模型 (LLMs) 与 LVLMs 相结合来增强 3D 场景理解的新方法。V3LMA 利用从目标检测和视频输入生成的文本描述,显著提高了性能,而无需进行微调。通过一个专用的预处理流程提取 3D 对象数据,我们的方法提高了复杂交通场景中的态势感知和决策能力,在 LingoQA 基准测试中取得了 0.56 的分数。我们进一步探索了不同的融合策略和标记组合,以期推进对交通场景的理解,最终实现更安全的自动驾驶系统。 |
2025-04-30 | Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models | null | 社交媒体的快速发展为个人创造在线内容提供了更丰富的沟通渠道,使他们能够表达自己的想法和观点。多模态表情包通常用于带有视觉和文本元素的 playful 或幽默表达,但有时会被滥用以传播针对个人或群体的仇恨言论。虽然仇恨表情包的检测已得到充分研究,但开发有效的方法来转化表情包中的仇恨内容仍然是一项重大挑战。利用视觉语言模型 (VLM) 强大的生成和推理能力,我们解决了检测和缓解仇恨内容的任务。本文提出了两个主要贡献:首先,一种用于检测仇恨表情包的定义引导提示技术;其次,一个名为 UnHateMeme 的用于缓解表情包中仇恨内容的统一框架,它通过替换仇恨文本和/或视觉组件来发挥作用。通过我们定义引导的提示,VLM 在仇恨表情包检测任务上取得了令人印象深刻的性能。此外,我们与 VLM 集成的 UnHateMeme 框架展示了将仇恨表情包转换为非仇恨形式的强大能力,这些形式符合人类对仇恨言论的标准,并保持图像和文本之间的多模态一致性。通过实证实验,我们展示了 LLaVA、Gemini 和 GPT-4o 等最先进的预训练 VLM 在拟议任务上的有效性,并对它们各自在这些任务上的优势和局限性进行了全面分析。本文旨在阐明 VLM 在确保安全和尊重的在线环境方面的重要应用。 |
2025-04-30 | Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design | null | 视觉语言模型 (VLM) 因其多模态学习能力增强了千兆像素全切片图像 (WSI) 的大数据分析,在计算病理学中获得了极大的关注。然而,它们对大规模临床数据、任务制定和提示设计的敏感性仍然是一个悬而未决的问题,尤其是在诊断准确性方面。在本文中,我们对三个最先进的用于组织病理学的 VLM,即 Quilt-Net、Quilt-LLAVA 和 CONCH,进行了系统研究和分析,使用了一个包含 3,507 个 WSI(每个均为千兆像素)的内部消化病理学数据集,涵盖不同的组织类型。通过对癌症侵袭性和异型增生状态的结构化消融研究,我们开发了一个全面的提示工程框架,系统地改变了领域特异性、解剖精度、指令框架和输出约束。我们的研究结果表明,提示工程会显著影响模型性能,当提供精确的解剖参考时,CONCH 模型的准确性最高。此外,我们确定了解剖上下文在组织病理学图像分析中的关键重要性,因为当降低解剖精度时,性能会持续下降。我们还表明,仅模型复杂性并不能保证卓越的性能,因为有效的领域对齐和特定领域的训练至关重要。这些结果为计算病理学中的提示工程建立了基本准则,并强调了 VLM 在使用适当的领域特定提示进行指导时提高诊断准确性的潜力。 |
2025-04-30 | Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization | null | 我们推出了 DEEVISum(用于摘要的蒸馏早期退出视觉语言模型),这是一个轻量级、高效且可扩展的视觉语言模型,专为视频片段摘要而设计。DEEVISum 利用结合文本和音频衍生信号的多模态提示,并结合了多阶段知识蒸馏 (MSKD) 和早期退出 (EE) 策略,在性能和效率之间取得平衡。MSKD 比基线蒸馏方法 (0.5%) 的 F1 值提高了 1.33%,而 EE 则将推理时间缩短了约 21%,F1 值下降了 1.3 个点。在 TVSum 数据集上进行的评估表明,我们的最佳模型 PaLI Gemma2 3B + MSKD 的 F1 值达到了 61.1,与更大的模型性能相当,同时保持了较低的计算成本。我们将公开发布代码和处理后的数据集,以支持进一步的研究。 |
2025-04-30 | Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision | null | 提示学习在微调预训练多模态模型方面展现出 promising 的结果。然而,当应用于更复杂和细粒度的任务时,性能提升有限。原因是大多数现有方法通过损失反向传播直接优化提示生成过程中涉及的参数,这限制了提示表示的丰富性和特异性。在本文中,我们提出了扩散驱动提示生成器(Diff-Prompt),旨在利用扩散模型为复杂的下游任务生成丰富且细粒度的提示信息。具体来说,我们的方法包括三个阶段。第一阶段,我们训练一个掩码变分自编码器(Mask-VAE)将掩码压缩到潜在空间。第二阶段,我们利用改进的扩散Transformer(DiT)在潜在空间中训练一个提示生成器,使用掩码进行监督。第三阶段,我们将提示生成器的去噪过程与预训练模型在语义空间中对齐,并使用生成的提示对模型进行微调。我们在一个复杂的像素级下游任务——指称表达式理解——上进行了实验,并将我们的方法与各种参数高效的微调方法进行了比较。与基础模型相比,Diff-Prompt 在 R@1 上实现了 8.87 的最大提升,在 R@5 上实现了 14.05 的最大提升,并且在多个指标上也优于其他最先进的方法。实验结果验证了我们方法的有效性,并突出了使用生成模型进行提示生成的潜力。代码可在 https://github.com/Kelvin-ywc/diff-prompt 获取。 |
2025-04-30 | AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images | null | 文本到图像 (T2I) 生成方法的快速发展引起了人们对评估生成图像质量的广泛兴趣,并促使各种针对通用 T2I 输出的质量评估方法的发展。然而,现有的图像质量评估 (IQA) 方法仅限于提供全局质量分数,无法对结构复杂的主题(例如人体)进行细粒度的感知评估,考虑到人工智能生成的人体图像 (AGHI) 中频繁出现的解剖结构和纹理扭曲,这是一个关键挑战。为了解决这一差距,我们引入了 AGHI-QA,这是第一个专门为 AGHI 质量评估而设计的大规模基准测试。该数据集包含 4,000 张图像,这些图像是使用 10 个最先进的 T2I 模型,根据 400 个精心设计的文本提示生成的。我们进行了系统的用户主观研究,以收集多维注释,包括感知质量分数、文本-图像对应分数、可见和扭曲的身体部位标签。基于 AGHI-QA,我们从多个维度评估了当前 T2I 方法在生成人体图像方面的优势和劣势。此外,我们提出了 AGHI-Assessor,这是一种新颖的质量评估指标,它将大型多模态模型 (LMM) 与特定领域的人体特征相结合,以实现对 AGHI 的精确质量预测和可见及扭曲身体部位的识别。大量的实验结果表明,AGHI-Assessor 表现出最先进的性能,在多维质量评估方面显著优于现有的 IQA 方法,并且在检测 AGHI 中的结构扭曲方面超过了领先的 LMM。 |
2025-04-29 | GLIP-OOD: Zero-Shot Graph OOD Detection with Foundation Model | null | 分布外 (OOD) 检测对于确保机器学习系统,尤其是在动态和开放世界环境中的安全性和可靠性至关重要。在视觉和文本领域,零样本 OOD 检测(无需使用域内 (ID) 数据进行训练)通过使用大型预训练模型(例如视觉语言模型 (VLM) 和大型语言模型 (LLM))取得了显著进展。然而,图结构数据的零样本 OOD 检测在很大程度上仍未得到探索,这主要是由于复杂关系结构带来的挑战以及缺乏强大的大型图预训练模型。在这项工作中,我们利用图基础模型 (GFM) 迈出了实现零样本图 OOD 检测的第一步。我们证明,只需提供类标签名称,GFM 就可以在没有任何节点级监督的情况下执行 OOD 检测,并在多个数据集上优于现有的监督方法。为了解决 OOD 标签名称不可用的更实际情况,我们引入了 GLIP-OOD,这是一个利用 LLM 从未标记数据生成语义信息丰富的伪 OOD 标签的新颖框架。这些标签使 GFM 能够捕获 ID 类和 OOD 类之间细致的语义边界,并执行细粒度的 OOD 检测,而无需任何标记节点。我们的方法是第一个在完全零样本设置下实现节点级图 OOD 检测的方法,并在四个基准文本属性图数据集上实现了最先进的性能。 |
2025-04-29 | YoChameleon: Personalized Vision and Language Generation | null | 大型多模态模型(例如GPT-4、Gemini、Chameleon)已经发展成为拥有数百万用户的强大工具。然而,它们仍然是通用模型,缺乏对特定用户概念的个性化知识。先前的工作已经探索了文本生成的个性化,但目前尚不清楚如何将这些方法应用于新的模态,例如图像生成。在本文中,我们介绍了Yo'Chameleon,这是首次尝试研究大型多模态模型的个性化。给定3-5张特定概念的图像,Yo'Chameleon利用软提示调优将特定主题信息嵌入到(i)回答有关主题的问题和(ii)重建像素级细节以在新的上下文中生成主题图像。Yo'Chameleon使用(i)一种自我提示优化机制来平衡跨多种模态的性能,以及(ii)一种“软正”图像生成方法来在少样本设置中增强图像质量进行训练。 |
2025-04-29 | X-Fusion: Introducing New Modality to Frozen Large Language Models | null | 我们提出了X-Fusion,这是一个扩展预训练大型语言模型 (LLM) 以用于多模态任务的框架,同时保留其语言能力。X-Fusion 采用双塔设计和特定模态的权重,保持 LLM 的参数冻结,同时集成视觉特定信息以进行理解和生成。我们的实验表明,X-Fusion 在图像到文本和文本到图像任务上始终优于其他架构。我们发现,结合以理解为中心的数据可以提高生成质量,减少图像数据噪声可以提高整体性能,特征对齐可以加速较小模型的收敛,但对较大模型的影响很小。我们的研究结果为构建高效的统一多模态模型提供了宝贵的见解。 |
2025-04-29 | Real-Time Wayfinding Assistant for Blind and Low-Vision Users | null | 对于盲人或低视力 (BLV) 人群来说,在陌生环境中导航仍然是他们日常生活中最常见且重要的挑战之一。现有的辅助技术,例如基于 GPS 的导航系统、人工智能驱动的智能眼镜和配备声纳的手杖,通常在实时避障、精确定位和适应动态环境方面存在局限性。为了探索潜在的解决方案,我们引入了PathFinder,这是一种新颖的无地图导航系统,它探索了理解2D图像的不同模型,包括视觉语言模型 (VLM)、大型语言模型 (LLM),并采用单目深度估计进行自由路径检测。我们的方法在深度图像上集成了深度优先搜索 (DFS) 算法,以确定最长的无障碍路径,确保最佳路线选择,同时保持计算效率。我们将 PathFinder 与现有的 AI 驱动导航方法进行了比较评估,并对 BLV 参与者进行了可用性研究。结果表明,PathFinder 在准确性、计算效率和实时响应能力之间实现了良好的平衡。值得注意的是,与基于 AI 的替代方案相比,它降低了室外导航中的平均绝对误差 (MAE) 并提高了决策速度。参与者的反馈强调了该系统在室外环境中的可用性和有效性,但也指出了其在复杂的室内场所和低光照条件下的问题。可用性测试显示,73% 的参与者能够在一分钟左右理解如何使用该应用程序,80% 的参与者称赞其在准确性、快速响应和整体便利性之间的平衡。 |
2025-04-29 | FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models | null | 文本提示调优通过在本地客户端数据上调整轻量级输入标记(或提示)来适应联邦学习中的视觉语言模型(例如 CLIP),同时保持网络权重冻结。训练后,客户端仅与中心服务器共享提示以进行聚合。然而,文本提示调优通常难以克服对已知概念的过度拟合,并且可能过度依赖于记忆的文本特征,从而限制了其对未知概念的适应性。为了解决这一限制,我们提出了联邦多模态视觉提示调优 (FedMVP),它将提示基于全面的上下文信息——图像条件特征和类别的文本属性特征——这些信息本质上是多模态的。FedMVP 的核心是一个 PromptFormer 模块,它通过交叉注意力协同对齐文本和视觉特征,从而实现更丰富的上下文集成。然后将动态生成的多模态视觉提示输入到 CLIP 的冻结视觉编码器,并使用 CLIP 相似性损失和一致性损失的组合进行训练。对跨越三种泛化设置的 20 个数据集进行的广泛评估表明,与最先进的方法相比,FedMVP 不仅保留了对分布内类别和域的性能,而且还对未见类别和域表现出更高的泛化能力。代码将在接受后发布。 |
2025-04-29 | SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data | null | 视觉语言模型(VLM)在从图像描述到视觉问答(VQA)等各种任务中表现良好,但它们在空间推理方面存在不足,而空间推理是理解我们所处物理世界的关键技能,也是人类擅长的技能。我们发现,在广泛使用的视觉语言数据集中,空间关系通常很少出现,只有少数几种关系得到了很好的体现,而大多数关系则形成了长尾分布,代表性不足。这种差距使得VLM难以处理各种各样的空间关系。为了弥合这一差距,我们构建了一个专注于空间推理的合成VQA数据集,该数据集基于局部叙事数据集Localized Narratives、DOCCI和PixMo-Cap中的超详细图像描述生成。我们的数据集包含45.5万个样本,其中包含340万个问答对。在该数据集上训练后,我们的空间推理增强型(SpaRE)VLM在空间推理基准测试中表现出显著改进,在What's Up基准测试中实现了高达49%的性能提升,同时在一般任务中也保持了良好的效果。我们的工作缩小了人类和VLM在空间推理方面的差距,并使VLM在机器人和导航等实际任务中更具能力。 |
2025-04-29 | Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception | link | 大型视觉语言模型 (LVLMs) 在各种跨模态任务中取得了令人瞩目的成果。然而,幻觉,即模型生成与事实不符的响应,仍然是一个挑战。尽管最近的研究试图减轻对象感知幻觉,但它们侧重于模型的响应生成,而忽略了任务问题本身。本文讨论了 LVLMs 在解决反事实预设问题 (CPQs) 中的脆弱性,其中模型容易接受反事实对象的预设并产生严重的幻觉响应。为此,我们引入了“Antidote”,这是一个统一的、基于合成数据驱动的后训练框架,用于减轻上述两种类型的幻觉。它利用合成数据将事实先验纳入问题以实现自我纠正,并将缓解过程解耦为一个偏好优化问题。此外,我们构建了“CP-Bench”,这是一个新的基准测试,用于评估 LVLMs 正确处理 CPQs 并生成事实响应的能力。应用于 LLaVA 系列,Antidote 可以同时将 CP-Bench 的性能提高 50% 以上,POPE 提高 1.8-3.3%,CHAIR 和 SHR 提高 30-50%,所有这些都不依赖于来自更强 LVLMs 或人工反馈的外部监督,并且没有引入明显的灾难性遗忘问题。 |
2025-04-29 | LMM4Gen3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs | null | 生成式人工智能的快速发展使得创建3D人脸(HF)成为可能,其应用涵盖媒体制作、虚拟现实、安全、医疗保健和游戏开发等领域。然而,由于人类感知的主观性和对人脸特征的先天感知敏感性,评估这些AI生成的3D人脸的质量和真实性仍然是一项重大挑战。为此,我们对AI生成的3D人脸的质量评估进行了全面研究。我们首先介绍Gen3DHF,这是一个包含2000个AI生成3D人脸视频的大规模基准数据集,以及在质量和真实性两个维度上收集的4000个平均意见得分(MOS)、2000个失真感知显著性图和失真描述。基于Gen3DHF,我们提出了LMME3DHF,一个基于大型多模态模型(LMM)的3DHF评估指标,能够进行质量和真实性分数预测、失真感知视觉问答以及失真感知显著性预测。实验结果表明,LMME3DHF达到了最先进的性能,在准确预测AI生成3D人脸的质量分数和有效识别失真感知显著区域和失真类型方面均超过了现有方法,同时保持了与人类感知判断的高度一致性。Gen3DHF数据库和LMME3DHF都将在论文发表后发布。 |
2025-04-29 | Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks | null | 农业自动化在解决作物监测和病害管理方面的挑战中起着至关重要的作用,特别是通过早期检测系统。本研究探讨了将多模态大型语言模型 (LLM),特别是 GPT-4o,与卷积神经网络 (CNN) 相结合,使用叶片图像进行植物病害自动分类的有效性。利用 PlantVillage 数据集,我们系统地评估了模型在零样本、少样本和渐进式微调场景下的性能。我们对 GPT-4o 和广泛使用的 ResNet-50 模型进行了比较分析,涵盖三种分辨率(100、150 和 256 像素)和两种植物(苹果和玉米)。结果表明,经过微调的 GPT-4o 模型的性能略优于 ResNet-50,在苹果叶片图像上实现了高达 98.12% 的分类准确率,而 ResNet-50 实现了 96.88% 的准确率,同时泛化能力得到提高,训练损失接近于零。然而,GPT-4o 的零样本性能明显较低,这凸显了进行少量训练的必要性。对跨分辨率和跨植物泛化能力的进一步评估揭示了模型在应用于新领域时的适应性和局限性。研究结果突出了将多模态 LLM 集成到自动化病害检测流程中 10000 前景,这可以增强精准农业系统的可扩展性和智能性,同时减少对大型标记数据集和高分辨率传感器基础设施的依赖。大型语言模型,视觉语言模型,LLM 和 CNN,使用视觉语言模型进行病害检测,VLM |
2025-04-29 | FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding | null | 视觉大型语言模型 (VLLM) 在视频理解方面取得了显著进展。然而,视频数据的复杂性和上下文处理的局限性仍然阻碍着长视频理解的发展。一种常见的方法是压缩视频特征以减少大型语言模型的标记输入,但许多方法要么未能优先考虑关键特征,导致帧间信息冗余,要么引入了计算成本高昂的模块。为了解决这些问题,我们提出了 FiLA(细粒度视觉语言模型)-Video,这是一个利用轻量级动态加权多帧融合策略的新型框架,它能够自适应地将多帧融合成单一表示,同时保留关键视频信息并降低计算成本。为了增强融合的帧选择,我们引入了一种关键帧选择策略,可以有效地从更大的池中识别信息丰富的帧,从而改进摘要。此外,我们还提出了一种简单但有效的长视频训练数据生成策略,在无需大量人工标注的情况下提高模型性能。实验结果表明,FiLA-Video 在长视频理解方面实现了比现有方法更高的效率和准确性。 |
2025-04-28 | Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains | null | 视觉语言模型 (VLM) 在单图像任务中取得了显著成功。然而,现实场景通常涉及复杂的多图像输入,导致模型性能显著下降,因为模型难以理清分散在复杂视觉特征中的关键信息。在这项工作中,我们提出了以焦点为中心的视觉链(Focus-Centric Visual Chain),这是一种增强VLM在多图像场景中感知、理解和推理能力的新范式。为了促进这种范式,我们提出了以焦点为中心的数据合成(Focus-Centric Data Synthesis),一种可扩展的自下而上的方法,用于合成具有复杂推理路径的高质量数据。通过这种方法,我们构建了VISC-150K,这是一个包含以焦点为中心的视觉链形式的推理数据的大规模数据集,专为多图像任务设计。在七个多图像基准测试上的实验结果表明,我们的方法在两种不同的模型架构上实现了平均3.16%和2.24%的性能提升,且不影响其泛视觉语言能力。我们的研究代表着朝着更强大、更有能力处理复杂视觉场景的视觉语言系统迈出了重要一步。 |
2025-04-25 | Fast-Slow Thinking for Large Vision-Language Model Reasoning | null | 大型视觉语言模型 (LVLMs) 的最新进展揭示了一种“过度思考”现象,即模型会在所有任务中生成冗长的推理过程,而无论问题如何。为了解决这个问题,我们提出了FAST,一个新颖的“快慢思考”框架,它可以根据问题的特征动态调整推理深度。通过经验分析,我们通过研究响应长度和数据分布如何影响性能,确定了在 LVLMs 中进行快慢思考的可行性。我们开发了具有三个组件的 FAST-GRPO:用于问题表征的基于模型的指标、自适应思考奖励机制和难度感知的 KL 正则化。在七个推理基准测试中的实验表明,FAST 实现了最先进的准确性,相较于基础模型有超过 10% 的相对改进,同时与之前的慢思考方法相比,减少了 32.7-67.3% 的token使用量,有效地平衡了推理长度和准确性。 |
2025-04-25 | Revisiting Data Auditing in Large Vision-Language Models | null | 随着大型语言模型 (LLM) 的兴起,大型视觉语言模型 (VLM)(将视觉编码器与 LLM 集成以实现准确的视觉基础)在通用智能体和机器人控制等任务中展现出巨大潜力。然而,VLM 通常使用大量网络抓取图像进行训练,引发了对版权侵权和隐私泄露的担忧,使得数据审计变得日益紧迫。成员推理 (MI) 用于确定样本是否在训练中使用过,已成为一种关键的审计技术,并在 LLaVA 等开源 VLM 上取得了令人鼓舞的结果(AUC > 80%)。在这项工作中,我们重新审视了这些进展,并发现了一个关键问题:当前的 MI 基准测试存在成员图像和非成员图像之间的分布偏移,引入了捷径线索,从而夸大了 MI 性能。我们进一步分析了这些偏移的性质,并提出了一种基于最优传输的原则性指标来量化分布差异。为了在实际环境中评估 MI,我们构建了具有独立同分布成员和非成员图像的新基准。在这些无偏差条件下,现有的 MI 方法失效,其性能仅略高于随机水平。此外,我们通过探究 VLM 嵌入空间内的贝叶斯最优性来探索 MI 的理论上限,发现不可约错误率仍然很高。尽管前景悲观,我们仍然分析了 VLM 的 MI 特别具有挑战性的原因,并确定了三种实际场景——微调、访问真实文本和基于集合的推理——在这些场景下审计变得可行。我们的研究系统地展示了 VLM 的 MI 的局限性和机遇,为未来在可信数据审计方面的工作提供了指导。 |
2025-04-25 | ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding | null | 对视频中人体动作和姿态的细粒度理解对于以人为中心的AI应用至关重要。在这项工作中,我们引入了ActionArt,这是一个细粒度的视频字幕数据集,旨在推进以人为中心的多模态理解研究。我们的数据集包含数千个视频,涵盖了广泛的人体动作、人与物体交互以及各种场景,每个视频都配有详细的标注, meticulously 标注了每一个肢体运动。我们开发了八个子任务,用于从不同维度评估现有大型多模态模型的细粒度理解能力。实验结果表明,虽然当前的大型多模态模型在各种任务上表现出色,但它们在实现细粒度理解方面常常不足。我们将此限制归因于 meticulously 标注数据的稀缺性,这种数据的标注既昂贵又难以手动扩展。由于手动标注成本高且难以扩展,我们提出了代理任务来增强模型在空间和时间维度上的感知能力。这些代理任务经过精心设计,由现有MLLM自动生成的数据驱动,从而减少了对昂贵手动标签的依赖。实验结果表明,所提出的代理任务显著缩小了与使用手动标注的细粒度数据所实现的性能之间的差距。 |
2025-04-24 | CAMU: Context Augmentation for Meme Understanding | null | 社交媒体迷因是仇恨检测的一个挑战性领域,因为它们将视觉和文本线索交织成具有文化细微差别的信息。我们引入了一个名为 CAMU 的新型框架,它利用大型视觉语言模型生成更具描述性的标题,使用标题评分神经网络强调与仇恨相关的内容,并对 CLIP 的文本编码器进行参数高效的微调,以提高对迷因的多模态理解。在公开可用的仇恨迷因数据集上的实验表明,简单的投影层微调会产生适度的收益,而选择性地调整更深层的文本编码器层则会显着提高所有评估指标的性能。此外,我们的方法在仇恨迷因数据集上达到了很高的准确率 (0.807) 和 F1 值 (0.806),与现有的最佳框架相当,但效率更高,在依赖固定决策阈值的实际场景中具有实用优势。CAMU 在 MultiOFF 数据集上也实现了 0.673 的最佳 F1 值,用于识别攻击性迷因,证明了其泛化能力。对良性混杂因素的额外分析表明,强大的视觉基础和细致的文本表示对于可靠的仇恨和攻击检测至关重要。我们将公开发布 CAMU 以及由此产生的模型,以供进一步研究。免责声明:由于任务的性质,本文包含对可能令人不安、仇恨或冒犯性内容的引用。 |
2025-04-24 | Step1X-Edit: A Practical Framework for General Image Editing | link | 近年来,图像编辑模型取得了显著且迅速的发展。最近推出的尖端多模态模型,如GPT-4o和Gemini2 Flash,展现了极具潜力的图像编辑能力。这些模型在满足绝大多数用户驱动的编辑需求方面表现出色,标志着图像处理领域的重大进步。然而,开源算法与这些闭源模型之间仍然存在较大差距。因此,在本文中,我们旨在发布一个名为Step1X-Edit的最先进的图像编辑模型,该模型可以提供与GPT-4o和Gemini2 Flash等闭源模型相媲美的性能。更具体地说,我们采用多模态大语言模型来处理参考图像和用户的编辑指令。提取的潜在嵌入与扩散图像解码器集成以获得目标图像。为了训练模型,我们构建了一个数据生成管道来生成高质量的数据集。为了评估,我们开发了GEdit-Bench,这是一个基于真实用户指令的新型基准测试平台。在GEdit-Bench上的实验结果表明,Step1X-Edit的性能明显优于现有的开源基线模型,并接近领先的专有模型的性能,从而为图像编辑领域做出了重大贡献。 |
2025-04-25 | Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction | null | 本研究利用分裂式共形预测 (SCP) 框架解决了大型视觉语言模型 (LVLM) 在视觉问答 (VQA) 任务中幻觉抑制的关键挑战。虽然 LVLM 在多模态推理方面表现出色,但它们的输出通常会以高置信度呈现幻觉内容,这对安全关键型应用构成风险。我们提出了一种与模型无关的不确定性量化方法,该方法集成了动态阈值校准和跨模态一致性验证。通过将数据划分为校准集和测试集,该框架计算非一致性分数以构建在用户定义的风险水平 ( |
2025-04-24 | FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding | link | 大型多模态模型 (LMMs) 取得了令人瞩目的进展。最近的研究将这些模型扩展到长输入,包括多页文档和长视频。然而,由于训练和推理的计算成本,这些长上下文模型的规模和性能仍然有限。在这项工作中,我们探索了一个正交方向,在不使用长上下文 LMMs 的情况下处理长输入。我们提出了帧选择增强生成 (FRAG) 方法,模型首先选择输入中的相关帧,然后仅根据所选帧生成最终输出。选择的核心是独立地对每一帧进行评分,这不需要长上下文处理。然后通过简单的 Top-K 选择来选择得分最高的帧。我们证明了这个极其简单的框架适用于长视频和多页文档,并且可以使用现有的 LMMs 而无需任何微调。我们在实验中考虑了两个模型,LLaVA-OneVision 和 InternVL2,并表明 FRAG 始终提高性能,并在长视频和长文档理解方面实现了最先进的性能。对于视频,FRAG 在 MLVU 上将 InternVL2-76B 的性能大幅提高了 5.8%,在 Video-MME 上提高了 3.7%。对于文档,与最近专门用于长文档理解的 LMMs 相比,FRAG 在 MP-DocVQA 上实现了超过 20% 的改进。代码可在以下网址获取:https://github.com/NVlabs/FRAG |
2025-04-24 | M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction | null | 互增强效应(MRE)是信息提取和模型可解释性交叉领域的一个新兴子领域。MRE旨在利用不同粒度任务之间的相互理解,通过联合建模来提高粗粒度和细粒度任务的性能。虽然MRE已在文本领域得到探索和验证,但其在视觉和多模态领域的适用性仍未得到探索。在这项工作中,我们首次将MRE扩展到多模态信息提取领域。具体来说,我们引入了一个新任务:多模态互增强效应(M-MRE),并构建了相应的数据集来支持这项任务。为了应对M-MRE带来的挑战,我们进一步提出了一个提示格式适配器(PFA),它完全兼容各种大型视觉语言模型(LVLMs)。实验结果表明,在多模态图文理解场景下的M-MRE任务中也观察到了MRE。这有力地证明了MRE促进了三个相互关联的任务的共同提升,证实了其在文本领域之外的泛化能力。 |
2025-04-24 | DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition | null | 个性化图像生成已成为多模态内容创作的一个有前景的方向。它旨在利用用户交互的历史图像和多模态指令,合成符合个人风格偏好(例如,配色方案、角色外观、布局)和语义意图(例如,情感、动作、场景上下文)的图像。尽管取得了显著进展,但现有方法——无论是基于扩散模型、大型语言模型还是大型多模态模型 (LMM)——都难以准确捕捉和融合用户风格偏好和语义意图。特别是,最先进的基于 LMM 的方法存在视觉特征纠缠的问题,导致引导崩溃,即生成的图像无法保留用户偏好的风格或反映指定的语义。为了解决这些限制,我们引入了 DRC,这是一个新颖的个性化图像生成框架,通过解耦表征组合来增强 LMM。DRC 分别从历史图像和参考图像中显式提取用户风格偏好和语义意图,形成用户特定的潜在指令,以指导 LMM 中的图像生成。具体来说,它涉及两个关键学习阶段:1)解耦学习,它采用双塔解耦器来显式分离风格和语义特征,并通过具有难度感知重要性采样的重建驱动范式进行优化;2)个性化建模,它应用保留语义的增强来有效地调整解耦表征,以实现稳健的个性化生成。在两个基准数据集上的大量实验表明,DRC 显示出具有竞争力的性能,同时有效地缓解了引导崩溃问题,强调了解耦表征学习对于可控和有效的个性化图像生成的重要性。 |
2025-04-24 | Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning | null | 能够通过图形用户界面(GUI)使用统一动作空间(例如,鼠标和键盘动作)自主浏览网页的代理通常需要大量的特定领域专家演示才能实现良好的性能。低样本效率在稀疏奖励和大型动作空间环境(例如网页GUI)中经常加剧,其中在任何给定情况下只有少数动作是相关的。在这项工作中,我们考虑了低数据机制,即有限或无法访问专家行为。为了实现样本高效学习,我们探索了通过“基于意图的可供性”来约束动作空间的效果,即在任何情况下仅考虑实现预期结果的动作子集。我们提出了“代码作为生成可供性”(CoGA),这是一种利用预训练的视觉语言模型(VLM)来生成代码的方法,该代码通过隐式意图完成函数和使用全自动程序生成和验证管道来确定可负担的动作。然后,这些程序在强化学习代理的循环中使用,以根据像素观察返回一组可供性。通过大大减少代理必须考虑的动作数量,我们在MiniWob++基准测试中的各种任务上证明:1)CoGA比其RL代理的样本效率高出几个数量级,2)CoGA的程序可以在一系列任务中泛化,以及3)当少量专家演示可用时,CoGA的表现优于或与行为克隆相当。 |
2025-04-23 | DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs | null | 我们提出了DyMU,这是一个高效的、无需训练的框架,可以在保持高任务性能的同时,动态降低视觉语言模型(VLM)的计算负担。我们的方法包含两个关键组件。首先,动态标记合并(DToMe)根据图像复杂度合并相似的标记,从而减少视觉标记嵌入的数量,解决了视觉Transformer中固定长度输出的固有低效性问题。其次,虚拟标记解合并(VTU)通过有效地重建完整序列的注意力动态来模拟大型语言模型(LLM)的预期标记序列,从而在无需额外微调的情况下保持下游性能。与以往的方法不同,我们的方法根据图像内容动态调整标记压缩,并且完全无需训练,使其易于应用于大多数最先进的VLM架构。我们在图像和视频理解任务上进行了广泛的实验,结果表明,DyMU可以将平均视觉标记数量减少32%-85%,同时在各种VLM架构(包括最近流行的基于AnyRes的视觉编码器)上实现与完整长度模型相当的性能。此外,通过定性分析,我们证明DToMe可以根据图像复杂度有效地调整标记减少,并且与现有系统不同,它为用户提供了对计算成本的更多控制。项目页面:https://mikewangwzhl.github.io/dymu/。 |
2025-04-23 | Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering | null | 模因(meme)被广泛用于幽默和文化评论,但它们也越来越多地被利用来传播仇恨内容。由于其多模态性质,仇恨模因经常能够绕过传统的纯文本或纯图像检测系统,尤其是当它们使用微妙或隐晦的引用时。为了应对这些挑战,我们提出了一个多模态仇恨检测框架,它集成了以下关键组件:光学字符识别 (OCR) 用于提取嵌入文本,图像描述用于中性地描述视觉内容,子标签分类用于对仇恨内容进行细粒度分类,检索增强生成 (RAG) 用于上下文相关的检索,以及视觉问答 (VQA) 用于对符号和上下文线索进行迭代分析。这使得该框架能够发现简单管道无法检测到的潜在信号。在 Facebook 仇恨模因数据集上的实验结果表明,所提出的框架在准确率和 AUC-ROC 方面均优于单模态和传统多模态模型。 |
2025-04-23 | Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes | null | 街道景观是城市空间的重要组成部分。目前,对其评估要么局限于对其体块骨架的形态测量特性,要么需要对视觉感知质量进行劳动密集型的定性评估。本文介绍了SAGAI:基于生成式人工智能的街道景观分析,这是一个使用开放获取数据和视觉语言模型对街道层面的城市场景进行评分的模块化工作流程。SAGAI集成了OpenStreetMap几何图形、谷歌街景图像和轻量级LLaVA模型,通过可定制的自然语言提示从图像生成结构化的空间指标。该流程包括一个自动映射模块,可在点和街道级别聚合视觉评分,从而实现直接的制图解释。它无需特定任务的训练或专有软件依赖项即可运行,支持对城市环境进行可扩展且可解释的分析。在尼斯和维也纳的两个探索性案例研究展示了SAGAI从视觉语言推理生成地理空间输出的能力。初步结果表明,在城乡场景二元分类方面表现出色,在商业特征检测方面精度适中,在人行道宽度估算方面数值较低,但仍具有参考价值。SAGAI可由任何用户完全部署,并且仅通过修改提示即可轻松适应各种城市研究主题,例如步行性、安全性或城市设计。 |
2025-04-23 | TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance | null | 旅游和旅行规划越来越依赖数字助手,然而现有的多模态人工智能系统通常缺乏对城市环境的专业知识和上下文理解。我们提出了TraveLLaMA,一个专门为城市场景理解和旅行辅助设计的专业多模态语言模型。我们的工作通过一个包含22万个问答对的新型大规模数据集,解决了开发实用型AI旅行助手的根本挑战。这个综合数据集独特地结合了从真实旅游论坛精心策划的13万个文本问答对以及GPT增强的回复,还有9万个专门关注地图理解和场景理解的视觉语言问答对。通过对最先进的视觉语言模型(LLaVA、Qwen-VL、Shikra)进行广泛的微调实验,我们证明了在纯文本旅行理解和视觉问答任务中,性能显著提高了6.5%到9.4%。我们的模型在提供上下文相关的旅行推荐、解释地图位置、理解特定地点的图像以及提供营业时间和游客评论等实用信息方面展现了卓越的能力。比较评估表明,TraveLLaMA在特定旅行任务中的表现明显优于通用模型,为多模态旅行辅助系统建立了新的基准。 |
2025-04-22 | MR. Video: "MapReduce" is the Principle for Long Video Understanding | null | 我们提出了MR. Video,这是一个代理式的长视频理解框架,它展示了用于处理长视频的简单而有效的MapReduce原则:(1)Map:独立且密集地感知短视频片段,以及(2)Reduce:共同聚合来自所有片段的信息。与序列到序列的视觉语言模型(VLM)相比,MR. Video执行详细的短视频感知,而不受上下文长度的限制。与通常依赖于顺序关键片段选择的现有视频代理相比,Map操作能够实现更简单、更可扩展的短视频片段的序列并行感知。它的Reduce步骤允许更全面的上下文聚合和推理,超越了显式的关键片段检索。这种MapReduce原则是适用于VLM和视频代理的,我们使用LLM代理来验证其有效性。在实践中,MR. Video采用两个MapReduce阶段:(A)字幕生成:为短视频片段生成字幕(map),然后将重复的角色和对象标准化为共享名称(reduce);(B)分析:针对每个用户问题,分析来自单个短视频的相关信息(map),并将它们整合到最终答案中(reduce)。与最先进的VLM和视频代理相比,MR. Video在具有挑战性的LVBench上实现了超过10%的准确率提升。代码可在以下网址获取:https://github.com/ziqipang/MR-Video |
2025-04-22 | Vision language models are unreliable at trivial spatial cognition | null | 视觉语言模型 (VLM) 旨在从图像中提取相关的视觉空间信息。一些研究表明,VLM 可以表现出类似人类的场景理解能力,而其他研究则揭示了它们在处理关系信息方面的困难。为了实现广泛的适用性,VLM 必须可靠地执行,在各种相关任务中表现出相当的能力。我们试图测试这些架构在进行简单的空间认知方面的可靠性,例如识别一个物体是否在另一个物体的左侧,且场景整洁。我们开发了一个基准数据集——TableTest——其图像描绘了桌子上排列的物体的 3D 场景,并用它来评估最先进的 VLM。结果表明,使用逻辑上等效描述的提示的微小变化可能会降低性能。这些分析表明,VLM 在现实应用中推理空间关系的能力存在局限性。它们还揭示了增强图像描述语料库以进行更有效训练和测试的新机会。 |
2025-04-22 | LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale | null | 近来的视频大型语言模型 (Video LLMs) 通常依赖于昂贵的人工标注或专有模型 API(例如 GPT-4o)来生成训练数据,这限制了它们的大规模训练。在本文中,我们探索了使用廉价的自动语音识别 (ASR) 转录本对 Video LLM 进行大规模训练。具体来说,我们提出了一种新颖的流式训练方法,根据时间戳将 ASR 词语和视频帧紧密交织在一起。与先前在使用 ASR 的视觉语言表示方面的研究相比,我们的方法自然地适应了 ASR 的流式特性,从而使模型能够学习时间对齐的、细粒度的视觉语言建模。为了支持训练算法,我们引入了一个数据生产流水线来处理 YouTube 视频及其隐藏式字幕(CC,与 ASR 相同),从而生成了用于预训练的 Live-CC-5M 数据集和用于高质量监督微调 (SFT) 的 Live-WhisperX-526K 数据集。值得注意的是,即使没有 SFT,仅使用 ASR 预训练的 LiveCC-7B-Base 模型也展现出具有竞争力的通用视频问答性能,并展现出实时视频解说的新能力。为了评估这一点,我们精心设计了一个新的 LiveSports-3K 基准测试,使用 LLM 作为评判来衡量自由形式的解说质量。实验表明,我们的最终 LiveCC-7B-Instruct 模型即使在实时模式下工作,也能在解说质量方面超越先进的 72B 模型(Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)。同时,它在 VideoMME 和 OVOBench 等流行视频问答基准测试中,在 7B/8B 规模上取得了最先进的结果,证明了我们方法的广泛通用性。本文的所有资源已发布在 https://showlab.github.io/livecc。 |
2025-04-22 | Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models | null | 诊断影像依赖于对图像和放射学报告的解读,但不断增长的数据量给医学专家带来了巨大压力,导致错误增加和工作流程积压。医学视觉语言模型 (med-VLMs) 已成为有效处理多模态影像数据的强大框架,尤其是在胸部 X 光 (CXR) 评估中,尽管它们的性能取决于图像和文本表示的对齐程度。现有的对齐方法主要基于对比学习,优先考虑疾病类别之间的区分,而不是细粒度病理属性(如位置、大小或严重程度)的区分,导致表示欠佳。在此,我们提出了 MedTrim(元实体驱动的三元组挖掘),这是一种新颖的方法,通过多模态三元组学习增强图像-文本对齐,该学习由疾病类别以及形容词和方向性病理描述符协同引导。与区分广泛疾病类别的常见对齐方法不同,MedTrim 利用结构化元实体信息来保留细微但临床上重要的类内差异。为此,我们首先引入了一个基于本体的实体识别模块,从 CXR 报告中提取特定于病理学的元实体,因为在公共数据集中,病理属性的注释很少。为了在三元组挖掘中进行精细的样本选择,我们引入了一种新的评分函数,该函数捕获基于疾病类别和形容词/方向描述符的样本间相似性的聚合度量。最后,我们引入了一个多模态三元组对齐目标,用于在共享详细病理特征的样本之间进行显式的模态内和跨模态对齐。我们的演示表明,与最先进的对齐方法相比,MedTrim 提高了下游检索和分类任务的性能。 |
2025-04-22 | SAGA: Semantic-Aware Gray color Augmentation for Visible-to-Thermal Domain Adaptation across Multi-View Drone and Ground-Based Vision Systems | link | 域自适应热目标检测在促进可见光 (RGB) 到热成像 (IR) 的适应方面发挥着关键作用,它可以减少对配准图像对的需求,并最大限度地减少对大型标注红外数据集的依赖。然而,红外图像的固有局限性,例如缺乏颜色和纹理线索,给 RGB 训练模型带来了挑战,导致误报增加和伪标签质量差。为了解决这个问题,我们提出了语义感知灰度增强 (SAGA),这是一种通过提取与红外图像相关的目标级特征来减轻颜色偏差和弥合域差距的新策略。此外,为了验证所提出的 SAGA 在无人机图像中的有效性,我们引入了 IndraEye,这是一个多传感器 (RGB-IR) 数据集,专为各种应用而设计。该数据集包含 5,612 张图像,共 145,666 个实例,这些图像是在不同的角度、高度、背景和时间下拍摄的,为多模态学习、目标检测和分割的域自适应以及探索特定传感器的优势和劣势提供了宝贵的机会。IndraEye 旨在增强更强大、更精确的空中感知系统的开发,尤其是在具有挑战性的环境中。实验结果表明,SAGA 显着改善了自动驾驶和 IndraEye 数据集的 RGB 到 IR 的适应性,在与最先进的域自适应技术集成时,始终如一地获得了 +0.4% 到 +7.6% (mAP) 的性能提升。数据集和代码可在 https://github.com/airliisc/IndraEye 获取。 |
2025-04-21 | CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting | null | 识别和推理被遮挡(部分或完全隐藏)的物体对于理解视觉场景至关重要,因为遮挡在现实环境中经常发生,并成为空间理解的障碍。为了测试模型推理多个遮挡物体能力,我们引入了一项新任务,即通过不可见区域对模式进行非模态计数 (Counting Amodally for Patterns Through Unseen REgions,CAPTURe),该任务要求模型通过推断模式如何在遮挡物(阻挡部分场景的物体)后方延续来对按模式排列的物体进行计数。CAPTURe 需要识别视觉模式和进行推理,使其成为评估视觉语言模型 (VLM) 是否理解遮挡模式并具备空间理解能力的有效测试平台。通过要求模型对被遮挡的物体进行推理,CAPTURe 还测试了 VLM 构建世界模型的能力,使它们能够填补缺失的信息。CAPTURe 由两部分组成:(1) CAPTURe-real,包含手动过滤的真实物体按模式排列的图像;(2) CAPTURe-synthetic,一个使用生成的图案图像进行的受控诊断。我们在 CAPTURe 上评估了四个强大的 VLM(GPT-4o、Intern-VL2、Molmo 和 Qwen2-VL),发现模型难以对遮挡和未遮挡的模式进行计数。至关重要的是,我们发现模型在存在遮挡的情况下表现更差,这表明 VLM 在推断不可见的空间关系方面也存在不足:即使是最强大的 VLM,如 GPT-4o,在存在遮挡的情况下也无法计数。相比之下,我们发现人类在 CAPTURe 上的错误率非常低。我们还发现,提供被遮挡物体位置的辅助信息可以提高性能,这突显了模型错误既来自于无法处理遮挡,也来自于难以对图像中的物体进行计数。 |
2025-04-21 | Event2Vec: Processing neuromorphic events directly by representations in vector space | link | 与传统相机相比,神经形态事件相机在时间分辨率、能效和动态范围方面具有压倒性优势。然而,事件相机输出异步、稀疏和不规则的事件,这与主流计算机视觉和深度学习方法不兼容。人们提出了各种方法来解决这个问题,但代价是冗长的预处理过程、损失时间分辨率或与大规模并行计算不兼容。受词向量巨大成功的启发,我们总结了单词和事件之间的相似性,然后提出了第一个事件向量(event2vec)表示方法。我们在ASL-DVS数据集上验证了event2vec的分类性能,结果表明,与之前的基于图/图像/体素的表示方法相比,event2vec在参数效率、准确性和速度方面都令人印象深刻。除了任务性能之外,event2vec最吸引人的优势在于它将事件与自然语言处理领域对齐,展现了将事件集成到大型语言模型和多模态模型中的广阔前景。我们的代码、模型和训练日志可在https://github.com/fangwei123456/event2vec获取。 |
2025-04-21 | An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes | null | 大型多模态模型 (LMMs) 通常会均匀地感知视频帧,这对于具有内在变化的时间信息密度的视频来说,会造成计算效率低下。本文提出了Quicksviewer,一个具有全新感知范式LMM,它使用 Gumbel Softmax 将密度不均匀的视频分割成大小不同的立方体,然后对每个立方体进行统一重采样以实现高效的视频理解。这种简单直观的方法可以根据视频的时间密度动态地在线压缩视频,显著减少时空冗余(总体压缩率为 45 倍),同时支持具有大感受野的高效训练。我们通过三个渐进阶段从语言主干网络训练模型,由于感知效率的提升,每个阶段平均包含 420 秒/1 帧的较长视频。仅使用 80 万个视频-文本样本进行训练,我们的模型在准确率方面比采用固定分割策略的直接基线模型最多高出 8.72,证明了其性能的有效性。在 Video-MME 上,Quicksviewer 在适度的序列长度下实现了最先进的性能,并且每帧使用的 token 数量仅为基线模型的 5%。在这种范式下,增加输入帧的数量会展现出模型能力的清晰幂律关系。经验证,立方体网络生成的片段有助于分析视频中的连续事件。 |
2025-04-21 | Zero-Shot, But at What Cost? Unveiling the Hidden Overhead of MILS's LLM-CLIP Framework for Image Captioning | null | MILS(多模态迭代大语言模型求解器)是一个最近发布的框架,它声称“大语言模型无需任何训练即可看和听”,其方法是利用基于LLM-CLIP的迭代方法进行零样本图像描述。虽然这种MILS方法展现了良好的性能,但我们的研究表明,这种成功是以隐藏的、巨大的计算成本为代价的,这是由于其昂贵的、多步骤的优化过程所致。相比之下,像BLIP-2和GPT-4V这样的替代模型通过简化的单次处理方法就实现了具有竞争力的结果。我们假设,MILS迭代过程中固有的巨大开销可能会削弱其实际效益,从而挑战了无需承担高昂资源需求即可获得零样本性能的说法。这项工作首次揭示并量化了MILS中输出质量和计算成本之间的权衡,为设计更高效的多模态模型提供了关键见解。 |
2025-04-21 | Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation | link | 大型视觉语言模型 (LVLMs) 近期的进展展现出卓越的多模态感知能力,引起了广泛关注。尽管出现了大量的评估研究,对 LVLMs 进行了整体和专门任务的评估,但计算机视觉的基础——细粒度图像任务——在很大程度上仍未得到探索。为了填补这一空白,我们引入了一个全面的细粒度评估基准,即 FG-BMK,包含 349 万个问题和 332 万张图像。我们的评估从面向人和面向机器的角度系统地检验了 LVLMs,重点关注它们的语义识别和细粒度特征表示能力。通过对八个代表性 LVLMs/VLMs 的广泛实验,我们揭示了训练范式、模态对齐、扰动敏感性和细粒度类别推理对任务性能的关键影响。这项工作提供了对当前 LVLMs 局限性的重要见解,并为未来更先进 LVLMs 的数据构建和模型设计提供了指导。我们的代码是开源的,可在 https://github.com/SEU-VIPGroup/FG-BMK 获取。 |
2025-04-18 | EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model | link | 医学大型视觉语言模型(Med-LVLMs)在医疗保健领域展现出巨大潜力,但其依赖通用医学数据和粗粒度的全局视觉理解,限制了其在智能眼科诊断中的应用。目前,智能眼科诊断面临三大挑战:(1)数据:缺乏深度标注、高质量、多模态的眼科视觉指令数据;(2)基准:缺乏用于评估诊断性能的全面且系统的基准;(3)模型:难以将整体视觉架构适配到细粒度、区域特定的眼科病灶识别。在本文中,我们提出了Eyecare Kit,它通过定制的数据集、基准和模型系统地解决了上述三个关键挑战:首先,我们构建了一个基于真实眼科数据的多智能体数据引擎,以生成高质量的眼科视觉指令数据集Eyecare-100K。随后,我们设计了Eyecare-Bench,这是一个基准,可以从多个维度全面评估LVLMs在智能眼科诊断任务中的整体性能。最后,我们开发了EyecareGPT,它针对细粒度的眼科视觉理解进行了全面优化,并结合了自适应分辨率机制和逐层密集连接器。大量的实验结果表明,EyecareGPT在一系列眼科任务中取得了最先进的性能,突显了其在推动智能眼科诊断开放研究方面的巨大潜力。我们的项目可在https://github.com/DCDmllm/EyecareGPT获取。 |
2025-04-18 | Are you SURE? Enhancing Multimodal Pretraining with Missing Modalities through Uncertainty Estimation | null | 多模态学习通过整合不同的数据源展现出惊人的成功,然而它通常依赖于所有模态的可用性——这一假设在现实应用中很少成立。预训练的多模态模型虽然有效,但在面对小规模和不完整的数据集(即缺少模态)时却难以应对,限制了它们的实际应用。以往关于重建缺失模态的研究忽略了重建的潜在不可靠性,这可能会影响最终输出的质量。我们提出了SURE(可扩展的不确定性和重建估计),这是一个新的框架,它通过引入对重建模态和下游任务的潜在空间重建和不确定性估计来扩展预训练多模态模型的能力。我们的方法与模型架构无关,可以重建缺失的模态,并提供可靠的不确定性估计,从而提高可解释性和性能。SURE引入了独特的基于皮尔逊相关系数的损失函数,并首次在深度网络中应用统计误差传播,从而可以精确量化缺失数据和模型预测的不确定性。在情感分析、体裁分类和动作识别等任务中进行的大量实验表明,SURE始终能够达到最先进的性能,即使在数据不完整的情况下也能确保鲁棒的预测。 |
2025-04-18 | Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization | null | 传统的时序动作定位(TAL)方法依赖于大量的详细标注数据,而少样本TAL通过仅使用少量训练样本识别未见过的动作类别来减少这种依赖。然而,现有的少样本TAL方法通常只关注视频级信息,忽略了文本信息,而文本信息可以为定位任务提供有价值的语义支持。因此,我们提出了一种新的基于思维链文本推理的少样本时序动作定位方法,以提高定位性能。具体来说,我们设计了一个新颖的少样本学习框架,利用文本语义信息来增强模型捕捉动作共性和差异的能力,其中包括一个语义感知的文本-视觉对齐模块,旨在对齐查询和支持视频的不同层次。同时,为了更好地表达文本层面动作之间的时间依赖性和因果关系以辅助动作定位,我们设计了一种类似思维链(CoT)的推理方法,逐步引导视觉语言模型(VLM)和大型语言模型(LLM)生成类似CoT的视频文本描述。生成的文本比视觉特征可以捕捉到更多的动作变化。我们在公开可用的ActivityNet1.3和THUMOS14数据集上进行了广泛的实验。我们引入了第一个名为“人类相关异常定位”的数据集,并探索了TAL任务在人类异常检测中的应用。实验结果表明,我们提出的方法在单实例和多实例场景下均显著优于现有方法。我们将发布我们的代码、数据和基准测试。 |
2025-04-18 | Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety | link | 在自动驾驶中,检测视觉数据,尤其是视频流中的异常危险是一个关键挑战。由于依赖预定义的对象类别,现有模型常常难以处理不可预测的、标签外的危险。在本文中,我们提出了一种多模态方法,将视觉语言推理与零样本目标检测相结合,以改进危险识别和解释。我们的流程包含一个视觉语言模型(VLM)和一个大型语言模型(LLM),以便检测交通场景中的危险物体。我们通过结合 OpenAI 的 CLIP 模型来改进目标检测,将预测的危险与边界框标注匹配,从而提高定位精度。为了评估模型性能,我们通过对基础 COOOL(标签外挑战)异常检测基准数据集进行去噪和扩展,创建了一个带有完整自然语言描述的危险标注的真值数据集。我们定义了一种使用余弦相似度对扩展数据集进行危险检测和标签评估的方法。该评估考虑了每个视频中预测的危险描述和标注的真值之间的语义相似性。此外,我们还发布了一套用于构建和管理大规模危险检测数据集的工具。我们的研究结果突出了当前基于视觉语言的方法的优势和局限性,为未来改进自动危险检测系统提供了见解。我们的模型、脚本和数据可以在 https://github.com/mi3labucm/COOOLER.git 找到。 |
2025-04-17 | VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture | null | 在现代智能农业中,目标检测通过实现自动化、精准农业和资源监控发挥着至关重要的作用。从识别作物健康状况和病虫害到优化收获过程,准确的目标检测可提高生产力和可持续性。然而,训练目标检测模型通常需要大规模的数据收集,并引发隐私问题,尤其是在敏感的农业数据分布在不同农场的情况下。为了应对这些挑战,我们提出了VLLFL,一个基于视觉语言模型的轻量级联邦学习框架(VLLFL)。它利用视觉语言模型 (VLM) 的泛化能力和上下文感知检测能力,并利用联邦学习的隐私保护特性。通过训练一个紧凑的提示生成器来提升部署在不同农场的VLM的性能,VLLFL在保护隐私的同时减少了通信开销。实验结果表明,VLLFL 将 VLM 的性能提高了 14.53%,同时减少了 99.3% 的通信开销。从识别各种水果到检测农业中的有害动物,该框架提供了一种针对农业应用量身定制的高效、可扩展且保护隐私的解决方案。 |
2025-04-17 | Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models | null | 从人类视频中学习执行操作任务是教导机器人的一种很有前景的方法。然而,许多操作任务需要在任务执行期间更改控制参数,例如力,而这仅靠视觉数据无法捕捉。在这项工作中,我们利用诸如测量人类肌肉活动的臂带和记录声音的麦克风等传感设备来捕捉人类操作过程中的细节,并使机器人能够提取任务计划和控制参数来执行相同的任务。为此,我们引入了模态链 (CoM),这是一种提示策略,使视觉语言模型能够推理多模态人类演示数据——视频与肌肉或音频信号相结合。通过逐步整合来自每种模态的信息,CoM 完善了任务计划并生成详细的控制参数,使机器人能够根据单个多模态人类视频提示执行操作任务。我们的实验表明,与基线相比,CoM 在提取任务计划和控制参数方面的准确性提高了三倍,并且可以很好地泛化到真实世界机器人实验中的新任务设置和对象。视频和代码可在 https://chain-of-modality.github.io 获取。 |
2025-04-17 | PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding | link | 视觉语言模型是计算机视觉研究不可或缺的一部分,然而许多高性能模型仍然是闭源的,掩盖了它们的数据、设计和训练方法。研究界通过从黑盒模型中进行蒸馏来标记训练数据作为回应,取得了强大的基准测试结果,但代价是可衡量的科学进展。然而,在不知道教师模型及其数据源细节的情况下,科学进展仍然难以衡量。在本文中,我们研究了在一个完全开放和可复现的框架中构建感知语言模型 (PLM),以实现图像和视频理解方面的透明研究。我们分析了不依赖于专有模型蒸馏的标准训练流程,并探索了大规模合成数据,以识别关键数据差距,尤其是在详细的视频理解方面。为了弥合这些差距,我们发布了280万个人工标注的细粒度视频问答对和时空定位的视频字幕实例。此外,我们还推出了PLM-VideoBench,这是一套用于评估具有挑战性的视频理解任务的基准测试,重点关注对视频的“什么”、“哪里”、“何时”和“如何”进行推理的能力。我们通过提供数据、训练方法、代码和模型,使我们的工作完全可复现。 |
2025-04-17 | Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training | null | 近年来,视觉语言模型预训练领域经历了快速发展,这主要得益于大型语言模型文本能力的不断增强。然而,现有的多模态大型语言模型训练范式严重依赖于高质量的图文对。随着模型和数据规模的指数级增长,这种精心策划的数据的可用性变得越来越稀缺和饱和,从而严重限制了该领域的进一步发展。本研究探索了用于视觉语言模型预训练的可扩展字幕生成技术,并证明了大规模低幻觉合成字幕可以起到双重作用:1)作为预训练范式中真实世界数据的可行替代方案,2)通过实证验证将其集成到视觉语言模型中,实现卓越的性能提升。本文提出了三个主要贡献:1)一种生成高质量、低幻觉和知识丰富的合成字幕的新颖流程。我们的连续DPO方法在减少幻觉方面取得了显著成果。具体来说,在保留测试集上,7B规模模型的非幻觉字幕率从48.2%提高到77.9%。2)全面的实证验证表明,我们的合成字幕比其他同类字幕具有更优越的预训练优势。在35个视觉语言任务中,使用我们的数据训练的模型与替代文本对和其他先前工作相比,实现了至少6.2%的显著性能提升。同时,它也为文本到图像领域提供了相当大的支持。使用我们的数据集,在真实世界验证基准上,FID分数降低了17.1,在MSCOCO验证基准上降低了13.3。3)我们将发布Hunyuan-Recap100M,这是一个低幻觉和知识密集型合成字幕数据集。 |
2025-04-17 | Probing and Inducing Combinational Creativity in Vision-Language Models | null | 将现有概念组合成新颖想法的能力是人类智能的基本特征。最近,GPT-4V和DALLE-3等视觉语言模型 (VLM) 的进步引发了关于其输出是否反映组合创造力(M. A. Boden (1998) 将其定义为通过组合现有概念来合成新颖想法)或仅仅是训练数据的复杂模式匹配的争论。受认知科学的启发,我们从概念融合的视角研究了VLM的组合创造力。我们提出了识别-解释-蕴涵 (IEI) 框架,它将创造过程分解为三个层次:识别输入空间、提取共享属性和推导出新的语义蕴涵。为了验证该框架,我们构建了CreativeMashup,这是一个包含666个艺术家生成的视觉混搭的高质量数据集,并根据IEI框架进行了注释。通过大量实验,我们证明在理解任务中,最好的VLM已经超过了普通人的表现,但仍未达到专家级的理解水平;在生成任务中,将我们的IEI框架纳入生成流程可以显著提高VLM输出的创造性质量。我们的研究结果为评估人工智能创造力建立了理论基础,并为改进VLM的创造性生成提供了实用指南。 |
2025-04-17 | NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation | null | 强化学习 (RL) 的最新进展增强了视觉语言模型 (VLM) 的推理能力。然而,在 VLM 中,增强策略探索以更有效地扩展测试时计算仍未得到充分探索。此外,VLM 仍然难以应对不完美的视觉感知,这反过来又会影响后续的推理过程。为此,我们提出了 NoisyRollout,这是一种简单而有效的 RL 方法,它混合了来自清晰和适度失真图像的轨迹,以在视觉感知和由此产生的推理模式中引入目标多样性。NoisyRollout 通过结合面向视觉的归纳偏差,在不增加额外训练成本的情况下增强了 VLM 的探索能力。此外,NoisyRollout 采用噪声退火策略,在训练过程中逐渐降低失真强度,确保早期噪声信号的有效利用,同时保持后期训练的稳定性和可扩展性。NoisyRollout 仅使用 2.1K 训练样本,就在 5 个跨推理和感知任务的域外基准测试中实现了开源 RL 调整模型中的最先进性能,同时保持了可比甚至更好的域内性能。 |
2025-04-16 | Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation | link | 将视觉语言模型(VLM)适应到只有少量标记样本的新领域仍然是一项重大挑战,原因在于严重的过拟合和计算限制。最先进的解决方案,例如低秩重参数化,可以缓解这些问题,但通常难以泛化,并且需要大量的超参数调整。本文提出了一个新的稀疏优化(SO)框架。与通常将更新限制在固定子空间的低秩方法不同,我们的SO方法利用高稀疏性来动态调整极少数参数。我们引入了两个关键范式。首先,我们提倡“局部稀疏性和全局密度”,即每次迭代只更新最小的参数子集,同时保持整体模型的表达能力。作为第二个范式,我们提倡“局部随机性和全局重要性”,它使用随机选择来稀疏化梯度,同时根据重要性修剪一阶矩。这种组合显著减轻了过拟合,并确保了在低数据环境下的稳定适应。在11个不同数据集上的大量实验表明,SO实现了最先进的少样本适应性能,同时减少了内存开销。 |
2025-04-16 | FLIP Reasoning Challenge | link | 近年来,人工智能 (AI) 的进步已经证明了AI如何能够解决许多感知和生成任务,例如图像分类和文本写作,然而推理仍然是一个挑战。本文介绍了FLIP数据集,这是一个用于评估AI推理能力的基准,它基于Idena区块链上的人工验证任务。FLIP挑战向用户呈现两组4张图像的排序,要求他们识别逻辑上一致的那一组。通过强调顺序推理、视觉叙事和常识,FLIP为多模态AI系统提供了一个独特的测试平台。我们的实验评估了最先进的模型,利用了视觉语言模型 (VLM) 和大型语言模型 (LLM)。结果表明,即使是最好的开源和闭源模型,在零样本设置下的最高准确率也分别只有75.5%和77.9%,而人类的准确率为95.3%。图像描述模型通过提供图像的文本描述来辅助推理模型,取得了比直接使用原始图像更好的结果,Gemini 1.5 Pro的准确率分别为69.6%和75.2%。将15个模型的预测结果组合成一个集成模型,可以将准确率提高到85.2%。这些发现突出了现有推理模型的局限性以及对像FLIP这样强大的多模态基准的需求。完整的代码库和数据集将在https://github.com/aplesner/FLIP-Reasoning-Challenge上提供。 |
2025-04-16 | Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - | null | 尽管大型视觉语言模型 (LVLMs) 近期取得了进展,但这些模型仍然会生成与提供的视觉输入不一致的幻觉响应。为了减少此类幻觉,我们引入了高效对比解码 (ECD),这是一种简单的方法,它利用概率幻觉检测在推理时将输出分布转移到上下文准确的答案。通过对比标记概率和幻觉分数,ECD 从原始分布中减去幻觉概念,从而有效地抑制幻觉。值得注意的是,我们提出的方法可以应用于任何开源 LVLM,并且不需要额外的 LVLM 训练。我们在几个基准数据集和不同的 LVLMs 上评估了我们的方法。我们的实验表明,ECD 可以有效地减少幻觉,在 LVLM 基准测试性能和计算时间方面均优于最先进的方法。 |
2025-04-16 | FedEPA: Enhancing Personalization and Modality Alignment in Multimodal Federated Learning | null | 联邦学习 (FL) 支持跨多方的去中心化模型训练,同时保护隐私。然而,大多数联邦学习系统假设客户端仅持有单模态数据,这限制了它们的实际应用,因为机构通常拥有多模态数据。此外,缺乏标记数据进一步限制了大多数联邦学习方法的性能。在这项工作中,我们提出了 FedEPA,一个用于多模态学习的新型联邦学习框架。FedEPA 采用个性化的本地模型聚合策略,利用客户端上的标记数据来学习个性化的聚合权重,从而减轻数据异构性的影响。我们还提出了一种无监督模态对齐策略,该策略在标记数据有限的情况下也能有效工作。具体来说,我们将多模态特征分解为对齐特征和上下文特征。然后,我们采用对比学习来对齐跨模态的对齐特征,确保每个模态内对齐特征和上下文特征之间的独立性,并促进上下文特征的多样性。我们引入了一种多模态特征融合策略来获得联合嵌入。实验结果表明,在标记数据有限的情况下,FedEPA 在多模态分类任务中显著优于现有的联邦学习方法。 |
2025-04-17 | Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions | null | 无人机 (UAV) 在基础设施检查、监视和相关任务中不可或缺,但也带来了关键的安全挑战。本综述广泛考察了反无人机领域,重点关注三个核心目标——分类、检测和跟踪——同时详细介绍了新兴的方法,例如基于扩散的数据合成、多模态融合、视觉语言建模、自监督学习和强化学习。我们系统地评估了单模态和多传感器管道(涵盖RGB、红外、音频、雷达和RF)中最先进的解决方案,并讨论了大规模以及对抗性基准。我们的分析揭示了实时性能、隐身检测和基于集群的场景中存在的持续差距,强调了对鲁棒、自适应反无人机系统的迫切需求。通过突出开放的研究方向,我们旨在促进创新并指导下一代防御策略的发展,以应对无人机广泛使用的时代。 |
2025-04-16 | Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning | link | 近年来,使用大量无标签数据对视觉语言模型 (VLM) 进行微调引起了极大的兴趣。然而,一个关键的挑战仍然是缺乏高质量的伪标签数据。当前的伪标签策略通常难以处理语义和视觉信息之间的不匹配,导致无监督提示学习 (UPL) 方法的性能欠佳。在本文中,我们介绍了一种简单而有效的方法,称为通过扩散增强判别丰富性 (AiR),旨在学习一种更丰富的判别方式来全面地表示类别,从而促进分类。具体来说,我们的方法包括一个伪标签生成模块,它利用高保真合成样本创建一个辅助分类器,该分类器捕获更丰富的视觉变化,将文本-图像对分类桥接到更鲁棒的图像-图像对分类。此外,我们利用基于扩散的合成样本的多样性来增强提示学习,为语义-视觉对齐提供更多信息。在五个公共基准数据集(包括 RESISC45 和 Flowers102)上以及三种学习范式(UL、SSL 和 TRZSL)中进行的大量实验表明,AiR 比最先进的无监督提示学习方法实现了显著且一致的性能提升。 |
2025-04-15 | UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis | null | 大型视觉语言模型的最新进展正在加速图形用户界面(GUI)代理的开发,这些代理利用类似人类的视觉感知能力来提高数字设备上的生产力。与依赖于GUI元数据的方法(这些方法依赖于平台并且容易受到实现变化的影响)相比,基于视觉的方法提供了更广泛的适用性。在这种基于视觉的范例中,GUI指令定位(将用户指令映射到给定屏幕截图上相应元素的位置)仍然是一个关键挑战,特别是由于公共训练数据集有限以及手动指令数据标注需要大量资源。在本文中,我们深入研究了这项任务中未探索的挑战,包括元素与屏幕的比例、元素类型的不平衡以及隐式指令。为了应对这些挑战,我们引入了一个大规模数据合成流水线UI-E2I-Synth,用于使用GPT-4o(而非人工标注员)生成各种复杂指令数据集。此外,我们提出了一个新的GUI指令定位基准UI-I2E-Bench,旨在通过结合不同的标注方面来解决现有基准的局限性。我们基于合成数据训练的模型在GUI指令定位方面取得了卓越的性能,证明了所提出的数据合成流水线的进步。所提出的基准以及广泛的分析为GUI定位的未来研究提供了实用见解。我们将在https://colmon46.github.io/i2e-bench-leaderboard/ 上发布相应的工件。 |
2025-04-15 | Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset | null | 我们研究了概念指导监督对多模态视频理解模型的影响,使用了包含人工标注解释性概念的数据集MOByGaze。我们引入了概念模态特定数据集(CMSD),它由根据标注概念的模态(视觉、文本或音频)分类的数据子集组成。在早期和晚期融合方法中,使用CMSD训练的模型都优于使用传统训练方法的模型。值得注意的是,这种方法使晚期融合模型的性能接近早期融合模型。这些发现强调了模态特定标注在开发鲁棒、自解释视频模型中的重要性,并有助于推进复杂视频分析中可解释多模态学习的 10000 发展。 |
2025-04-15 | R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning | link | 视觉语言模型 (VLM),例如 CLIP,作为基础模型已获得广泛普及,并开发了众多微调方法来增强其在下游任务中的性能。然而,由于其固有的脆弱性以及通常只能从有限的开源模型集中进行选择的做法,VLM 比传统的视觉模型更容易受到对抗攻击。现有的防御技术通常依赖于训练期间的对抗性微调,这需要标记数据并且缺乏下游任务的灵活性。为了解决这些限制,我们提出了鲁棒的测试时提示调优 (R-TPT),它可以在推理阶段减轻对抗攻击的影响。我们首先重新构建了经典的边缘熵目标函数,消除了在对抗条件下引入冲突的项,仅保留了逐点熵最小化。此外,我们引入了一种即插即用的基于可靠性的加权集成策略,该策略从可靠的增强视图中聚合有用信息以增强防御能力。R-TPT无需标记的训练数据即可增强对抗攻击的防御能力,同时为推理任务提供高度灵活性。在各种攻击的广泛使用的基准测试中进行的大量实验证明了 R-TPT 的有效性。代码可在 https://github.com/TomSheng21/R-TPT 获取。 |
2025-04-15 | TerraMind: Large-Scale Generative Multimodality for Earth Observation | null | 我们提出了TerraMind,这是第一个用于地球观测 (EO) 的任意到任意生成的、多模态的基础模型。与其他多模态模型不同,TerraMind在双尺度表示上进行了预训练,结合了跨模态的标记级和像素级数据。在标记级别,TerraMind编码高级上下文信息以学习跨模态关系,而在像素级别,TerraMind利用细粒度表示来捕捉关键的空间细微差别。我们使用一个全球大规模数据集的九种地理空间模态对TerraMind进行了预训练。在本文中,我们证明了 (i) TerraMind的双尺度早期融合方法开启了一系列地球观测的零样本和小样本应用,(ii) TerraMind引入了“模态思考”(Thinking-in-Modalities,TiM)——在微调和推理过程中生成额外人工数据以改进模型输出的能力,以及 (iii) TerraMind在地球观测的社区标准基准测试(如PANGAEA)中实现了超越最先进技术的性能。预训练数据集、模型权重和我们的代码已在许可许可下开源。 |
2025-04-15 | Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR | null | 光学字符识别(OCR)任务对于评估视觉语言模型(VLM)和为LLM训练数据提供高质量数据源至关重要。虽然最先进的VLM显示出平均OCR准确率的提高,但它们仍然难以解决样本级别的质量下降问题,并且缺乏对低质量输出的可靠自动检测。我们引入了共识熵(CE),这是一种无需训练的推理后方法,通过聚合来自多个VLM的输出来量化OCR的不确定性。我们的方法利用了一个关键洞察:正确的VLM OCR预测在输出空间中收敛,而错误则发散。我们开发了一个轻量级的多模型框架,可以有效地识别有问题的样本,选择最佳输出并结合模型的优势。跨多个OCR基准和VLM的实验表明,CE在质量验证方面优于VLM作为判断标准的方法和单模型基线,且成本相同,并在多个指标上实现了最先进的结果。例如,我们的解决方案表明:在质量验证中,F1分数比VLM作为判断标准的方法高15.2%,在数学计算任务中准确率提高了6.0%,并且只需要重新表述7.3%的输入即可保持整体性能。值得注意的是,整个过程既不需要训练也不需要监督,同时保持了即插即用的功能。 |
2025-04-15 | QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models | link | 在典型的多模态任务中,例如视觉问答(VQA),针对特定图像和问题的对抗性攻击会导致大型视觉语言模型(LVLM)提供错误答案。然而,单个图像通常与多个问题相关联,即使对于被特定问题攻击的对抗性图像,LVLM仍可能正确回答其他问题。为了解决这个问题,我们引入了与查询无关的视觉攻击(QAVA),旨在创建鲁棒的对抗性示例,使其对未指定和未知的问题生成错误的响应。与专注于特定图像和问题的传统对抗性攻击相比,当问题未知时,QAVA 显着提高了对图像攻击的有效性和效率,实现了与攻击已知目标问题相当的性能。我们的研究拓宽了实际环境中针对 LVLM 的视觉对抗性攻击的范围,揭示了先前被忽视的漏洞,尤其是在视觉对抗性威胁的背景下。代码可在 https://github.com/btzyd/qava 获取。 |
2025-04-15 | PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving | null | 大型多模态模型 (LMM) 在各种多模态任务中展现出令人印象深刻的能力,并在各种评估基准上取得了不断提高的性能。然而,现有的基准测试通常是静态的,并且经常与预训练数据集重叠,导致固定的复杂性限制和严重的数据污染问题。同时,手动标注的数据集劳动密集、耗时,并且容易受到人为偏差和不一致性的影响,导致可靠性和可重复性问题。为了解决这些问题,我们提出了一个完全动态的多模态评估框架,称为开放式视觉谜题生成 (OVPG),旨在在解谜任务中自动生成新鲜、多样化且可验证的评估数据。具体来说,OVPG 流程包含一个原始素材采样模块、一个视觉内容生成模块和一个谜题规则设计模块,这确保了每个评估实例都是原始的、高度随机的且具有唯一解,从而能够持续适应 LMM 不断发展的能力。基于 OVPG,我们构建了 PuzzleBench,这是一个动态且可扩展的基准测试,包含 11,840 个视觉问答样本。它包含六个精心设计的谜题任务,针对 LMM 的三个核心能力:视觉识别、逻辑推理和上下文理解。PuzzleBench 不同于那些很快就会过时的静态基准测试。它可以通过 OVPG 和丰富的开放式谜题设计实现持续的数据集刷新,从而能够无缝适应 LMM 不断发展的能力。 |
2025-04-15 | LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation | null | 大型视觉语言模型(LVLMs)已被广泛用于指导视觉基础模型执行推理分割任务,并取得了令人瞩目的性能。然而,与LVLMs相关的巨大计算开销带来了新的挑战。这种计算成本的主要来源是处理数百个图像标记。因此,降低这种开销的有效策略是减少图像标记的数量,这一过程称为图像标记剪枝。以往关于LVLMs图像标记剪枝的研究主要集中在高级视觉理解任务上,例如视觉问答和图像描述。相比之下,引导视觉基础模型根据文本查询生成准确的视觉掩码需要精确的语义和空间推理能力。因此,剪枝方法必须在整个LVLM推理过程中仔细控制各个图像标记。我们的实证分析表明,现有方法难以在降低计算开销与保持高分割精度之间取得足够的平衡。在这项工作中,我们提出了LVLM_CSP,一种专为基于LVLM的推理分割任务设计的免训练视觉标记剪枝方法。LVLM_CSP由三个阶段组成:聚类、分散和剪枝。最初,LVLM使用选定的图像标记子集执行粗粒度视觉推理。接下来,进行细粒度推理,最后,在最后阶段剪枝大部分视觉标记。大量实验表明,LVLM_CSP在几乎不降低精度的情况下实现了图像标记推理FLOPs减少65%,并且在7B LVLM上仅精度下降1%的情况下实现了70%的减少。 |
2025-04-14 | ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models | link | 视觉语言模型 (VLM) 在自动驾驶领域展现出潜力,但通常缺乏对安全性至关重要的透明推理能力。我们研究了在微调过程中显式建模推理是否能增强 VLM 在驾驶决策任务中的性能。我们使用 GPT-4o,通过特定类别提示策略,为 DriveLM 基准测试中的驾驶场景生成结构化推理链。我们比较了基于推理的微调、仅答案微调和基线指令微调模型在多个小型 VLM 系列(Llama 3.2、Llava 1.5 和 Qwen 2.5VL)上的性能。我们的结果表明,基于推理的微调始终优于其他方法,其中 Llama3.2-11B-reason 实现了最高性能。使用推理进行微调的模型在准确性和文本生成质量方面均有显著提高,这表明显式推理增强了驾驶决策的内部表征。这些发现强调了透明决策过程在安全关键领域的重要性,并为开发更具可解释性的自动驾驶系统提供了一个有前景的方向。 |
2025-04-14 | AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark | null | 我们构建了一个名为AgMMU的数据集,用于评估和开发视觉语言模型 (VLM),使其能够在知识密集型专业领域(例如农业)生成事实准确的答案。农业领域具有极高的社会效益,需要将详细的视觉观察与精确的知识联系起来进行诊断,例如识别害虫、提供管理指导等。AgMMU 的核心独特之处在于,所有事实、问题和答案均提取自真实用户与授权农业专家之间的 116,231 次对话。经过包含 GPT-4o、LLaMA 模型和人工验证的三阶段数据集构建流程,AgMMU 包含 5,460 道多项选择题 (MCQ) 和开放式问题 (OEQ) 构成的评估集。我们还提供了一个开发集,其中包含 205,399 条农业知识信息,涵盖疾病识别、症状描述、管理指导、昆虫和害虫识别以及物种识别。作为一个多模态事实数据集,AgMMU揭示了现有 VLM 在需要详细感知和事实知识的问题上面临重大挑战。此外,开源 VLM 与专有 VLM 相比仍存在显著的性能差距。为了改进知识密集型 VLM,我们使用我们的开发集进行了微调实验,将 LLaVA-1.5 的评估准确率提高了 3.1%。我们希望 AgMMU 既可以作为专注于农业领域的评估基准,也可以作为将知识密集型专业知识融入通用 VLM 的开发套件。 |
2025-04-11 | AstroLLaVA: towards the unification of astronomical data and natural language | null | 我们提出了AstroLLaVA,这是一个面向天文学的视觉语言模型,能够通过自然对话与天文图像进行交互。通过在包含约3万张图像的多样化数据集上微调LLaVA模型,这些图像带有从NASA的“每日一天文图”、欧洲南方天文台和NASA/ESA哈勃太空望远镜获取的标题和问答对,我们创建了一个能够回答关于视觉上描绘的天文概念的开放式问题的模型。我们的两阶段微调过程使模型适应天文学领域的图像描述和视觉问答。我们展示了AstroLLaVA在天文学视觉问答基准测试中的性能,并发布了模型权重、代码和训练集,以鼓励在该领域进一步的开源工作。最后,我们提出了一个将通用天文数据与预训练语言模型对齐的路线图,并为对此感兴趣的研究人员提供了一个开放的合作空间。 |
2025-04-11 | LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs | link | 大型多模态模型 (LMM) 的最新突破显著推进了文本到图像 (T2I) 生成和图像到文本 (I2T) 解释。然而,许多生成的图像仍然存在感知质量和文本-图像对齐方面的问题。鉴于人工评估的高成本和低效率,需要一种与人类偏好一致的自动评估指标。为此,我们提出了 EvalMi-50K,一个用于评估大型多模态图像生成的综合数据集和基准测试,其特点是 (i) 全面的任务,涵盖 20 个细粒度任务维度中的 2,100 个扩展提示,以及 (ii) 大规模的人类偏好注释,包括 10 万个平均意见得分 (MOS) 和 5 万个问答 (QA) 对,这些注释基于从 24 个 T2I 模型生成的 50,400 张图像。基于 EvalMi-50K,我们提出了 LMM4LMM,一个基于 LMM 的指标,用于从多个维度(包括感知、文本-图像对应和特定任务的准确性)评估大型多模态 T2I 生成。大量实验结果表明,LMM4LMM 在 EvalMi-50K 上实现了最先进的性能,并在其他 AI 生成图像评估基准数据集上展现出强大的泛化能力,体现了 EvalMi-50K 数据集和 LMM4LMM 指标的通用性。EvalMi-50K 和 LMM4LMM 将在 https://github.com/IntMeGroup/LMM4LMM 发布。 |
2025-04-10 | Investigating Vision-Language Model for Point Cloud-based Vehicle Classification | null | 重型卡车由于其庞大的体积和相比乘用车有限的机动性,带来了巨大的安全挑战。更深入地了解卡车特性对于增强自动驾驶协作的安全性至关重要。传统的基于激光雷达的卡车分类方法依赖于大量的手动标注,这使得它们既费力又昂贵。在海量数据集上训练的大型语言模型 (LLM) 的快速发展为利用其小样本学习能力进行卡车分类提供了机会。然而,现有的视觉语言模型 (VLM) 主要在图像数据集上进行训练,这使得直接处理点云数据具有挑战性。本研究引入了一个新的框架,将路侧激光雷达点云数据与VLM相结合,以促进高效准确的卡车分类,从而支持协作和安全的驾驶环境。本研究引入了三个关键创新:(1)利用真实世界的激光雷达数据集进行模型开发;(2)设计预处理流程以使点云数据适应VLM输入,包括用于密集3D渲染的点云配准和用于增强特征表示的数学形态学技术;(3)利用上下文学习和小样本提示,以最少的标记训练数据实现车辆分类。实验结果证明了该方法令人鼓舞的性能,并展现了其在减少标注工作量的同时提高分类精度的潜力。 |
2025-04-10 | VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning | null | 思维链 (CoT) 推理的进步显著增强了大型语言模型 (LLM) 和大型视觉语言模型 (LVLMs) 的能力。然而,目前缺乏一个用于视频 CoT 推理的严格评估框架。现有的视频基准测试无法充分评估推理过程,也无法揭示失败是源于感知能力不足还是推理能力不足。因此,我们引入了 VCR-Bench,这是一个旨在全面评估 LVLMs 视频思维链推理能力的新型基准测试。VCR-Bench 包含 859 个涵盖各种视频内容和时长的视频,以及 1034 个高质量的问答对。每个问答对都经过人工标注,带有逐步的 CoT 推理,其中每个步骤都被标记以指示其与感知或推理能力的关联。此外,我们设计了七个不同的任务维度,并提出了 CoT 分数,以根据逐步标记的 CoT 推理来评估整个 CoT 过程。在 VCR-Bench 上进行的大量实验突出了当前 LVLMs 的重大局限性。即使是表现最好的模型 o1,也只取得了 62.8% 的 CoT 分数和 56.7% 的准确率,而大多数模型的得分低于 40%。实验表明,大多数模型在感知步骤上的得分低于推理步骤,这揭示了 LVLMs 在复杂视频推理中时空信息处理的关键瓶颈。CoT 分数和准确率之间存在强烈的正相关关系,这证实了我们评估框架的有效性,并强调了 CoT 推理在解决复杂视频推理任务中的关键作用。我们希望 VCR-Bench 能够作为一个标准化的评估框架,并揭示复杂视频推理任务中的实际缺陷。 |
2025-04-11 | Scaling Laws for Native Multimodal Models | null | 构建能够有效地通过多模态信号感知世界的通用模型一直是一个长期目标。当前的方法包括整合单独预训练的组件,例如将视觉编码器连接到大型语言模型 (LLM) 并继续进行多模态训练。虽然这种方法展现了显著的样本效率,但这种晚期融合架构是否 inherently 更优仍然是一个悬而未决的问题。在这项工作中,我们重新审视了原生多模态模型 (NMM) 的架构设计——那些从头开始在所有模态上进行训练的模型——并进行了广泛的缩放规律研究,涵盖了 457 个经过训练的不同架构和训练混合的模型。我们的研究表明,晚期融合架构相比早期融合架构并没有 inherent 优势,后者不依赖于图像编码器。相反,早期融合在较低的参数量下表现出更强的性能,训练效率更高,也更容易部署。受早期融合架构强大性能的启发,我们展示了结合混合专家 (MoE) 可以使模型学习特定模态的权重,从而显著提高性能。 |
2025-04-10 | Unveiling the Impact of Multimodal Features on Chinese Spelling Correction: From Analysis to Design | link | 中文拼写纠错 (CSC) 任务专注于检测和纠正句子中的拼写错误。目前的研究主要探索两种方法:传统的多种模态预训练模型和大型语言模型 (LLM)。然而,LLM 在 CSC 中面临局限性,尤其是过度纠正问题,使其并非该任务的最佳选择。虽然现有研究已经调查了在多模态 CSC 模型中使用语音和字形信息,但如何有效利用这些特征来增强纠正性能仍然是一个挑战。为了解决这个问题,我们提出了多模态汉字使用分析(MACU)实验,以确定多模态纠错的潜在改进方向。基于实证结果,我们引入了 NamBert,一个用于中文拼写纠错的新型多模态模型。在基准数据集上的实验表明,NamBert 的性能优于当前最佳方法 (SOTA)。我们还对 NamBert 和 LLM 进行了全面的比较,系统地评估了它们在 CSC 中的优势和局限性。我们的代码和模型可在 https://github.com/iioSnail/NamBert 获取。 |
2025-04-10 | VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model | link | 最近,DeepSeek R1 表明,强化学习 (RL) 可以通过简单而有效的设计大幅提高大型语言模型 (LLM) 的推理能力。R1 的核心在于其基于规则的奖励公式,它利用具有确定性标准答案的任务来实现精确且稳定的奖励计算。在视觉领域,我们同样观察到各种视觉理解任务本身都配备了明确的标准答案标注。这种特性使它们天然地与基于规则的奖励机制兼容。基于这一观察,我们研究了将 R1 风格的强化学习扩展到视觉语言模型 (VLM) 的可能性,旨在增强它们的视觉推理能力。为此,我们开发了 VLM-R1,这是一个专门设计的框架,利用强化学习来提高 VLM 在一般视觉语言任务上的性能。使用此框架,我们进一步探索了将强化学习应用于视觉领域的可能性。实验结果表明,基于强化学习的模型不仅在视觉理解任务上具有竞争力的性能,而且在泛化能力方面也超过了监督微调 (SFT)。此外,我们进行了全面的消融研究,揭示了一系列值得注意的见解,包括目标检测中存在奖励黑客攻击、“目标检测顿悟时刻”的出现、训练数据质量的影响以及不同模型规模下强化学习的扩展行为。通过这些分析,我们旨在加深对强化学习如何增强视觉语言模型能力的理解,并希望我们的发现和开源贡献能够支持视觉语言强化学习社区的持续进步。我们的代码和模型可在 https://github.com/om-ai-lab/VLM-R1 获取。 |
2025-04-10 | TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs | null | 虽然近年来文本到图像 (T2I) 生成模型取得了显著进展,但现有的视觉语言对齐评估方法仍然难以进行细粒度的语义匹配。当前基于全局相似性度量的方法往往忽略了文本描述和视觉内容之间关键的词元级对应关系。为此,我们提出了 TokenFocus-VQA,一个新的评估框架,它利用大型视觉语言模型 (LVLMs) 通过带有位置特定概率优化的视觉问答 (VQA) 范式。我们的关键创新在于设计了一个词元感知损失函数,该函数选择性地关注预定义词汇位置的概率分布,这些位置对应于关键语义元素,从而能够精确测量细粒度语义对齐。所提出的框架进一步集成了集成学习技术,以聚合来自不同 LVLMs 架构的多视角评估,从而进一步提高性能。在 NTIRE 2025 T2I 质量评估挑战赛道 1 上进行的评估中,我们的 TokenFocus-VQA 在公开评估中排名第二(0.8445,仅比第一名低 0.0001),在官方私人测试集中排名第二(0.8426),这表明与传统评估方法相比,它在捕捉细微的图文对应关系方面具有优势。 |
2025-04-10 | Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models | link | 大多数现有的情感分析强调哪些情感出现(例如,高兴、悲伤、愤怒),但忽略了更深层次的原因。我们提出了情感解读(EI),重点关注引起情绪反应的因果因素——无论是显性的(例如,可观察到的对象、人际互动)还是隐性的(例如,文化背景、屏幕外事件)。与传统的情感识别不同,EI 任务需要对触发因素进行推理,而不是仅仅进行标记。为了促进 EI 研究,我们提出了 EIBench,这是一个包含 1,615 个基本 EI 样本和 50 个具有多方面情感的复杂 EI 样本的大规模基准测试。每个实例都需要基于推理的解释,而不是简单的分类。我们进一步提出了一个从粗到精的自我提问 (CFSA) 标注流程,它通过迭代的问答环节引导视觉语言模型 (VLLM) 生成高质量的标签。在四种实验设置下对开源和专有大型语言模型进行的广泛评估揭示了一致的性能差距——尤其是在更复杂的情况下——这突出了 EI 在丰富具有同理心、上下文感知的 AI 应用方面的潜力。我们的基准测试和方法已在 https://github.com/Lum1104/EIBench 公开,为高级多模态因果分析和下一代情感计算奠定了基础。 |
2025-04-10 | Kimi-VL Technical Report | link | 我们推出了 Kimi-VL,一个高效的开源混合专家 (MoE) 视觉语言模型 (VLM),它提供高级多模态推理、长上下文理解和强大的代理能力——所有这些都仅在其语言解码器 (Kimi-VL-A3B) 中激活 28 亿个参数。Kimi-VL 在多个挑战性领域展现了强大的性能:作为通用 VLM,Kimi-VL 在多轮代理任务(例如,OSWorld)中表现出色,可与旗舰模型相媲美。此外,它在各种具有挑战性的视觉语言任务中展现出卓越的能力,包括大学水平的图像和视频理解、OCR、数学推理和多图像理解。在比较评估中,它可以有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等尖端高效 VLM 竞争,同时在几个关键领域超越 GPT-4o。Kimi-VL 在处理长上下文和清晰感知方面也取得了进步。凭借 128K 扩展上下文窗口,Kimi-VL 可以处理各种长输入,在 LongVideoBench 上取得了 64.5 的优异成绩,在 MMLongBench-Doc 上取得了 35.1 的优异成绩。其原生分辨率视觉编码器 MoonViT 进一步使其能够查看和理解超高分辨率视觉输入,在 InfoVQA 上达到 83.2,在 ScreenSpot-Pro 上达到 34.5,同时保持了常见任务的较低计算成本。基于 Kimi-VL,我们推出了一个高级长思考变体:Kimi-VL-Thinking。该模型通过长思维链 (CoT) 监督微调 (SFT) 和强化学习 (RL) 开发,展现出强大的长程推理能力。它在 MMMU 上取得了 61.7 分,在 MathVision 上取得了 36.8 分,在 MathVista 上取得了 71.3 分,同时保持了紧凑的 28 亿激活 LLM 参数,为高效多模态思维模型树立了新标准。代码和模型可在 https://github.com/MoonshotAI/Kimi-VL 公开访问。 |
2025-04-09 | Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation | null | 视觉语言模型 (VLM) 的评估主要依赖于英语基准,在多语言和多文化覆盖方面都存在显著差距。虽然多语言基准测试在规模和语言方面都有所扩展,但许多基准测试依赖于英语数据集的翻译,未能捕捉到文化细微差别。在这项工作中,我们提出了 Kaleidoscope,它是迄今为止用于多语言视觉语言模型评估的最全面的考试基准。Kaleidoscope 是一个大规模的、使用母语的多模态基准测试,旨在评估不同语言和视觉输入的 VLM。Kaleidoscope 涵盖 18 种语言和 14 个不同的主题,共计 20,911 道选择题。Kaleidoscope 通过与世界各地不同研究人员的开放科学合作构建,确保了语言和文化的真实性。我们评估了性能最佳的多语言视觉语言模型,发现它们在低资源语言和复杂多模态场景中的表现不佳。我们的结果强调需要在具有文化包容性的多模态评估框架方面取得进展。 |
2025-04-09 | MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking | null | 运动目标分割在理解动态视觉环境中起着至关重要的作用。虽然现有方法依赖于多帧图像序列来识别运动目标,但单图像运动目标分割对于运动意图预测和处理相机丢帧等应用至关重要。然而,由于缺乏时间线索,使用现有方法从单幅图像中分割运动目标仍然具有挑战性。为了解决这一差距,我们提出了MovSAM,这是第一个用于单图像运动目标分割的框架。MovSAM利用具有思维链(CoT)提示的多模态大型语言模型(MLLM)来搜索运动目标,并基于深度思考生成用于分割的文本提示。这些提示与来自Segment Anything Model (SAM)和视觉语言模型 (VLM)的视觉特征进行交叉融合,从而实现逻辑驱动的运动目标分割。分割结果随后经过深度思考的细化循环,使MovSAM能够通过逻辑推理迭代改进其对场景上下文和对象间关系的理解。这种创新方法使MovSAM能够通过考虑场景理解来分割单幅图像中的运动目标。我们在现实世界中实现了MovSAM,以验证其在自动驾驶场景(多帧方法失效的场景)中的实际应用和有效性。此外,尽管多帧方法在利用时间信息方面具有固有优势,但MovSAM在公共MOS基准测试中实现了最先进的性能,在J&F上达到了92.5%。我们的实现将在https://github.com/IRMVLab/MovSAM上提供。 |
2025-04-09 | ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models | null | 最近的研究引入了各种用于黑盒视觉语言模型的提示微调方法,称为黑盒提示微调 (BBPT)。虽然BBPT已展现出相当大的潜力,但人们经常发现许多现有方法需要过多的查询(即函数评估),这在查询次数受限的实际场景中构成了重大挑战。为了解决这个问题,我们提出了零阶内蕴维度提示微调 (ZIP),这是一种能够在纯黑盒设置下实现高效且鲁棒的提示优化的新方法。ZIP 的核心思想是降低问题维度和零阶梯度估计的方差,从而以更少的查询次数快速完成训练。我们通过在低秩表示中重新参数化提示,并设计内蕴维度的梯度估计裁剪来实现这一点。我们在标准基准测试中的 13 个以上视觉语言任务上评估了 ZIP,结果表明,与性能最佳的替代 BBPT 方法相比,它在少样本准确率方面平均提高了约 6%,在查询效率方面平均提高了 48%,建立了新的最先进水平。我们的消融分析进一步表明,所提出的裁剪机制是鲁棒且近乎最优的,无需手动选择裁剪阈值,即可与昂贵的超参数搜索结果相匹配。 |
2025-04-08 | Transfer between Modalities with MetaQueries | null | 统一多模态模型旨在整合理解(文本输出)和生成(像素输出),但将这些不同的模态整合到一个单一架构中通常需要复杂的训练方法和仔细的数据平衡。我们引入了MetaQueries,这是一组可学习的查询,充当自回归多模态大型语言模型(MLLM)和扩散模型之间的有效接口。MetaQueries将MLLM的潜在表示连接到扩散解码器,通过利用MLLM的深度理解和推理能力来实现知识增强的图像生成。我们的方法简化了训练,只需要配对的图像-标题数据和标准的扩散目标函数。值得注意的是,即使MLLM主干保持冻结状态,这种迁移也很有效,从而在保持其最先进的多模态理解能力的同时实现强大的生成性能。此外,我们的方法非常灵活,可以很容易地进行指令微调,用于高级应用,如图像编辑和主题驱动生成。 |
2025-04-07 | ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering | link | 图表无处不在,人们经常使用它们来分析数据、回答问题和发现关键见解。然而,使用图表执行复杂的分析任务需要大量的感知和认知努力。图表问答 (CQA) 系统通过使模型能够解释和推理数据的视觉表示来自动化此过程。然而,像 ChartQA 这样的现有基准测试缺乏现实世界的多样性,并且最近显示出现代大型视觉语言模型 (LVLM) 的性能饱和。为了解决这些限制,我们引入了 ChartQAPro,这是一个新的基准测试,其中包含来自 157 个不同来源的 1,341 个图表,涵盖各种图表类型,包括信息图表和仪表板,并包含 1,948 个各种类型的问题,例如多项选择题、对话题、假设题和无法回答的问题,以更好地反映现实世界的挑战。我们对 21 个模型的评估表明,LVLM 在 ChartQAPro 上的性能大幅下降;例如,Claude Sonnet 3.5 在 ChartQA 上得分为 90.5%,但在 ChartQAPro 上仅为 55.81%,这突显了图表推理的复杂性。我们通过详细的错误分析和消融研究补充了我们的发现,确定了在图表理解和推理方面推进 LVLM 的关键挑战和机遇。我们在 https://github.com/vis-nlp/ChartQAPro 发布 ChartQAPro。 |
2025-04-07 | Probing the Visualization Literacy of Vision Language Models: the Good, the Bad, and the Ugly | null | 视觉语言模型 (VLM) 表现出 promising 的图表理解能力。然而,先前对其可视化素养的探索仅限于评估其响应的正确性,而未能探究其内部推理过程。为了弥补这一差距,我们针对 VLM 调整了注意力引导的类激活图 (AG-CAM),以可视化输入特征(图像和文本)对模型响应的影响和重要性。利用这种方法,我们对四个开源(ChartGemma、Janus 1B 和 7B 以及 LLaVA)和两个闭源(GPT-4o、Gemini)模型进行了检查,比较了它们的性能,并针对开源模型比较了它们的 AG-CAM 结果。总体而言,我们发现针对图表问答 (QA) 微调的 3B 参数 VLM ChartGemma 优于其他开源模型,并且表现出与参数规模更大的闭源 VLM 相当的性能。我们还发现,VLM 通过准确定位关键图表特征来展现空间推理能力,并通过将视觉元素与相应的数据值和查询标记相关联来展现语义推理能力。我们的方法首次展示了在广泛使用的早期融合 VLM 架构上以及在图表问答中使用 AG-CAM。我们还展示了初步证据,表明这些结果与人类推理一致。我们充满希望的开源 VLM 结果为人工智能可视化素养方面的透明和可重复研究铺平了道路。 |
2025-04-07 | SmolVLM: Redefining small and efficient multimodal models | null | 大型视觉语言模型 (VLM) 性能卓越,但需要大量的计算资源,限制了其在移动和边缘设备上的部署。较小的 VLM 通常会模仿大型模型的设计选择,例如大量的图像分词,导致 GPU 内存使用效率低下,并限制了设备端应用的实用性。我们推出了 SmolVLM,这是一系列专为资源高效推理而设计的紧凑型多模态模型。我们系统地探索了针对低计算开销而优化的架构配置、分词策略和数据整理。通过这些,我们确定了关键的设计选择,这些选择在图像和视频任务中带来了显著的性能提升,同时最大限度地减少了内存占用。我们最小的模型 SmolVLM-256M,在推理过程中使用不到 1GB 的 GPU 内存,并且性能优于比其大 300 倍的 Idefics-80B 模型,尽管两者有 18 个月的开发差距。我们最大的模型,参数量为 22 亿,可与最先进的 VLM 媲美,而后者消耗的 GPU 内存是其两倍。SmolVLM 模型的功能超越了静态图像,展示了强大的视频理解能力。我们的结果强调,战略性的架构优化、积极而高效的分词以及精心整理的训练数据可以显著增强多模态性能,从而促进在更小规模下实现实用、节能的部署。 |
2025-04-07 | Vision-Language Model Predictive Control for Manipulation Planning and Trajectory Generation | link | 模型预测控制(MPC)是一种广泛采用的控制范式,它利用预测模型来估计未来的系统状态并相应地优化控制输入。然而,虽然MPC在规划和控制方面表现出色,但它缺乏环境感知能力,导致在复杂和非结构化场景中失败。为了解决这一局限性,我们引入了视觉语言模型预测控制(VLMPC),这是一个机器人操作规划框架,它将视觉语言模型(VLM)的感知能力与MPC相结合。VLMPC利用一个条件动作采样模块,该模块将目标图像或语言指令作为输入,并利用VLM生成候选动作序列。这些候选序列被输入到一个视频预测模型中,该模型根据动作模拟未来帧。此外,我们提出了一个增强型变体Traj-VLMPC,它用运动轨迹生成代替视频预测,以降低计算复杂度,同时保持精度。Traj-VLMPC根据候选动作估计运动动态,为长周期任务和实时应用提供了更高效的替代方案。VLMPC和Traj-VLMPC都使用基于VLM的分层成本函数来选择最佳动作序列,该函数捕获当前观察结果和任务输入之间的像素级和知识级一致性。我们证明了这两种方法在公共基准测试中都优于现有的最先进方法,并在各种现实世界的机器人操作任务中取得了优异的性能。代码可在https://github.com/PPjmchen/VLMPC获取。 |
2025-04-07 | Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework | null | 波束成形是毫米波 (mmWave) 通信中的一项关键技术,它通过优化方向性和强度来改善信号传输。然而,传统的信道估计方法,例如导频信号或波束扫描,通常无法适应快速变化的通信环境。为了解决这一局限性,多模态感知辅助波束预测受到了广泛关注,它利用来自激光雷达、雷达、GPS 和 RGB 图像等设备的各种传感数据来预测用户位置或网络状况。尽管其潜力巨大,但多模态感知辅助波束预测的应用受到高计算复杂度、高成本和有限数据集的阻碍。因此,本文提出了一种资源高效的学习方法,将知识从多模态网络迁移到基于跨模态关系知识蒸馏 (CRKD) 的单模态(仅雷达)网络,同时降低计算开销并保持预测精度。为了使用真实数据进行多模态学习,开发了一种新颖的多模态仿真框架,将自动驾驶模拟器 CARLA 生成的传感器数据与基于 MATLAB 的毫米波信道建模相结合,并反映真实世界条件。所提出的 CRKD 通过提取不同特征空间的关系信息来实现其目标,从而在不依赖昂贵传感器数据的情况下增强波束预测性能。仿真结果表明,CRKD 可以有效地提取多模态知识,使仅雷达模型达到教师模型性能的94.62%。尤其值得一提的是,这仅使用了教师网络10%的参数量就实现了,从而显著降低了计算复杂度和对多模态传感器数据的依赖。 |
2025-04-08 | A Taxonomy of Self-Handover | null | 自身交接,即将物体在自己的双手之间传递,是一种常见但研究不足的双手动作。虽然它有助于在复杂任务中实现无缝过渡,但其执行背后的策略很大程度上仍未得到探索。本文中,我们介绍了第一个系统的自身交接分类法,该分类法源自对21名参与者执行的超过12小时烹饪活动的 manuell 标注。我们的分析表明,自身交接不仅仅是被动的过渡,而是一个高度协调的动作,涉及双手的预期调整。为了实现人类操作的自动分析,我们进一步证明了使用最先进的视觉语言模型对自身交接类型进行分类的可行性。这些发现为双手协调提供了新的见解,强调了自身交接在实现平滑任务过渡中的作用——这是一种自适应双臂机器人必不可少的能力。 |
2025-04-07 | SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models | link | 排版攻击利用多模态基础模型中文本和视觉内容之间的相互作用,当图像中嵌入误导性文本时,会导致错误分类。然而,现有的数据集在规模和多样性方面都存在局限性,这使得研究此类漏洞变得困难。在本文中,我们介绍了 SCAM,这是迄今为止最大、最多样化的真实世界排版攻击图像数据集,包含 1,162 张图像,涵盖数百个对象类别和攻击词。通过在 SCAM 上对视觉语言模型 (VLM) 进行广泛的基准测试,我们证明了排版攻击会显着降低性能,并确定训练数据和模型架构会影响对这些攻击的敏感性。我们的研究结果表明,由于视觉编码器的选择,排版攻击仍然存在于最先进的大型视觉语言模型 (LVLM) 中,尽管更大的大型语言模型 (LLM) 骨干有助于降低其脆弱性。此外,我们证明了合成攻击与真实世界(手写)攻击非常相似,验证了它们在研究中的用途。我们的工作提供了全面的资源和经验见解,以促进未来对稳健且值得信赖的多模态人工智能系统的研究。我们在 https://huggingface.co/datasets/BLISS-e-V/SCAM 下公开发布了本文中介绍的数据集,以及 https://github.com/Bliss-e-V/SCAM 上的评估代码。 |
2025-04-07 | Don't Lag, RAG: Training-Free Adversarial Detection Using RAG | null | 对抗性补丁攻击通过嵌入误导深度模型的局部扰动,对视觉系统构成了重大威胁。传统的防御方法通常需要重新训练或微调,这使得它们在实际部署中不切实际。我们提出了一种无需训练的视觉检索增强生成(VRAG)框架,该框架集成了视觉语言模型(VLM)来检测对抗性补丁。通过检索视觉上相似的补丁和图像(这些补丁和图像与不断扩展的数据库中存储的攻击相似),VRAG执行生成式推理来识别各种攻击类型,所有这些都不需要额外的训练或微调。我们广泛评估了开源大规模VLM,包括Qwen-VL-Plus、Qwen2.5-VL-72B和UI-TARS-72B-DPO,以及闭源模型Gemini-2.0。值得注意的是,开源UI-TARS-72B-DPO模型的分类准确率高达95%,为开源对抗性补丁检测树立了新的最先进水平。Gemini-2.0的总体准确率最高,达到98%,但仍然是闭源的。实验结果表明,VRAG能够以最少的人工标注识别各种对抗性补丁,为抵御不断演变的对抗性补丁攻击的鲁棒、实用的防御铺平了道路。 |
2025-04-06 | M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models | null | 多模态上下文学习 (ICL) 是大型视觉语言模型 (LVLM) 的一项重要能力,它允许通过上下文提示进行任务适配,而无需重新训练参数。然而,其应用受到输入的密集型token性质和跨模态小样本学习的高复杂性的限制,这限制了表示方法的表达能力。为了应对这些挑战,我们提出了M2IV,一种用可学习的上下文向量 (In-context Vectors) 代替显式演示的方法,这些向量直接集成到LVLM中。通过利用多头注意力 (MHA) 和多层感知器 (MLP) 的互补优势,M2IV 通过训练实现了鲁棒的跨模态保真度和细粒度的语义蒸馏。这显著提高了各种 LVLM 和任务的性能,并有效地扩展到多样本场景,绕过了上下文窗口的限制。我们还引入了VLibrary,一个用于存储和检索 M2IV 的存储库,支持 LVLM 在跨模态对齐、定制化生成和安全性改进等任务上的灵活操控。在七个基准测试和三个 LVLM 上的实验表明,M2IV 超越了 Vanilla ICL 和先前的表示工程方法,在相同样本数量下,平均精度比 ICL 提高了3.74%,同时具有显著的效率优势。 |
2025-04-04 | SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding | link | 合成孔径雷达 (SAR) 是一项至关重要的遥感技术,能够全天候、昼夜观测,并具有强大的表面穿透能力,可用于精确和持续的环境监测与分析。然而,由于其复杂的物理成像机制以及与人类视觉感知的显著差异,SAR图像解译仍然具有挑战性。近年来,视觉语言模型 (VLM) 在RGB图像理解方面取得了显著成功,提供了强大的开放词汇解释和灵活的语言交互能力。但是,由于其训练数据中缺乏特定于SAR的知识,VLM在SAR图像上的应用受到严重限制,导致性能欠佳。为了解决这一局限性,我们引入了SARLANG-1M,这是一个专为多模态SAR图像理解而设计的大规模基准数据集,主要侧重于将SAR与文本模态相结合。SARLANG-1M包含从全球59个以上城市收集的超过100万个高质量SAR图像-文本对。它具有分层分辨率(范围从0.1米到25米)、细粒度的语义描述(包括简洁和详细的标题)、多样化的遥感类别(1,696种对象类型和16种土地覆盖类别),以及涵盖七个应用和1,012种问题类型的多任务问答对。在主流VLM上的大量实验表明,使用SARLANG-1M进行微调可以显著提高其在SAR图像解译方面的性能,达到与人类专家相当的水平。数据集和代码将在https://github.com/Jimmyxichen/SARLANG-1M上公开发布。 |
2025-04-04 | NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving | null | 视觉语言模型(VLM)的最新进展已展现出其在自动驾驶任务中的巨大潜力。然而,它们的空间理解和推理能力(自动驾驶的关键能力)仍然存在显著的局限性。值得注意的是,现有的基准测试均未系统地评估VLM在驾驶场景中的空间推理能力。为了填补这一空白,我们提出了NuScenes-SpatialQA,这是第一个专门设计用于评估VLM在自动驾驶中空间理解和推理能力的大规模基于真实数据的问答(QA)基准测试。该基准测试构建于NuScenes数据集之上,通过自动化的3D场景图生成流程和问答生成流程构建而成。该基准测试系统地评估了VLM在多个维度上的空间理解和推理性能。我们使用此基准测试对各种VLM(包括通用模型和空间增强模型)进行了广泛的实验,首次对其在自动驾驶中的空间能力进行了全面评估。令人惊讶的是,实验结果表明,空间增强VLM在定性问答方面表现出色,但在定量问答方面却没有展现出竞争力。总体而言,VLM在空间理解和推理方面仍然面临相当大的挑战。 |
2025-04-04 | TokenFLEX: Unified VLM Training for Flexible Visual Tokens Inference | null | 传统的视觉语言模型 (VLMs) 通常使用固定数量的视觉标记,而忽略了任务的复杂性。这种一刀切的策略引入了显著的低效性:在简单的任务中使用过多的标记会导致不必要的计算开销,而在更复杂的情况下,标记不足则会影响对视觉信息的细粒度理解。为了克服这些限制,我们提出了 TokenFLEX,这是一个创新且自适应的视觉语言框架,它将图像编码成可变数量的标记,以便与大型语言模型 (LLM) 高效集成。我们的方法基于两项关键创新。首先,我们提出了一种新的训练范式,通过在训练期间随机调整标记数量来提高不同数量视觉标记的性能。其次,我们设计了一个轻量级的视觉标记投影器,它包含一个自适应池化层和 SwiGLU,允许灵活地下采样视觉标记,并根据特定标记数量自适应地选择特征。综合实验表明,TokenFLEX 始终优于其固定标记的 counterparts,在各种标记数量下均实现了显著的性能提升,在八个视觉语言基准测试中,使用 64、144 和 256 个标记分别平均提高了 1.6%、1.0% 和 0.4%。这些结果突出了 TokenFLEX 在保持高性能视觉语言理解的同时,具有显著的灵活性。 |
2025-04-04 | MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories | null | 我们提出了MORAL(一种用于自主实验室决策的多模态强化学习框架),通过整合视觉和文本输入来增强自主机器人实验室中的序列决策。利用BridgeData V2数据集,我们使用预训练的BLIP-2视觉语言模型生成微调后的图像描述,并通过早期融合策略将其与视觉特征相结合。融合后的表示使用深度Q网络(DQN)和近端策略优化(PPO)智能体进行处理。实验结果表明,经过充分训练后,多模态智能体在任务完成率方面提高了20%,并且显著优于纯视觉和纯文本基线。与基于Transformer和循环神经网络的多模态强化学习模型相比,我们的方法在累积奖励和描述质量指标(BLEU、METEOR、ROUGE-L)方面实现了优越的性能。这些结果突出了语义对齐的语言线索在提高智能体学习效率和泛化能力方面的影响。所提出的框架有助于推动多模态强化学习和具身人工智能系统在动态的现实环境中的发展。 |
2025-04-03 | QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding | null | 在视觉文档理解 (VDU) 任务中,使用新数据集对预训练的视觉语言模型 (VLM) 进行微调通常难以优化视觉编码器以识别富文本文档图像中特定于查询的区域。现有的通过修改网络架构将查询直接注入模型层的方法通常难以适应标注有限的新数据集。为了解决这个问题,我们引入了 QID,这是一种新颖的、简化的、保留架构的方法,它将查询嵌入集成到视觉编码器中,从而显著提高性能,尤其是在数据稀缺的微调场景中。具体来说,我们的方法引入了双模块框架:一个查询感知模块,生成唯一的查询向量以精确引导模型的焦点;以及一个查询无关模块,捕获标记之间的位置关系,确保稳健的空间理解。值得注意的是,这两个模块独立于视觉注意力块运行,促进了查询嵌入的定向学习并增强了视觉语义识别。使用无 OCR 的 VLM 在多个数据集上进行的实验表明,我们的方法显著提高了性能,尤其是在数据稀缺的环境中处理富文本文档方面。 |
2025-04-03 | Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence | null | 大型视觉语言模型 (VLMs) 为人工智能驱动的图像理解提供了一种新的范式,使模型能够在没有特定任务训练的情况下执行任务。这种灵活性在医学领域尤其具有前景,因为该领域缺乏专家标注的数据。然而,VLM 在以干预为中心的领域的实际效用——尤其是在外科手术中,由于决策具有主观性且临床场景多变——仍然不确定。在这里,我们对 11 个最先进的 VLM 在外科人工智能的 17 个关键视觉理解任务中的表现进行了全面分析,这些任务涵盖了解剖结构识别到技能评估,使用了 13 个跨腹腔镜、机器人和开放手术的数据集。在我们的实验中,VLM 表现出良好的泛化能力,有时在部署到训练环境之外时,其性能甚至优于监督模型。上下文学习(在测试期间加入示例)将性能提高了三倍,表明适应性是其关键优势。尽管如此,需要空间或时间推理的任务仍然很困难。除了外科手术之外,我们的研究结果还为 VLM 应对临床和更广泛的现实世界应用中的复杂和动态场景的潜力提供了见解。 |
2025-04-03 | Robot-Led Vision Language Model Wellbeing Assessment of Children | null | 本研究提出了一种新颖的由机器人主导的儿童心理健康评估方法,该方法利用视觉语言模型 (VLM)。受儿童统觉测验 (CAT) 的启发,社交机器人 NAO 向儿童呈现图片刺激物,以引出他们对图像的口头叙述,然后由 VLM 根据 CAT 评估指南进行评估。VLM 的评估结果与训练有素的心理学家提供的评估结果进行了系统比较。结果表明,虽然 VLM 在识别无健康问题案例方面表现出中等可靠性,但其准确分类有临床问题评估的能力仍然有限。此外,尽管该模型在输入不同的年龄和性别等人口统计学因素时,其性能总体一致,但在女孩中观察到显着更高的假阳性率,表明该模型可能对性别属性敏感。这些发现突出了将 VLM 集成到机器人主导的儿童健康评估中的前景和挑战。 |
2025-04-03 | Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation | link | 处理长视频对视觉语言模型(VLM)提出了根本性挑战,因为处理长时序序列的计算成本很高。现有的token剪枝和特征融合方法往往会牺牲关键的时间依赖性或稀释语义信息。我们引入了差分蒸馏,这是一种系统地保留任务相关信息并抑制冗余信息的原则性方法。基于此原则,我们开发了ViLaMP,一个通过两种关键机制以“混合精度”处理长达数小时视频的分层视频语言模型:(1)差分关键帧选择,在帧级别最大化查询相关性,同时保持时间上的区分性;(2)差分特征融合,在补丁级别保留非关键帧中与查询相关的显著特征。因此,ViLaMP保留了关键帧中的完整信息,同时将非关键帧简化为其最显著的特征,类似于混合精度训练。大量实验表明,ViLaMP在四个视频理解基准测试中表现出色,尤其是在长视频内容上。值得注意的是,ViLaMP可以在单个NVIDIA A100 GPU上处理超长视频(最多10K帧),在保持最先进性能的同时,实现了显著的计算效率。 |
2025-04-03 | Large (Vision) Language Models are Unsupervised In-Context Learners | link | 大型语言模型和视觉语言模型的最新进展实现了零样本推理,允许模型在没有特定任务训练的情况下解决新任务。各种适应技术,例如提示工程、上下文学习 (ICL) 和监督微调,可以进一步提高模型在下游任务中的性能,但它们需要大量手动工作来构建有效的提示或标记示例。在这项工作中,我们引入了一个用于完全无监督适应的联合推理框架,从而无需手动提示工程和标记示例。与进行独立预测的零样本推理不同,联合推理对给定任务中的所有输入同时进行预测。由于直接联合推理涉及计算成本高昂的优化,我们开发了高效的近似技术,从而产生了两种无监督适应方法:无监督微调和无监督ICL。我们证明了我们的方法在各种任务和模型中的有效性,包括在自然语言处理任务上的纯语言模型Llama-3.1,在小学数学问题上的推理导向模型Qwen2.5-Math,在视觉任务上的视觉语言模型OpenFlamingo,以及在大型多学科任务上仅通过API访问的GPT-4o模型。我们的实验表明,与标准零样本方法相比,该方法取得了显著改进,包括在具有挑战性的GSM8K数学推理数据集上实现了39%的绝对改进。值得注意的是,尽管是完全无监督的,但我们的框架的性能通常与依赖于真实标签的监督方法相当。 |
2025-04-03 | Re-thinking Temporal Search for Long-Form Video Understanding | link | 有效理解长视频仍然是计算机视觉中的一个重大挑战。在这项工作中,我们重新审视了用于长视频理解的时序搜索范式,研究了所有最先进的长上下文视觉语言模型(VLM)都存在的的一个基本问题。具体来说,我们的贡献有两个方面:首先,我们将时序搜索表述为一个长视频大海捞针问题,即在给定特定查询的情况下,从真实世界的长视频的数万帧中找到最小的相关帧集(通常是一到五帧)。为了验证我们的表述,我们创建了LV-Haystack,这是第一个包含3874个人工标注实例的基准测试,它包含用于评估关键帧搜索质量和计算效率的细粒度评估指标。在LV-Haystack上的实验结果突出了时序搜索能力的显著研究差距,最先进的关键帧选择方法在LVBench子集上仅实现了2.1%的时序F1分数。接下来,受图像视觉搜索的启发,我们重新思考了时序搜索,并提出了一个轻量级的关键帧搜索框架T*,它将昂贵的时序搜索转化为空间搜索问题。T利用了通常用于图像的卓越视觉定位能力,并引入了一种在时间和空间维度上运行的自适应放大机制。我们广泛的实验表明,与现有方法集成时,T显著提高了最先进的长视频理解性能。具体来说,在32帧的推理预算下,T*将GPT-4o在LongVideoBench XL子集上的性能从50.5%提高到53.1%,将LLaVA-OneVision-72B的性能从56.5%提高到62.4%。我们的PyTorch代码、基准数据集和模型包含在补充材料中。 |
2025-04-03 | SocialGesture: Delving into Multi-person Gesture Understanding | null | 以往的人体手势识别研究很大程度上忽略了多人互动,而多人互动对于理解自然发生的手势的社会语境至关重要。现有数据集的这一局限性给人类手势与其他模态(如语言和语音)的对齐带来了重大挑战。为了解决这个问题,我们推出了SocialGesture,这是第一个专门为多人手势分析设计的大规模数据集。SocialGesture涵盖了各种自然场景,并支持多种手势分析任务,包括基于视频的识别和时间定位,为推进复杂社会互动中手势的研究提供了宝贵的资源。此外,我们提出了一个新的视觉问答(VQA)任务,以评估视觉语言模型(VLM)在理解社会手势方面的性能。我们的研究结果突出了当前手势识别模型的几个局限性,为该领域未来的改进方向提供了见解。SocialGesture可在huggingface.co/datasets/IrohXu/SocialGesture获取。 |
2025-04-02 | One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image | null | 多模态检索增强生成(M-RAG)最近成为一种通过事实知识库(KB)抑制大型多模态模型(LMM)幻觉的方法。然而,M-RAG 也为旨在通过向知识库注入恶意条目来破坏系统的攻击者引入了新的攻击向量。在这项工作中,我们提出了一种针对视觉文档检索应用的 M-RAG 投毒攻击,其中知识库包含文档页面的图像。我们的目标是制作一个单一的图像,使其能够被各种不同的用户查询检索到,并持续影响生成模型产生的输出,从而对 M-RAG 系统造成普遍的拒绝服务(DoS)攻击。我们证明,虽然我们的攻击对各种广泛使用的、最先进的检索器(嵌入模型)和生成器(LMM)有效,但它对鲁棒的嵌入模型也可能无效。我们的攻击不仅突出了 M-RAG 管道易受投毒攻击的漏洞,还揭示了一个潜在的弱点,即使在良性环境中也可能影响其性能。 |
2025-04-02 | FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs | null | 作为一种开创性的视觉语言模型,CLIP(对比语言-图像预训练)已在各个领域和广泛的下游视觉语言任务中取得了显著成功。然而,流行的CLIP模型中的文本编码器仅限于处理77个文本标记,这限制了它们有效处理更长、更详细的标题的能力。此外,CLIP模型通常难以有效地捕捉详细的视觉和文本信息,这阻碍了它们在需要细粒度分析的任务上的性能。为了解决这些限制,我们提出了一种新颖的方法FineLIP,它扩展了CLIP的功能。FineLIP通过在CLIP风格的框架内结合细粒度对齐和更长的文本输入来增强跨模态文本图像映射。FineLIP首先扩展位置嵌入以处理更长的文本,然后动态聚合局部图像和文本标记。聚合的结果随后用于强制执行细粒度的标记到标记的跨模态对齐。我们在具有长而详细标题的数据集上验证了我们的模型,涵盖了两个任务:零样本跨模态检索和文本到图像生成。定量和定性的实验结果证明了FineLIP的有效性,其性能优于现有的最先进方法。此外,全面的消融研究验证了FineLIP中关键设计元素的优势。 |
2025-04-02 | Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness | null | 大型多模态模型 (LMM) 在二维图像和视频领域的快速发展促使人们努力将其应用于三维场景的理解。然而,大规模三维视觉语言数据集的缺失构成了一个重大障碍。为了解决这个问题,典型的方法侧重于通过设计三维输入级场景表示,将三维感知注入二维 LMM 中。这项工作提供了一个新的视角。我们引入了具有三维感知的重建式视觉指令微调 (Ross3D),它将三维感知视觉监督融入训练过程中。具体来说,它结合了跨视角和全局视角重建。前者要求通过聚合来自其他 8000 视角的重叠信息来重建被遮挡的视角。后者旨在聚合来自所有可用视角的信息以恢复鸟瞰图,从而有助于全面了解整个场景。根据经验,Ross3D 在各种三维场景理解基准测试中实现了最先进的性能。更重要的是,我们的半监督实验表明,在利用大量未标记的三维纯视觉数据方面具有巨大潜力。 |
2025-04-02 | Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images | link | 人工智能 (AI) 在皮肤病诊断方面已取得显著进展,但一个主要问题是这些模型在不同亚组中的表现经常出现偏差,尤其是在肤色等敏感属性方面。为了解决这些问题,我们提出了一个新的基于生成式AI的框架,即皮肤病扩散Transformer (DermDiT),它利用通过视觉语言模型生成的文本提示和多模态图文学习来生成新的皮肤镜图像。我们利用大型视觉语言模型为每个皮肤镜图像生成准确和适当的提示,这有助于生成合成图像,以改善临床诊断中高度不平衡数据集中代表性不足的群体(患者、疾病等)的表征。我们广泛的实验表明,大型视觉语言模型提供了更具洞察力的表征,使 DermDiT 能够生成高质量的图像。我们的代码可在 https://github.com/Munia03/DermDiT 获取。 |
2025-03-31 | FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics | null | 生成式人工智能 (AI) 的快速且不受约束的发展是一把双刃剑:它在带来前所未有的创造力的同时,也助长了高度逼真的欺骗性内容的产生,从而破坏了社会信任。随着图像生成技术日益复杂,检测合成图像不再只是一项二元任务:它需要可解释的、上下文感知的方法来增强可信度和透明度。然而,现有的检测模型主要集中于分类,对图像真实性提供的解释性见解有限。在这项工作中,我们提出了 FakeScope,一个专为 AI 生成图像取证定制的专家多模态模型 (LMM),它不仅可以高精度地识别 AI 合成图像,还可以提供丰富、可解释和查询驱动的取证见解。我们首先构建了 FakeChain 数据集,该数据集包含基于视觉痕迹证据的语言真实性推理,并通过一种新颖的人机协作框架开发。在此基础上,我们进一步提出了 FakeInstruct,这是一个最大的多模态指令微调数据集,包含 200 万条视觉指令,旨在增强 LMM 中的取证意识。FakeScope 在封闭式和开放式取证场景中均实现了最先进的性能。它可以高精度地区分合成图像,同时提供连贯且富有洞察力的解释、关于细粒度伪造属性的自由讨论以及可操作的增强策略。值得注意的是,尽管仅使用定性硬标签进行训练,FakeScope 通过我们提出的基于标记的概率估计策略,在检测方面展现出显著的零样本量化能力。此外,FakeScope 表现出强大的泛化能力和野外适用性,确保了其在现实场景中的应用价值。 |
2025-03-31 | Predicting Targeted Therapy Resistance in Non-Small Cell Lung Cancer Using Multimodal Machine Learning | null | 肺癌是全球癌症死亡的主要原因,其中非小细胞肺癌 (NSCLC) 是最常见的亚型。在 NSCLC 患者中,约有 32.3% 的患者存在表皮生长因子受体 (EGFR) 基因突变。奥希替尼作为第三代 EGFR-酪氨酸激酶抑制剂 (TKI),对携带激活型和 T790M 耐药 EGFR 突变的 NSCLC 患者展现出显著疗效。尽管奥希替尼疗效确切,但耐药性仍然是患者充分获益于该药物治疗的重大挑战。目前缺乏准确预测 TKI 耐药性(包括奥希替尼耐药性)的标准工具仍然是一个关键障碍。为了弥合这一差距,本研究开发了一种可解释的多模态机器学习模型,用于预测晚期 NSCLC 患者中 EGFR 激活突变患者的奥希替尼耐药性,在多中心数据集上实现了 0.82 的 c 指数。该机器学习模型利用患者就诊和医学评估期间常规收集的 readily available 数据,以促进精准肺癌管理和明智的治疗决策。通过整合各种数据类型,如组织学图像、二代测序 (NGS) 数据、人口统计学数据和临床记录,我们的多模态模型可以生成更全面的建议。我们的实验结果还表明,多模态模型的性能优于单模态模型(c 指数为 0.82,而单模态模型为 0.75 和 0.77),从而强调了在患者预后预测中结合多种模态的优势。 |
2025-03-31 | SVLA: A Unified Speech-Vision-Language Assistant with Multimodal Reasoning and Speech Generation | null | 大型视觉和语言模型在图像描述、视觉问答和检索等任务中表现出色。然而,将语音、文本和视觉信息整合到一个统一的模型中仍然存在挑战,尤其是在涉及语音的任务中。语音生成方法各不相同(有些直接生成语音),有些则通过文本生成语音(但其对质量的影响尚不清楚)。评估通常依赖于自动语音识别,这可能会引入偏差。我们提出了SVLA,一个基于Transformer架构的统一语音视觉语言模型,可以处理多模态输入和输出。我们使用3820万个语音文本图像示例对其进行训练,包括64.1小时的合成语音。我们还引入了一个新的用于评估语音回复的指标:语音视觉问答准确率(Speech VQA Accuracy)。SVLA 通过更好地结合语音、视觉和语言信息,改进了多模态理解和生成能力。 |
2025-03-31 | H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding | null | 随着多模态模型的快速发展,对评估视频理解能力的需求稳步增长。然而,现有的视频理解评估基准在覆盖范围、任务多样性和场景适应性方面存在显著局限性。这些缺点阻碍了对模型综合视频理解能力的准确评估。为了应对这一挑战,我们提出了一个分层且全面的视频理解(H2VU)基准,旨在评估通用视频和在线流媒体视频的理解能力。该基准具有三个主要特点:扩展的视频时长:涵盖从3秒短片到1.5小时完整录像的视频,从而弥合当前基准测试中存在的时长差距。全面的评估任务:除了传统的感知和推理任务外,我们还引入了反常识理解和轨迹状态跟踪模块。这些新增模块测试了模型的深度理解能力,超越了单纯的先验知识。丰富的视频数据:为了跟上当前人工智能Agent的快速发展,我们扩展了第一人称视角的流媒体视频数据集。这种扩展允许探索多模态模型在理解第一人称视角流媒体视频方面的性能。H2VU 的大量结果表明,现有的多模态大型语言模型(MLLM)在我们新提出的评估任务中仍有很大的改进潜力。我们期望 H2VU 通过提供对 MLLM 的全面深入分析,从而促进视频理解研究的进步。 |
2025-03-31 | HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment | null | 图像美学评估(IAA)是一项长期且具有挑战性的研究任务。然而,它的一个子集,即人物图像美学评估(HIAA),却很少被探索,尽管HIAA在社交媒体、人工智能工作流程和相关领域中被广泛应用。为了弥合这一研究差距,我们的工作率先提出了一个专为HIAA定制的整体实施框架。具体来说,我们引入了HumanBeauty,这是第一个专门为HIAA构建的数据集,包含10.8万张高质量的人物图像及其人工标注。为了实现全面且细粒度的人物图像美学评估,我们通过严格的筛选过程手动收集了5万张人物图像,并利用我们开创性的12维美学标准进行标注,其余5.8万张带有整体美学标签的图像则系统地从公共数据集中筛选而来。基于HumanBeauty数据库,我们提出了HumanAesExpert,一个用于人物图像美学评估的强大的视觉语言模型。我们创新性地设计了一个专家头,以结合人类对美学子维度的知识,同时利用语言建模(LM)头和回归头。这种方法使我们的模型在整体和细粒度的HIAA中都能达到卓越的性能。此外,我们引入了MetaVoter,它汇集了所有三个头的分数,以有效平衡每个头的能力,从而实现更高的评估精度。大量实验表明,我们的HumanAesExpert模型在HIAA中的性能明显优于其他最先进的模型。我们的数据集、模型和代码已公开发布,以促进HIAA社区的发展。项目网页:https://humanaesexpert.github.io/HumanAesExpert/ |
2025-03-31 | Texture or Semantics? Vision-Language Models Get Lost in Font Recognition | null | 现代视觉语言模型(VLM)展现出卓越的视觉和语言能力,在图像识别和物体定位等各种任务中取得了令人瞩目的性能。然而,它们在细粒度任务中的有效性仍然是一个悬而未决的问题。在日常生活中,个人在接触设计素材,例如杂志、排版教程、研究论文或品牌内容时,可能希望识别文本中使用的美观字体。鉴于其多模态能力和免费可访问性,许多VLM常被认为是潜在的字体识别工具。这引发了一个根本性问题:VLM是否真的具备识别字体能力?为了探究这个问题,我们引入了字体识别基准(FRB),这是一个紧凑且结构良好的数据集,包含15种常用字体。FRB包含两个版本:(i)简单版本,其中10个句子以不同字体呈现;(ii)困难版本,其中每个文本样本由15种字体的名称本身组成,引入了斯特鲁普效应,挑战模型的感知能力。通过对各种VLM在字体识别任务上的广泛评估,我们得出以下主要发现:(i)当前VLM的字体识别能力有限,许多最先进的模型未能达到令人满意的性能。(ii)小样本学习和思维链(CoT)提示在提高不同VLM字体识别准确率方面的益处微乎其微。(iii)注意力分析揭示了VLM在捕获语义特征方面的固有局限性。 |
2025-03-31 | KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language | link | 大型视觉语言模型(VLMs)的最新出现导致了各种用于评估此类模型的基准测试。尽管如此,我们观察到大多数现有评估方法都存在缺陷:它们要么要求模型从预先确定的答案中进行选择,牺牲了开放性;要么使用判断模型来评估答案,导致主观性和不可靠性。此外,我们观察到缺乏针对韩语VLMs的基准测试,而这些基准测试作为区别于更常见的英语基准测试的单独指标是必要的,因为生成语言模型的性能会因所使用的语言而显著不同。因此,我们提出了KOFFVQA,一个通用的韩语自由形式视觉问答基准测试,用于评估VLMs。我们的基准测试包含275个精心设计的问题,每个问题都与一张图像和涵盖VLM性能10个不同方面的评分标准配对。该评分标准通过允许判断模型根据一组预先确定的规则对每个答案进行评分,从而消除了不可靠性的问题。通过以客观的方式定义评估标准,即使是小型开源模型也可以可靠地用于评估我们基准测试中的模型。除了在我们的基准测试上评估大量现有VLMs之外,我们还通过实验证明,我们使用预先存在的评分标准进行评估的方法比现有方法更可靠。我们的评估代码可在https://github.com/maum-ai/KOFFVQA获取。 |
2025-03-30 | BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation | link | 医学图像分割通常仅依赖于视觉数据,忽略了临床医生用于诊断的丰富文本信息。视觉语言模型试图弥合这一差距,但现有方法通常独立处理视觉和文本特征,导致跨模态对齐较弱。由于空间视觉特征和序列文本嵌入之间存在固有差异,简单的融合技术难以奏效。此外,医学术语不同于通用语言,限制了现成文本编码器的有效性,进一步阻碍了视觉语言对齐。我们提出了BiPVL-Seg,一个端到端的框架,它通过架构和训练创新集成了视觉语言融合和嵌入对齐,其中两个组件相互 reinforcing,以增强医学图像分割。BiPVL-Seg在架构中引入了双向渐进式融合,这促进了视觉和文本编码器之间的阶段性信息交换。此外,它还结合了全局-局部对比对齐,这是一个训练目标,通过在类别和概念层面上对齐文本和视觉嵌入来增强文本编码器的理解能力。在CT和MR模式下的各种医学影像基准上的大量实验表明,BiPVL-Seg在复杂的多类别分割中比最先进的方法具有更优越的性能。源代码可在GitHub代码库中获取。 |
2025-03-30 | Re-Aligning Language to Visual Objects with an Agentic Workflow | null | 基于语言的目标检测 (LOD) 旨在将视觉对象与语言表达对齐。大量的配对数据被用于提高 LOD 模型的泛化能力。在训练过程中,最近的研究利用视觉语言模型 (VLM) 自动生成类似人类对视觉对象的表达,从而促进训练数据的扩展。在这个过程中,我们观察到 VLM 的幻觉会带来不准确的对象描述(例如,对象名称、颜色和形状),从而降低视觉语言对齐的质量。为了减少 VLM 的幻觉,我们提出了一种由大型语言模型 (LLM) 控制的代理工作流程,通过自适应地调整图像和文本提示来将语言重新与视觉对象对齐。我们将此工作流程命名为 Real-LOD,它包括规划、工具使用和反思步骤。给定一张包含检测到的对象和 VLM 原始语言表达的图像,Real-LOD 会根据我们的神经符号设计自动推断其状态并安排行动(即规划)。该行动将自适应地调整图像和文本提示,并将它们发送到 VLM 以重新描述对象(即工具使用)。然后,我们使用另一个 LLM 来分析这些改进后的表达以获得反馈(即反思)。这些步骤以循环形式进行,逐步改进语言描述,使其重新与视觉对象对齐。我们构建了一个包含少量 0.18M 图像和重新对齐的语言表达的数据集,并训练了一个流行的 LOD 模型,在标准基准测试中,其性能比现有的 LOD 方法高出约 50%。我们的 Real-LOD 工作流程具有自动视觉语言细化功能,揭示了在扩大数据量的同时保持数据质量的潜力,这从数据对齐的角度进一步提高了 LOD 性能。 |
2025-03-30 | Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models | null | 我们提出了一个用于优化视觉语言模型中的提示的框架,以在无需重新训练模型的情况下引出多模态推理。我们使用进化算法来指导视觉任务下游的提示更新,我们的方法改进了缺乏进化式“适者生存”迭代的基线提示更新算法。至关重要的是,我们发现这种方法使语言模型能够在几代进化过程中独立发现渐进式问题解决技术。例如,该模型推断,为了“分解”视觉上复杂的空间任务,调用Python解释器来执行任务(例如裁剪、图像分割或饱和度更改)将显着提高性能。我们的实验表明,通过系统级XML |
2025-03-28 | VisTa: Visual-contextual and Text-augmented Zero-shot Object-level OOD Detection | null | 随着对象检测器越来越多地作为黑盒云服务或预训练模型部署,并且访问原始训练数据受到限制,零样本对象级分布外 (OOD) 检测的挑战随之出现。这项任务对于确保检测器在开放世界环境中的可靠性至关重要。虽然现有方法已经证明了使用像 CLIP 这样的预训练视觉语言模型在图像级 OOD 检测中取得了成功,但将此类模型直接应用于对象级 OOD 检测会面临挑战,原因在于上下文信息的丢失以及对图像级对齐的依赖。为了应对这些挑战,我们引入了一种新方法,该方法利用视觉提示和文本增强的分布内 (ID) 空间构建来使 CLIP 适应零样本对象级 OOD 检测。我们的方法保留了关键的上下文信息,并提高了区分 ID 和 OOD 对象的能力,在不同的基准测试中实现了具有竞争力的性能。 |
2025-03-28 | FLIP: Towards Comprehensive and Reliable Evaluation of Federated Prompt Learning | link | 对隐私和数据安全的日益重视推动了联邦学习的采用,这是一种无需共享原始数据即可训练机器学习模型的去中心化方法。提示学习通过微调预训练模型的提示嵌入,在联邦学习环境中具有显著优势,它可以降低计算成本和通信开销,同时利用CLIP等视觉语言模型强大的性能和泛化能力。本文探讨了联邦学习和提示学习的交叉点,特别是对于视觉语言模型。在这项工作中,我们引入了一个名为FLIP的综合框架来评估联邦提示学习算法。FLIP在4种联邦学习协议和12个开放数据集上评估了8种最先进的联邦提示学习方法的性能,考虑了6种不同的评估场景。我们的研究结果表明,提示学习在数据分布内和分布外场景中都能保持强大的泛化性能,并且资源消耗最小。这项工作突出了联邦提示学习在数据稀缺、未见类别和跨域分布偏移等环境中的有效性。我们将FLIP中所有已实现算法的代码开源,以促进该领域的进一步研究。 |
2025-03-28 | REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation | null | 视觉语言模型 (VLM) 在机器人规划中展现出卓越的能力,尤其是在需要对环境进行整体理解才能进行任务分解的长程任务中。现有方法通常依赖于先验环境知识或精心设计的特定任务提示,这使得它们难以应对动态场景变化或意外任务情况,例如,机器人试图将胡萝卜放入微波炉,但发现微波炉门是关闭的。这些挑战凸显了两个关键问题:适应性和效率。为了解决这些问题,我们在这项工作中提出了一个自适应多智能体规划框架,称为 REMAC,它能够通过持续反思和自我进化实现高效、场景无关的多机器人长程任务规划和执行。REMAC 包含两个关键模块:一个在循环中执行前置条件和后置条件检查的自我反思模块,用于评估进度和改进计划;以及一个根据场景特定推理动态调整计划的自我进化模块。它具有几个吸引人的优势:1)机器人可以初步探索和推理环境,而无需复杂的提示设计。2)机器人可以不断反思潜在的规划错误,并根据特定任务的见解调整计划。3)经过多次迭代后,一个机器人可以调用另一个机器人并行协调任务,从而最大限度地提高任务执行效率。为了验证 REMAC 的有效性,我们基于 RoboCasa 构建了一个用于长程机器人操作和导航的多智能体环境,该环境具有 4 个任务类别,27 种任务样式和 50 多种不同的对象。在此基础上,我们进一步对最先进的推理模型(包括 DeepSeek-R1、o3-mini、QwQ 和 Grok3)进行了基准测试,结果表明 REMAC 的优越性,它将平均成功率提高了 40%,并将执行效率比单机器人基线提高了 52.7%。 |
2025-03-28 | How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark | null | 视觉语言模型(VLMs)在视觉问答(VQA)任务中展现出强大的推理能力;然而,它们在执行心智理论(ToM)任务(例如准确推断人类意图、信念和其他心理状态)方面的能力仍未得到充分探索。在这项工作中,我们提出了一个开放式问题框架,以全面评估VLMs在不同类别ToM任务中的性能。我们策划和注释了一个由30张图像组成的基准数据集。然后,我们评估了四种不同规模的VLMs在这个数据集上的性能。我们的实验结果表明,GPT-4模型的性能优于所有其他模型,只有一个较小的模型GPT-4o-mini实现了可比的性能。此外,我们观察到,VLMs在复杂场景(例如欺凌或作弊)中往往难以准确推断意图。此外,我们的研究结果还表明,较小的模型有时可以推断出正确的意图,即使它们依赖于不正确的视觉线索。 |
2025-03-28 | A Survey on Remote Sensing Foundation Models: From Vision to Multimodality | link | 遥感基础模型,特别是视觉和多模态模型的快速发展,显著增强了智能地理空间数据解译的能力。这些模型结合了各种数据模态,例如光学、雷达和激光雷达图像,以及文本和地理信息,从而能够更全面地分析和理解遥感数据。多模态的集成提高了目标检测、土地覆盖分类和变化检测等任务的性能,而这些任务通常会受到遥感数据复杂性和异构性的挑战。然而,尽管取得了这些进步,仍然存在一些挑战。数据类型的多样性、对大规模标注数据集的需求以及多模态融合技术的复杂性,对这些模型的有效部署构成了重大障碍。此外,训练和微调多模态模型的计算需求需要大量资源,这进一步使其在遥感图像解译任务中的实际应用复杂化。本文全面综述了用于遥感的视觉和多模态基础模型的最新进展,重点关注其架构、训练方法、数据集和应用场景。我们讨论了这些模型面临的关键挑战,例如数据对齐、跨模态迁移学习和可扩展性,同时也指出了旨在克服这些限制的新兴研究方向。我们的目标是提供对当前遥感基础模型领域的清晰理解,并启发未来的研究,从而突破这些模型在实际应用中所能达到的极限。本文收集的资源列表可以在https://github.com/IRIP-BUAA/A-Review-for-remote-sensing-vision-language-models 中找到。 |
2025-03-27 | CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models | null | 视觉-语言-动作模型 (VLA) 已展现出利用预训练视觉-语言模型和多样化的机器人演示来学习泛化感知运动控制的潜力。虽然这种范式有效地利用了来自机器人和非机器人来源的大规模数据,但目前的 VLA 主要关注直接的输入-输出映射,缺乏复杂操作任务中至关重要的中间推理步骤。因此,现有的 VLA 缺乏时间规划或推理能力。在本文中,我们介绍了一种将显式视觉思维链 (CoT) 推理融入视觉-语言-动作模型 (VLA) 的方法,该方法通过自回归预测未来图像帧作为视觉目标,然后生成短动作序列来实现这些目标。我们介绍了 CoT-VLA,一个最先进的 7B VLA,它可以理解和生成视觉和动作标记。我们的实验结果表明,CoT-VLA 实现了强大的性能,在真实世界操作任务中比最先进的 VLA 模型的性能高出 17%,在模拟基准测试中高出 6%。项目网站:https://cot-vla.github.io/ |
2025-03-27 | On Large Multimodal Models as Open-World Image Classifiers | link | 传统的图像分类需要预定义的语义类别列表。相比之下,大型多模态模型 (LMM) 可以绕过这一要求,直接使用自然语言对图像进行分类(例如,回答“图像中的主要对象是什么?”)。尽管具有这种非凡的能力,但大多数现有的关于 LMM 分类性能的研究在范围上却令人惊讶地有限,通常假设一个具有预定义类别集合的封闭世界设置。在这项工作中,我们通过在真正的开放世界环境中彻底评估 LMM 分类性能来弥补这一差距。我们首先将任务形式化,并引入了一个评估协议,定义了各种指标来评估预测类别和真实类别之间的一致性。然后,我们评估了跨越 10 个基准的 13 个模型,涵盖了原型、非原型、细粒度和超细粒度类别,展示了 LMM 在这项任务中面临的挑战。基于所提出的指标的进一步分析揭示了 LMM 产生的错误类型,突出了与粒度和细粒度能力相关的挑战,并展示了定制提示和推理如何缓解这些挑战。 |
2025-03-27 | MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX | null | 前沿模型要么仅限于语言,要么主要关注视觉和语言模态。尽管最近在具有视觉和音频理解能力的模型方面取得了显著进展,但该领域缺乏一个标准化的评估框架来彻底评估它们的跨模态感知性能。我们引入了MAVERIX(多模态视听评估推理指数),这是一个包含700个视频和2556个问题的新基准,专门设计用于通过需要紧密集成视频和音频信息的的任务来评估多模态模型。MAVERIX独特地为模型提供了视听任务,密切模仿了人类在推理和决策过程中可用的多模态感知体验。据我们所知,MAVERIX是第一个明确旨在评估全面视听集成的基准测试。对包括Gemini 1.5 Pro和o1在内的最先进模型进行的实验表明,其性能接近人类水平(约70%的准确率),而人类专家则接近上限性能(95.1%)。凭借标准化的评估协议、严格注释的流程和公共工具包,MAVERIX为推进视听多模态智能建立了一个具有挑战性的测试平台。 |
2025-03-27 | FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation | null | 行人重识别(ReID)在安全监控和犯罪调查等应用中扮演着至关重要的角色,它通过匹配来自不同摄像头拍摄的大型图像库来识别个体。传统的ReID方法依赖于单模态输入,通常是图像,但由于遮挡、光照变化和姿势变化等挑战,其性能受到限制。虽然基于图像和基于文本的ReID系统都取得了进展,但两种模态的融合仍未得到充分探索。本文提出了FusionSegReID,一个结合图像和文本输入的多模态模型,以提高ReID性能。通过利用这些模态的互补优势,我们的模型提高了匹配精度和鲁棒性,尤其是在复杂的现实场景中,单一模态可能难以应对。我们的实验表明,在ReID的Top-1准确率和平均精度均值(mAP)方面都有显著提高,并且在遮挡和低质量图像等挑战性场景下获得了更好的分割结果。消融研究进一步证实,多模态融合和分割模块有助于提高重识别和掩码精度。结果表明,FusionSegReID优于传统的单模态模型,为现实世界的行人重识别任务提供了更鲁棒和更灵活的解决方案。 |
2025-03-27 | Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models | null | 图神经网络 (GNNs) 作为图结构学习的主导范式,长期以来面临着计算复杂度呈指数级增长和跨场景泛化能力不足的双重挑战。随着多模态学习的快速发展,视觉语言模型 (VLMs) 表现出卓越的跨模态关系推理能力和泛化能力,从而为克服传统图学习范式的固有局限性开辟了新的途径。然而,目前的研究主要集中在探索 VLM 的单图推理能力,这根本无法满足现实应用场景中对多个异构图数据进行协调推理的关键需求。为了解决这些局限性,我们提出了第一个用于 VLM 的多图联合推理基准。我们的基准涵盖四种图类别:知识图谱、流程图、思维导图和路线图,每个图组都伴随三个逐步提升难度的指令-响应对。利用该基准,我们对最先进的 VLM 进行了全面的能力评估,并在开源模型上进行了微调。这项研究不仅解决了 VLM 多图推理中未被充分探索的评估差距,而且凭经验证实了它们在图结构学习中的泛化优势。 |
2025-03-27 | UGen: Unified Autoregressive Multimodal Model with Progressive Vocabulary Learning | null | 我们推出了UGen,一个统一的自回归多模态模型,它在文本处理、图像理解和图像生成任务上同时展现出强大的性能。UGen将文本和图像转换为离散的标记序列,并利用单个Transformer以自回归的方式统一地生成它们。为了应对统一多模态学习带来的挑战,UGen采用了一种新的机制进行训练,即渐进 8000 词汇学习。在这个过程中,视觉标记ID被逐步激活并整合到训练阶段,最终提高了统一多模态学习的有效性。在全面的文本和图像任务上的实验表明,与普通的统一自回归方法相比,UGen实现了13.3%的显著总体性能提升,并且在所有任务中与多个特定任务模型相比也取得了具有竞争力的结果。 |
2025-03-27 | AdaMHF: Adaptive Multimodal Hierarchical Fusion for Survival Prediction | link | 随着多模态学习的进步,整合病理图像和基因组数据进行生存分析越来越受到关注。然而,目前的方法往往忽略了模态内部和模态之间的生物学特征,例如异质性和稀疏性,最终限制了它们在临床实践中的适应性。为了应对这些挑战,我们提出了 AdaMHF:自适应多模态层次融合,这是一个为高效、全面和定制的特征提取和融合而设计的框架。AdaMHF 专门针对医学数据的独特性进行了调整,即使在模态缺失等挑战性场景下,也能以最少的资源消耗实现准确的预测。首先,AdaMHF 采用专家扩展和残差结构来激活专门的专家以提取异质和稀疏的特征。提取的特征通过选择和聚合进行细化,在保留全面信息的同时减少非主要特征的权重。随后,对编码后的特征进行层次化融合,从而捕获跨模态的多粒度交互。此外,我们引入了一个生存预测基准,旨在解决模态缺失的场景,以反映真实的临床情况。在 TCGA 数据集上的大量实验表明,AdaMHF 超越了当前最先进 (SOTA) 的方法,在完整和不完整模态设置下均展现出卓越的性能。 |
2025-03-27 | Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning | null | 视觉推理能力对于理解复杂的多模态数据至关重要,它推动了特定领域应用和通用人工智能 (AGI) 的发展。现有方法通过思维链 (CoT) 监督微调来改进视觉语言模型 (VLM) 的推理能力,使用精心标注的训练数据来增强视觉推理能力。然而,这种训练范式可能导致过拟合和认知僵化,限制了模型跨领域迁移视觉推理技能的能力,并限制了其在现实世界的应用。为了解决这些限制,我们提出了 Reason-RFT,一个新的强化微调框架,可显著增强视觉推理任务的泛化能力。Reason-RFT 为视觉推理引入了一个两阶段训练框架:(1) 使用精心策划的思维链 (CoT) 数据进行监督微调 (SFT),激活视觉语言模型 (VLMs) 的推理潜力;(2) 基于组相对策略优化 (GRPO) 的强化学习,生成多个推理-响应对,显著增强视觉推理任务的泛化能力。为了评估 Reason-RFT 的视觉推理能力,我们重建了一个涵盖视觉计数、结构感知和空间变换的综合数据集。实验结果证明了 Reasoning-RFT 的三个主要优势:(1) 性能提升:在多项任务中取得了最先进的结果,优于大多数主流的开源和专有模型;(2) 泛化优势:在不同的任务和领域中始终保持稳健的性能,优于其他训练范式;(3) 数据效率:在少样本学习场景中表现出色,超越了全数据集 SFT 基线。项目网站:https://tanhuajie.github.io/ReasonRFT |
2025-03-26 | IAP: Improving Continual Learning of Vision-Language Models via Instance-Aware Prompting | link | 近期的预训练视觉语言模型(PT-VLM)在实践中经常面临多领域类别增量学习(MCIL)场景,其中多模态任务的多个类别和领域是增量到达的。在无法访问先前学习的任务和未见任务的情况下,内存受限的MCIL会遭受前向和后向遗忘的困扰。为了缓解上述挑战,参数高效的微调技术(PEFT),例如prompt tuning,被用于使PT-VLM适应不同的增量学习任务。为了实现有效的新任务适应,现有方法只考虑了PEFT策略选择的影响,而忽略了PEFT参数设置(例如,prompting)的影响。在本文中,我们解决了在MCIL中为不同任务优化prompt设计的挑战,并提出了一个实例感知Prompting(IAP)框架。具体来说,我们的实例感知门控Prompting(IA-GP)模块通过在实例级别动态分配跨transformer层的prompt来增强对新任务的适应性,同时减轻遗忘。我们的实例感知类别分布驱动Prompting(IA-CDDP)通过为每个实例确定准确的任务标签相关置信度得分来改进任务适应过程。使用三个性能指标,跨11个数据集的实验评估证明了我们提出的方法的有效性。代码可在https://github.com/FerdinandZJU/IAP找到。 |
2025-03-26 | Self-ReS: Self-Reflection in Large Vision-Language Models for Long Video Understanding | null | 大型视觉语言模型 (LVLMs) 在短视频任务(如视频问答)中表现出色,但在长视频理解方面却存在不足。LVLMs 通常使用的线性帧采样策略未能考虑到视频数据中关键事件的非线性分布,这通常会在较长的上下文中引入冗余或无关信息,同时在较短的上下文中存在遗漏关键事件的风险。为了解决这个问题,我们提出了 SelfReS,一种非线性时空自反射采样方法,它可以根据用户提示动态选择关键视频片段。与先前的方法不同,SelfReS 利用 LVLMs 固有的稀疏注意力图来定义反射标记,从而实现与相关性相关的标记选择,而无需额外的训练或外部模块。实验表明,SelfReS 可以无缝集成到强大的基准 LVLMs 中,提高长视频任务的准确性,并在相同的 GPU 内存预算下实现高达 46% 的推理速度提升。 |
2025-03-26 | sudo rm -rf agentic_security | link | 大型语言模型 (LLM) 正越来越多地被部署为计算机使用代理,在真实的桌面或网络环境中自主执行任务。虽然这种演变极大地扩展了人类的实际用例,但也带来了严重的安全隐患。我们提出了 SUDO(基于屏幕的通用 Detox2Tox 攻击),这是一个新颖的攻击框架,可以系统地绕过商用计算机使用代理(例如 Claude Computer Use)中经过拒绝训练的安全防护措施。其核心机制 Detox2Tox 通过解毒将有害请求(代理最初拒绝的请求)转换为看似良性的请求,从高级视觉语言模型 (VLM) 中获取详细指令,然后在执行前通过毒化重新引入恶意内容。与传统的越狱不同,SUDO 基于内置的拒绝反馈迭代地改进其攻击,使其对强大的策略过滤器越来越有效。在涵盖 50 个现实世界任务和多个最先进 VLM 的广泛测试中,SUDO 在 Claude Computer Use 中实现了 24% 的显著攻击成功率(无需改进),以及高达 41% 的攻击成功率(通过其迭代改进)。通过揭示这些漏洞并演示在现实世界计算环境中利用这些漏洞的容易程度,本文强调了对强大的、上下文感知的安全防护措施的迫切需求。警告:本文包含有害或冒犯性的模型输出。 |
2025-03-26 | Qwen2.5-Omni Technical Report | null | 在本报告中,我们提出了Qwen2.5-Omni,这是一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理,音频和视觉编码器都采用了分块处理方法。为了将视频输入的时间戳与音频同步,我们以交错的方式依次组织音频和视频,并提出了一种名为TMRoPE(时间对齐多模态旋转位置编码)的新型位置嵌入方法。为了同时生成文本和语音并避免两种模态之间的干扰,我们提出了Thinker-Talker架构。在此框架中,Thinker充当大型语言模型,负责文本生成,而Talker是一个双轨自回归模型,直接利用Thinker的隐藏表示来生成音频标记作为输出。Thinker和Talker模型都被设计成以端到端的方式进行训练和推理。为了以流式方式解码音频标记,我们引入了滑动窗口DiT,它限制了感受野,旨在减少初始数据包延迟。Qwen2.5-Omni与类似规模的Qwen2.5-VL性能相当,并优于Qwen2-Audio。此外,Qwen2.5-Omni在Omni-Bench等多模态基准测试中取得了最先进的性能。值得注意的是,Qwen2.5-Omni在端到端语音指令遵循方面的性能与其文本输入能力相当,这可以通过MMLU和GSM8K等基准测试来证明。至于语音生成,Qwen2.5-Omni的流式Talker在鲁棒性和自然度方面优于大多数现有的流式和非流式替代方案。 |
2025-03-25 | CoLLM: A Large Language Model for Composed Image Retrieval | link | 组合图像检索 (CIR) 是一项复杂的任务,旨在根据多模态查询检索图像。典型的训练数据由包含参考图像、所需修改的文本描述和目标图像的三元组组成,获取这些数据既昂贵又耗时。CIR 数据集的稀缺性导致了利用合成三元组或利用视觉语言模型 (VLM) 和普遍存在的网络爬取图像-标题对的零样本方法。然而,这些方法存在明显的局限性:合成三元组的规模有限,缺乏多样性,并且修改文本不自然,而图像-标题对由于缺乏三元组数据而阻碍了多模态查询的联合嵌入学习。此外,现有方法难以处理复杂且细致的修改文本,这些文本需要复杂的融合和对视觉和语言模态的理解。我们提出了 CoLLM,这是一个一站式框架,可以有效地解决这些限制。我们的方法从图像-标题对中动态生成三元组,从而无需手动注释即可进行监督训练。我们利用大型语言模型 (LLM) 生成参考图像和修改文本的联合嵌入,促进更深层次的多模态融合。此外,我们引入了包含 340 万个样本的大规模数据集多文本 CIR (MTCIR),并改进了现有的 CIR 基准测试(CIRR 和 Fashion-IQ),以增强评估的可靠性。实验结果表明,CoLLM 在多个 CIR 基准测试和设置中实现了最先进的性能。MTCIR 取得了有竞争力的结果,性能提升高达 15%。我们改进的基准测试为 CIR 模型提供了更可靠的评估指标,有助于推动这一重要领域的发展。 |
2025-03-25 | FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs | null | 即使对于最先进的视觉语言模型 (VLM),在长达一小时的视频中检索信息也提出了重大挑战,尤其是当所需信息位于一小部分帧内时。由于上下文窗口的限制以及难以精确定位包含答案的帧,长视频数据给 VLM 带来了挑战。我们新颖的视频代理 FALCONEye 结合了 VLM 和大型语言模型 (LLM) 来搜索视频中的相关信息,并定位包含答案的帧。FALCONEye 的创新之处在于:1) 提出的元架构比现有技术中的短视频方法更适合处理长达一小时的视频;2) 一种新的高效探索算法,使用短片、字幕和答案置信度来定位信息;3) 我们对答案置信度进行的最先进的 VLM 校准分析。我们的代理构建于小型 VLM 和中型 LLM 之上,可以使用标准计算资源运行。我们还发布了 FALCON-Bench,这是一个用于评估长(平均 > 1 小时)视频答案搜索挑战的基准测试,强调了对开放式问题评估的需求。我们的实验表明,FALCONEye 在 FALCON-Bench 中的性能优于现有技术,并且在相关基准测试中表现出相似或更好的性能。 |
2025-03-25 | ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation | null | 端到端 (E2E) 自动驾驶方法由于因果推理能力有限,在交互式闭环评估中仍然难以做出正确的决策。当前的方法试图利用视觉语言模型 (VLM) 强大的理解和推理能力来解决这一难题。然而,由于语义推理空间和动作空间中纯数值轨迹输出之间的差距,很少有用于 E2E 方法的 VLM 在闭环评估中表现良好,这个问题仍然存在。为了解决这个问题,我们提出了 ORION,一个通过视觉语言指令动作生成的整体式 E2E 自动驾驶框架。ORION 独特地结合了 QT-Former 来聚合长期历史上下文,一个大型语言模型 (LLM) 用于驾驶场景推理,以及一个生成式规划器用于精确轨迹预测。ORION 进一步对齐推理空间和动作空间,以实现视觉问答 (VQA) 和规划任务的统一 E2E 优化。我们的方法在具有挑战性的 Bench2Drive 数据集上实现了令人印象深刻的闭环性能,驾驶得分 (DS) 为 77.74,成功率 (SR) 为 54.62%,这比最先进 (SOTA) 方法分别高出 14.28 DS 和 19.61% SR。 |
2025-03-25 | Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models | link | 视觉语言模型 (VLM) 近年来已成为强大的工具,在图像描述、视觉问答和图文检索等需要整合视觉和文本理解的任务中表现出色。然而,现有的 VLM 基准测试包含空间成分,通常无法将空间推理与其他相关任务(如物体检测或语义理解)区分开来。在本文中,我们采用多方面的方法来理解空间推理,以此来解决这些缺陷。基于人类空间推理能力的多样性和多维性,我们首先对空间推理的核心要素进行了详细分析:空间关系、方向和导航、心理旋转和空间可视化,然后评估了这些模型在合成图像和真实图像中的性能, bridging controlled and naturalistic contexts。我们分析了 13 个最先进的视觉语言模型,揭示了它们在空间推理性能方面的关键见解。我们的结果揭示了当前 VLM 的严重缺陷,13 个模型的平均准确率接近随机概率,这突出了空间推理仍然是一个持续存在的障碍。这项工作不仅揭示了提升 VLM 空间推理能力的迫切需求,也为未来的探索奠定了坚实的基础。代码可在 GitHub (https://github.com/stogiannidis/srbench) 上获取,数据集可在 HuggingFace (https://huggingface.co/datasets/stogiannidis/srbench) 上获取。 |
2025-03-25 | RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models | null | 我们推出了RGB-Th-Bench,这是第一个旨在评估视觉语言模型(VLM)理解RGB-热图像对能力的基准测试。尽管VLM在视觉推理和多模态理解方面取得了显著进展,但它们的评估主要局限于基于RGB的基准测试,这在评估其红外视觉任务能力方面留下了关键空白。现有的可见光-红外数据集要么特定于任务,要么缺乏对模型进行严格评估所需的高质量注释。为了解决这些限制,RGB-Th-Bench提供了一个全面的评估框架,涵盖14个不同的技能维度,共有1600多个专家注释的是/否问题。该基准测试采用两个准确性指标:标准的问题级准确性和更严格的技能级准确性,后者评估模型在每个技能维度内多个问题上的稳健性。这种设计确保了对模型性能的全面评估,包括对对抗性和虚构响应的抵抗力。我们对19个最先进的VLM进行了广泛的评估,揭示了RGB-热图像理解方面的显著性能差距。我们的结果表明,即使是最强大的模型在热图像理解方面也存在困难,其性能受到基于RGB能力的严重限制。此外,预训练中缺乏大规模特定应用和专家注释的热图像-描述对数据集是造成观察到的性能差距的一个重要原因。RGB-Th-Bench强调了多模态学习方面进一步发展的迫切需求,以弥合可见光和热图像理解之间的差距。数据集可通过此链接获取,评估代码也将公开提供。 |
2025-03-25 | Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation | null | 大型视觉语言模型 (VLM) 正越来越多地被视为基础模型,可以通过提示来指示它们解决各种任务,而无需特定于任务的训练。我们研究了一个看似显而易见的问题:如何有效地提示 VLM 进行语义分割。为此,我们在分布外 MESS 数据集集合上系统地评估了几个最近模型的分割性能,这些模型由文本或视觉提示引导。我们引入了一种可扩展的提示方案,即少样本提示语义分割,其灵感来自开放词汇分割和少样本学习。结果表明,VLM 的性能远远落后于为特定分割任务训练的专业模型,在交并比指标上平均落后约 30%。此外,我们发现文本提示和视觉提示是互补的:两种模式中的每一种都会在许多示例上失败,而另一种模式可以解决这些示例。我们的分析表明,能够预测最有效的提示模式可以使性能提高 11%。基于我们的发现,我们提出了 PromptMatcher,这是一个非常简单的免训练基线,它结合了文本和视觉提示,在少样本提示语义分割上实现了最先进的结果,比最佳文本提示 VLM 高 2.5%,比顶级视觉提示 VLM 高 3.5%。 |
2025-03-25 | RoboFlamingo-Plus: Fusion of Depth and RGB Perception with Vision-Language Models for Enhanced Robotic Manipulation | null | 随着机器人技术向更复杂的多模态交互和操作任务发展,先进视觉语言模型(VLM)的集成已成为该领域的关键驱动力。尽管当前方法取得了进展,但在3D环境中融合深度和RGB信息以及执行由语言指令引导的任务方面仍然存在挑战。为了应对这些挑战,我们通过引入RoboFlamingo-Plus增强了现有的RoboFlamingo框架,它将深度数据融入VLM中,从而显著提高机器人操作性能。我们的研究通过将预训练的视觉Transformer(ViT)与重采样技术相结合,实现了RGB和深度信息的细致融合,将这些组合数据与语言线索紧密对齐,以实现卓越的多模态理解。RoboFlamingo-Plus的创新之处在于它对深度数据处理的输入进行了调整,利用预训练的重采样器进行深度特征提取,并采用交叉注意力机制进行最佳特征融合。这些改进使RoboFlamingo-Plus不仅可以深入理解3D环境,还可以轻松地在挑战性环境中执行复杂的、语言引导的任务。实验结果表明,RoboFlamingo-Plus将机器人操作性能比现有方法提高了10-20%,标志着取得了重大进展。代码和模型权重已在RoboFlamingo-Plus公开发布。 |
2025-03-25 | LangBridge: Interpreting Image as a Combination of Language Embeddings | null | 近年来,大型视觉语言模型 (LVLMs) 取得了显著进展,在各种复杂的视觉语言任务中达到了人类水平的性能。遵循 LLaVA 的范式,主流 LVLMs 通常采用浅层 MLP 通过两阶段训练过程进行视觉语言对齐:跨模态对齐预训练和指令微调。虽然这种方法已被证明有效,但 MLP 如何弥合模态差距的潜在机制仍然知之甚少。尽管一些研究探索了 LLMs 如何处理转换后的视觉标记,但很少有研究调查基本的对齐机制。此外,每当切换 LLM 主干时,MLP 适配器都需要重新训练。为了解决这些限制,我们首先研究了 MLP 适配器的工作原理,并发现它们学习将视觉嵌入逐渐投影到相应文本嵌入所跨越的子空间中。基于这一见解,我们提出了 LangBridge,一种将视觉标记显式映射到 LLM 词汇嵌入线性组合的新型适配器。这种创新设计支持跨不同 LLM 的免预训练适配器迁移,同时保持性能。我们的实验结果表明,在 Qwen2-0.5B 上预训练的 LangBridge 适配器可以直接应用于更大的模型,例如 LLaMA3-8B 或 Qwen2.5-14B,同时保持竞争力。总体而言,LangBridge 通过将视觉表示基于 LLM 词汇嵌入来实现可解释的视觉语言对齐,而其即插即用的设计确保了跨多个 LLM 的高效复用,几乎没有性能下降。请访问我们的项目页面 https://LangBridge.github.io/ |
2025-03-25 | ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models | null | 时空推理对于理解自动驾驶和体育分析等各个领域的现实世界环境至关重要。近期的进展通过引入大规模数据提高了视觉语言模型 (VLM) 的空间推理能力,但这些模型仍然难以分析运动物体的运动学元素,例如行进距离和速度。为了弥合这一差距,我们构建了一个包含运动学指令调整的时空推理数据集和基准测试,分别称为 STKit 和 STKit-Bench。它们由带有 3D 标注的真实世界视频组成,详细描述了物体的运动动态:行进距离、速度、运动方向、物体间距离比较和相对运动方向。为了进一步将此类数据构建扩展到没有 3D 标签的视频,我们提出了一个自动流程,使用真实世界尺度的 4D 重建生成伪标签。利用我们用于时空推理的运动学指令调整数据,我们提出了 ST-VLM,这是一种增强了时空推理能力的 VLM,它在 STKit-Bench 上表现出优异的性能。此外,我们展示了 ST-VLM 可以稳健地泛化到不同的领域和任务,在其他时空基准测试(例如 ActivityNet、TVQA+)上优于基线模型。最后,通过将学习到的时空推理与现有能力相结合,ST-VLM 能够进行复杂的多步推理。项目页面:https://ikodoh.github.io/ST-VLM. |
2025-03-25 | LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text | link | 本研究解决了遥感视觉语言基础模型(VLFM)在处理长文本时遇到的技术瓶颈以及短文本信息不足导致的“幻觉”问题。我们提出了一个新的视觉语言基础模型LRSCLIP和一个多模态数据集LRS2M。主要贡献如下:(1)通过整合多源遥感数据并采用大型语言模型标注策略,我们构建了包含200万图像-文本对的LRS2M数据集,首次同时提供短文本和长文本,解决了现有数据集语义粒度限制的问题;(2)基于Long-CLIP的KPS模块设计了LRSCLIP架构,扩展了CLIP的文本处理能力,并通过双文本损失加权机制实现了细粒度的跨模态特征对齐。实验结果表明,在零样本长文本跨模态检索任务中,LRSCLIP的检索精度比Long-CLIP基线提高了10%-20%。对于零样本短文本跨模态检索任务,LRSCLIP在RSITMD数据集上的Text to Image R@1、Image to Text R@1和mR分别比当前最佳模型GeoRSCLIP提高了0.17%、0.67%和0.92%,在RSICD数据集上分别提高了0.04%、2.93%和1.28%。在零样本图像分类任务(平均准确率=75.75%)和语义定位任务(Rmi=0.7653)中,LRSCLIP实现了最先进的性能。这些结果验证了LRSCLIP在细粒度语义理解和全局特征匹配方面的双重优势。这项工作为遥感多模态学习提供了新的基准模型和数据支持。相关代码已开源,可在https://github.com/MitsuiChen14/LRSCLIP获取。 |
2025-03-21 | OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement | link | DeepSeek-R1 近期的进展表明,大型语言模型 (LLM) 的复杂推理能力,包括自我验证和自我纠正等复杂行为,可以通过带有可验证奖励的强化学习 (RL) 来实现,并显著提高模型在 AIME 等挑战性任务上的性能。基于这些发现,我们的研究调查了类似的推理能力是否可以成功地整合到大型视觉语言模型 (LVLM) 中,并评估它们对挑战性多模态推理任务的影响。我们考虑了一种方法,它迭代地利用轻量级训练数据的监督微调 (SFT) 和强化学习 (RL) 来进一步提高模型泛化能力。首先,通过使用来自不同视觉数据集的高质量图像描述生成推理步骤,从纯文本 R1 模型中提取推理能力。随后,迭代式 RL 训练进一步增强了推理能力,每次迭代的 RL 改进模型都会为下一轮生成改进的 SFT 数据集。这个迭代过程产生了 OpenVLThinker,这是一个在 MathVista、MathVerse 和 MathVision 等挑战性基准测试中持续提高推理性能的 LVLM,证明了我们的策略在鲁棒视觉语言推理方面的潜力。代码、模型和数据位于 https://github.com/yihedeng9/OpenVLThinker。 |
2025-03-21 | Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models | null | 视觉语言模型 (VLM) 擅长识别和描述物体,但在空间推理方面,例如准确理解物体的相对位置方面存在不足。受人类视觉双通路(腹侧-背侧)模型的启发,我们研究了为什么VLM尽管具有强大的物体识别能力,却在空间任务中表现不佳。我们基于可解释性的分析揭示了一个关键的潜在原因:VLM 中的视觉嵌入主要被视为语义上的“词袋”,由于其过大的嵌入范数,掩盖了细微但关键的位置线索。我们通过大量的诊断实验验证了这一见解,证明移除词序或细粒度空间细节对性能的影响极小。在这些发现的指导下,我们提出了简单且可解释的干预措施,包括规范化视觉嵌入范数和提取中间层空间丰富的特征,以恢复空间感知能力。在我们合成的 datasets 和标准基准测试上的实证结果表明空间推理能力得到了改善,突出了可解释性指导的设计选择的价值。我们的研究不仅揭示了当前VLM架构的基本局限性,还为增强对视觉场景的结构化感知提供了可操作的见解。 |
2025-03-21 | Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology | link | 本文探讨了如何利用基础视觉语言模型(VLMs)和幻灯片级提示学习来解决组织病理学全视野切片图像(WSIs)中的少样本分类难题。鉴于WSIs的千兆像素规模,传统的多示例学习(MIL)方法依赖于聚合函数从图像块表示中导出幻灯片级(包级)预测,这需要大量的包级标签进行训练。相比之下,基于VLM的方法擅长将图像块的视觉嵌入与候选类别文本提示对齐,但缺乏必要的病理学先验知识。我们的方法的独特之处在于利用来自语言模型的病理学先验知识来识别WSI分类的关键局部组织类型(图像块),并将其集成到基于VLM的MIL框架中。我们的方法有效地将图像块与组织类型对齐,并且我们仅使用每个类别中少量的标记WSIs通过提示学习对模型进行微调。在真实世界病理WSI数据集上的实验和消融研究突出了我们的方法在少样本WSI分类任务中相较于现有基于MIL和VLM的方法的优越性能。我们的代码已公开发布在https://github.com/LTS5/SLIP。 |
2025-03-21 | Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models | link | 视觉语言模型 (VLM) 学习文本和图像的共享特征空间,从而能够比较不同模态的输入。虽然先前的工作表明,VLM 将自然语言表示组织成编码复合含义的规则结构,但尚不清楚视觉嵌入空间中是否也出现了组合模式。在这项工作中,我们研究了图像域中的组合性,其中视觉数据的噪声和稀疏性对组合属性的分析提出了挑战。我们解决了这些问题,并提出了一个名为测地线可分解嵌入 (GDE) 的框架,该框架使用潜在空间中几何感知的组合结构来近似图像表示。我们证明了预训练 VLM 的视觉嵌入表现出组合排列,并在组合分类和组鲁棒性任务中评估了此属性的有效性。与假设潜在空间线性几何的对应方法相比,GDE 在组合分类中实现了更强的性能。值得注意的是,它对于组鲁棒性特别有效,我们在其中取得了比特定任务解决方案更高的结果。我们的结果表明,VLM 可以在视觉领域自动发展出类似人类的组合推理形式,使其底层过程更具可解释性。代码可在 https://github.com/BerasiDavide/vlm_image_compositionality 获取。 |
2025-03-21 | Beyond Accuracy: What Matters in Designing Well-Behaved Models? | null | 深度学习已成为计算机视觉的重要组成部分,深度神经网络 (DNN) 在预测性能方面表现出色。然而,它们通常在其他关键质量维度上存在不足,例如鲁棒性、校准性或公平性。虽然现有研究侧重于这些质量维度的一个子集,但尚未有人探索 DNN 更通用的“良好行为”。通过这项工作,我们通过同时研究图像分类的九个不同质量维度来弥补这一差距。通过一项大规模研究,我们分析了 326 个骨干模型以及不同的训练范式和模型架构如何影响质量维度,从而提供了全局视角。我们揭示了各种新见解,例如 (i) 视觉语言模型在 ImageNet-1k 分类中表现出高度公平性,并且对域变化具有很强的鲁棒性;(ii) 自监督 57A7 习是一种有效的训练范式,可以提高几乎所有考虑的质量维度;(iii) 训练数据集大小是大多数质量维度的主要驱动因素。最后,我们引入了 QUBA 分数(超越准确性的质量理解),这是一种新的衡量标准,可以在多个质量维度上对模型进行排名,从而根据特定用户需求提供定制化建议。 |
2025-03-21 | PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition | null | 像CLIP这样的视觉语言模型(VLM)为动态面部表情识别(DFER)提供了有希望的解决方案,但面临着诸如全微调效率低下、复杂度高以及文本和视觉表示之间对齐不良等挑战。此外,现有方法在有效的时间建模方面存在困难。为了解决这些问题,我们提出了PE-CLIP,这是一个参数高效的微调(PEFT)框架,它使CLIP适应DFER,同时显著减少可训练参数并保持高精度。PE-CLIP引入了两个专门的适配器:时间动态适配器(TDA)和共享适配器(ShA)。TDA是一个基于GRU的模块,具有动态缩放功能,可以捕获序列依赖关系,同时强调信息丰富的时间特征并抑制无关的变化。ShA是一个轻量级适配器,可在文本和视觉编码器中优化表示,确保一致性和效率。此外,我们集成了多模态提示学习(MaPLe),为视觉和基于动作单元的文本输入引入可学习提示,增强了模态之间的语义对齐,并使CLIP能够高效地适应动态任务。我们在两个基准数据集DFEW和FERV39K上评估了PE-CLIP,与最先进的方法相比,实现了具有竞争力的性能,同时需要的可训练参数更少。通过平衡效率和准确性,PE-CLIP在资源高效的DFER中树立了新的基准。所提出的PE-CLIP的源代码将在https://github.com/Ibtissam-SAADI/PE-CLIP公开发布。 |
2025-03-21 | Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks | null | 动态图像退化,包括噪声、模糊和光照不一致,由于传感器限制或不利环境条件,对图像复原提出了重大挑战。现有的深度展开网络 (DUN) 提供了稳定的复原性能,但需要针对每种退化类型手动选择退化矩阵,限制了它们在不同场景下的适应性。为了解决这个问题,我们提出了视觉语言引导展开网络 (VLU-Net),这是一个统一的 DUN 框架,可以同时处理多种退化类型。VLU-Net 利用在退化图像-文本对上进行微调的视觉语言模型 (VLM) 将图像特征与退化描述对齐,从而为目标退化选择合适的变换。通过将基于 VLM 的自动梯度估计策略集成到近端梯度下降 (PGD) 算法中,VLU-Net 有效地解决了复杂的多退化复原任务,同时保持了可解释性。此外,我们设计了一个分层特征展开结构来增强 VLU-Net 框架,从而有效地合成不同级别的退化模式。VLU-Net 是第一个一体化的 DUN 框架,在 SOTS 去雾数据集和 Rain100L 去雨数据集上的性能分别比目前领先的一对一和一体化端到端方法高 3.74 dB 和 1.70 dB。 |
2025-03-21 | Classifier-guided CLIP Distillation for Unsupervised Multi-label Classification | null | 多标签分类对于全面的图像理解至关重要,但获取准确的标注既具有挑战性又成本高昂。为了解决这个问题,最近的一项研究建议利用强大的视觉语言模型CLIP来进行无监督多标签分类。尽管CLIP能力很强,但它存在视图依赖性预测和固有偏差,限制了它的有效性。我们提出了一种新方法,通过利用目标物体附近的多个视图来解决这些问题,该方法以分类器的类激活映射(CAM)为指导,并对从CLIP预测得到的伪标签进行去偏差处理。我们的分类器引导的CLIP蒸馏(CCD)能够在没有额外标签的情况下选择多个局部视图,并对预测进行去偏差处理,从而提高分类性能。实验结果证实了我们的方法在不同数据集上优于现有技术的性能。代码可在https://github.com/k0u-id/CCD获取。 |
2025-03-21 | Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction | null | 视觉问答 (VQA) 已成为从文档图像中提取特定信息的灵活方法。然而,现有工作通常孤立地查询每个字段,忽略了多个项目之间潜在的依赖关系。本文研究了联合提取多个字段与单独提取多个字段的优劣。通过在多个大型视觉语言模型和数据集上进行实验,我们发现联合提取字段通常可以提高准确性,尤其是在字段之间存在强数值或上下文依赖关系时。我们进一步分析了性能如何随请求项的数量而变化,并使用基于回归的指标来量化字段间关系。我们的结果表明,多字段提示可以减轻由相似表面形式和相关数值引起混淆,为在文档信息提取任务中设计鲁棒的 VQA 系统提供了实用方法。 |
2025-03-21 | MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers | null | 机器完全理解科学论文反映了通用人工智能的高水平,需要跨零散和异构信息源进行推理的能力,这是一个复杂且具有实际意义的挑战。虽然视觉语言模型(VLM)在各种任务中取得了显著进展,尤其是在涉及从单张图像或文本页面进行证据推理的任务中,但它们利用跨源信息进行推理的能力仍然是一个有待解决的问题。这项工作提出了MMCR,这是一个高难度基准测试,旨在评估VLM利用科学论文中的跨源信息进行推理的能力。该基准测试包含276个高质量问题,由人工在7个学科和10种任务类型中精心标注。对18个VLM的实验表明,跨源推理对现有模型提出了重大挑战。值得注意的是,即使是表现最好的模型GPT-4o,总体准确率也只有48.55%,在多表格理解任务中准确率仅为20%,而表现第二的模型Qwen2.5-VL-72B的总体准确率为39.86%。此外,我们研究了思维链(CoT)技术对跨源推理的影响,观察到它对小型模型有不利影响,而大型模型的性能则得到显著提升。这些结果突出了开发能够有效利用跨源信息进行推理的VLM的迫切需求。 |
2025-03-20 | Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them | null | 大型语言模型 (LLM) 和视觉语言模型 (VLM) 已经能够在各种场景中执行多种形式的推理任务,但它们是否真的在进行任务抽象和基于规则的推理,而不仅仅是记忆和模式匹配?为了回答这个问题,我们提出了一种新的实验方法,即误导性微调 (MisFT),以检验 LLM/VLM 是否通过改变其对基本规则的原始理解来执行抽象推理。具体来说,我们通过构建一个包含与正确运算原则相矛盾的数学表达式的数据集,对模型进行微调以学习这些矛盾的规则,并评估其在不同测试域上的泛化能力。通过一系列实验,我们发现当前的 LLM/VLM 能够有效地应用矛盾规则来解决实际的数学应用题和图像表示的数学表达式,这意味着存在一种在推理前进行抽象的内部机制。 |
2025-03-20 | Disentangled and Interpretable Multimodal Attention Fusion for Cancer Survival Prediction | null | 为了改进使用全切片图像和转录组学数据预测癌症存活率,捕捉模态共享和模态特定信息至关重要。然而,多模态框架通常会将这些表征纠缠在一起,限制了可解释性,并可能抑制判别性特征。为了解决这个问题,我们提出了分离且可解释的多模态注意力融合(DIMAF),这是一个多模态框架,它在基于注意力的融合机制中分离了模态内和模态间的交互,以学习不同的模态特定和模态共享表征。我们引入了一个基于距离相关性的损失来促进这些表征之间的分离,并整合了Shapley加性解释来评估它们对生存预测的相对贡献。我们在四个公共癌症生存数据集上评估了DIMAF,与当前最先进的多模态模型相比,性能平均提高了1.85%,分离度提高了23.7%。除了改进性能之外,我们可解释的框架还能更深入地探索癌症生物学中模态之间和模态内部的潜在相互作用。 |
2025-03-20 | STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding | link | 基于海量图文对预训练的视觉语言模型,例如CLIP,已在众多基于图像的任务中展现出极具潜力的零样本泛化能力。然而,由于视频标注数据的匮乏和高昂的训练成本,将这些能力扩展到视频任务仍然充满挑战。近期的视频提示方法试图通过引入可学习提示来使CLIP适应视频任务,但它们通常依赖于针对所有视频序列的单一静态提示,忽略了帧之间存在的不同时序动态和空间变化。这种局限性严重阻碍了模型捕捉有效视频理解所需的关键时序信息的能力。为了解决这个问题,我们提出了一个集成的时空动态提示(STOP)模型,它包含两个互补的模块:帧内空间提示和帧间时序提示。我们的帧内空间提示旨在通过利用帧内注意力和时序变化来自适应地突出每个帧中的判别区域,使模型能够专注于具有显著时序动态的区域并捕捉细粒度的空间细节。此外,为了突出帧对于视频理解的不同重要性,我们进一步引入了帧间时序提示,在具有高时序方差(通过帧相似度衡量)的帧之间动态插入提示。这使得模型能够优先考虑关键帧,并增强其理解序列中时序依赖关系的能力。在各种视频基准上的大量实验表明,STOP始终优于最先进的方法。代码可在https://github.com/zhoujiahuan1991/CVPR2025-STOP获取。 |
2025-03-20 | Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation | null | 用于地球观测 (EO) 的视觉语言模型通常仅依赖数据的可见光谱作为模型输入,因此未能利用卫星记录的多光谱通道中丰富的谱信息。因此,在本文中,我们介绍了 Llama3-MS-CLIP,这是第一个使用大规模多光谱数据集上的对比学习进行预训练的视觉语言模型,并报告了由于扩展光谱范围而带来的性能提升。此外,我们提出了迄今为止最大的多光谱图像-字幕数据集,其中包含一百万个 Sentinel-2 样本和使用 Llama3-LLaVA-Next 和 Overture Maps 数据生成的相应文本描述。我们开发了一个可扩展的字幕生成流水线,并已由领域专家验证。我们使用三个不同复杂度的数据集,在多光谱零样本图像分类和检索任务上评估了 Llama3-MS-CLIP。我们的结果表明,Llama3-MS-CLIP 明显优于其他基于 RGB 的方法,与次优模型相比,分类精度平均提高了 6.77%,检索性能提高了 4.63% mAP。我们的结果强调了多光谱视觉语言学习的相关性。我们将图像-字幕数据集、代码和模型权重以开源许可证的形式发布。 |
2025-03-20 | CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention | link | 参考医学图像分割目标描绘由文本描述指示的病灶。由于视觉和文本线索不同的数据属性,对齐它们具有挑战性。受大规模预训练视觉语言模型的启发,我们提出了 CausalCLIPSeg,一个用于参考医学图像分割的端到端框架,它利用了 CLIP。尽管没有在医学数据上进行训练,我们通过定制的跨模态解码方法将 CLIP 丰富的语义空间强制应用于医学领域,以实现文本到像素的对齐。此外,为了减轻可能导致模型学习虚假相关性而不是有意义的因果关系的混杂偏差,CausalCLIPSeg 引入了一个因果干预模块,该模块对混杂因素进行自我注释,并从输入中挖掘因果特征以进行分割判断。我们还设计了一个对抗性最小-最大博弈来优化因果特征,同时惩罚混杂特征。大量实验表明我们提出的方法具有最先进的性能。代码可在 https://github.com/WUTCM-Lab/CausalCLIPSeg 获取。 |
2025-03-20 | Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts | link | 量化图像的真实性仍然是人工智能领域的一个难题。例如,爱因斯坦拿着智能手机的图像违反了常识,因为现代智能手机是在爱因斯坦去世后发明的。我们介绍了一种使用大型视觉语言模型(LVLM)和自然语言推理(NLI)来评估图像真实性的新方法。我们的方法基于这样一个前提:当LVLM遇到违反常识的图像时,可能会产生幻觉。使用LVLM从这些图像中提取原子事实,我们得到了一组准确的事实和错误的幻觉。我们继续计算这些事实之间的成对蕴涵分数,随后将这些值聚合以产生单个现实分数。此过程用于识别真实事实和幻觉元素之间的矛盾,从而表明存在违反常识的图像。我们的方法在WHOOPS!数据集上的零样本模式中实现了新的最佳性能。 |
2025-03-20 | UMIT: Unifying Medical Imaging Tasks via Vision-Language Models | link | 随着深度学习的快速发展,尤其是在医学图像分析领域,越来越多的视觉语言模型(VLM)被广泛应用于解决复杂的健康和生物医学挑战。然而,现有研究主要集中在特定任务或单一模态上,这限制了它们在不同医学场景中的适用性和泛化能力。为了应对这一挑战,我们提出了UMIT,一个统一的多模态、多任务VLM,专为医学影像任务而设计。UMIT能够解决各种任务,包括视觉问答、疾病检测和医学报告生成。此外,它适用于多种成像模态(例如,X光、CT和PET),涵盖从基本诊断到复杂病灶分析的广泛应用。此外,UMIT支持英语和中文,扩展了其全球适用性,并确保了不同语言环境下医疗服务的可及性。为了增强模型的适应性和任务处理能力,我们设计了一种独特的两阶段训练策略,并使用设计的指令模板对UMIT进行微调。通过广泛的实证评估,UMIT在多个数据集的五项任务中均优于先前的方法。UMIT的性能表明,它可以显著提高诊断准确性和工作流程效率,从而为医学影像应用提供有效的解决方案。 |
2025-03-20 | What can Off-the-Shelves Large Multi-Modal Models do for Dynamic Scene Graph Generation? | null | 视频动态场景图生成(DSGG)是计算机视觉中一项具有挑战性的任务。虽然现有方法通常侧重于复杂架构设计且仅在评估期间使用召回率,但我们仔细研究了它们预测的场景图,并发现了现有DSGG方法的三个关键问题:严重的精确率-召回率权衡、缺乏对三元组重要性的认识以及评估方案不当。另一方面,大型多模态模型(LMM)的最新进展在视频理解方面展现出巨大潜力,但尚未在诸如DSGG之类的细粒度逐帧理解任务上进行测试。在本研究中,我们首次对用于执行DSGG的视频LMM进行了系统分析。在不依赖复杂架构设计的情况下,我们展示了具有简单仅解码器结构的LMM可以转化为最先进的场景图生成器,有效地克服了上述问题,同时只需要少量微调(5-10%的训练数据)。 |
2025-03-20 | AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models | n |