趣看热点

这项由小米人工智能实验室（MiLM Plus）的李佳泽领导，联合独立研究者以及中国人民大学团队合作完成的研究，发表于2025年11月的计算机视觉领域顶级会议论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2511.13026v1查询完整论文。

当你在看一部长电影时，如果朋友突然问你"刚才那个场景里谁救了谁"，你可能会本能地回想刚才看到的画面，重新审视那些关键镜头。现在，研究团队让人工智能也学会了这种"回看思考"的能力。

目前的AI视频理解系统就像一个只能"一遍过"看视频的观众，看完就必须立即给出答案，不能重新检查可能遗漏的重要细节。特别是面对长视频时，这种限制变得更加明显。就好比你被要求看完一部两小时的电影后，不允许回想任何情节就要回答复杂问题一样困难。

研究团队发现了现有AI系统的一个重要缺陷：当这些系统需要理解长视频内容时，它们只会重新思考文字描述，却不会重新审视视频画面本身。这就像一个学生在考试时只反复读题目，却不重新观察图表和图像一样。相比之下，人类在遇到复杂视频理解任务时，会自然地回到关键画面进行再次观察和思考。

为了解决这个问题，研究团队开发了名为REVISOR的创新框架。这个名字本身就很有意思——它结合了"反思"(Reflective)、"视觉"(Visual)、"片段"(Segment)和"推理"(Reasoning)四个关键概念。可以把REVISOR比作一个配备了"倒带功能"的智能视频观察者。

REVISOR的工作方式非常巧妙，分为两个阶段进行。第一个阶段类似于快速浏览，AI系统会先粗略地看一遍整个视频，形成初步印象，同时标记出那些看起来最重要或最让它困惑的时间段。就像你快速翻阅一本书时会用便签纸标记重要章节一样。

在第二个阶段，AI系统会启动"视觉工具箱"，重新仔细观察那些被标记的关键片段。这时，它会用更高的精度重新采样这些片段的画面，获得比第一遍观看时更详细的视觉信息。然后，AI系统会结合初步观察的结果和新获得的详细画面信息，进行深入的反思和重新推理，最终得出更准确的答案。

这个过程就像一个侦探在调查案件时的工作方式。侦探会先听取案件的大致情况，形成初步判断，然后重返现场仔细检查那些最可疑的区域，寻找之前可能遗漏的关键证据，最后综合所有信息得出结论。

为了确保AI系统能够准确地找到真正重要的视频片段，研究团队还设计了一个精巧的训练机制，叫做"双重归因解耦奖励机制"（DADR）。这个机制的工作原理有点像训练一个学生同时掌握两种技能：既要能给出正确答案，又要能准确指出支持这个答案的关键证据。

传统的AI训练方法只关注最终答案是否正确，就像只看考试分数而不关心学生的解题过程。而DADR机制除了要求AI给出正确答案外，还要求它能够准确识别出那些对得出正确答案至关重要的视频片段。只有当AI既能给出正确答案，又能准确定位关键证据时，它才会获得最高的奖励分数。

这种训练方式确保了AI不仅仅是"碰运气"答对题目，而是真正理解了视频内容的逻辑关系。就像训练一个学生不仅要会做题，还要能够清楚地解释自己的解题思路一样。

研究团队在多个权威数据集上测试了REVISOR的效果，结果令人印象深刻。在VideoMME这个具有挑战性的长视频理解基准测试中，REVISOR相比基础模型提升了1.4%的准确率，在专门针对长视频的子集上更是提升了2.8%。在MLVU数据集（包含长达120分钟的视频）上，准确率提升了2.5%。这些数字虽然看起来不大，但在AI领域，即使是1%的提升也往往需要大量的技术突破才能实现。

更有趣的是，研究团队还发现REVISOR在视频片段定位任务上表现出色。在Charades-STA数据集上，它达到了51.4%的精确定位率，比之前的最佳方法提升了4.1%。这说明REVISOR不仅能够理解视频内容，还能够准确地找到支持其结论的关键证据。

为了深入了解REVISOR为什么有效，研究团队进行了详细的分析实验。他们发现了一个非常有趣的现象：在训练过程中，AI系统生成的文字推理内容越来越短，而选择重新观看的视频片段则先增长后缩短。这个变化模式揭示了AI学习过程中的一个重要洞察。

文字推理变短说明AI逐渐认识到，对于长视频理解任务，纯粹的文字思考作用有限，关键在于视觉信息的重新审视。而视频片段长度的变化则表明，AI首先学会了扩大搜索范围以确保不遗漏重要信息，然后又学会了精确定位，去除冗余内容。这个学习过程很像人类专家技能的发展轨迹：从广泛探索到精确聚焦。

研究团队还进行了一个对照实验，强制让AI进行更长的文字推理。结果发现，这样做反而导致了性能下降。这进一步证实了他们的核心观点：对于长视频理解，视觉重新审视比文字反思更为重要。

这项研究的意义远远超出了技术本身。在当今视频内容爆炸的时代，从短视频平台到在线教育，从安防监控到医疗诊断，长视频理解技术有着广泛的应用前景。REVISOR提出的"视觉反思"理念为AI系统处理复杂视觉信息提供了新的思路。

比如在教育领域，这种技术可以帮助AI系统更好地理解课堂录像，准确识别学生的学习状态和关键知识点。在安防监控中，AI可以更准确地识别异常事件，并定位到具体的关键时刻。在内容创作领域，AI可以帮助编辑快速找到视频中的精彩片段。

研究团队特别强调，REVISOR框架不需要额外的监督学习训练或外部模型支持，这意味着它可以很容易地集成到现有的AI系统中。这种设计的实用性为技术的广泛应用奠定了基础。

更重要的是，这项研究提供了一个全新的视角来思考AI的学习和推理过程。传统上，我们倾向于让AI系统"一次性"处理信息，就像填鸭式教育一样。而REVISOR证明了"回看思考"的价值，这更接近人类的自然学习方式。

这种视觉反思机制也为未来的多模态AI发展指明了方向。随着AI需要处理的信息越来越复杂，单纯依靠"直觉式"的一次性处理可能无法满足需求。REVISOR展示了一种更加深思熟虑的AI推理模式，这可能成为下一代智能系统的重要特征。

当然，这项研究也还有进一步改进的空间。目前的系统主要针对视频内容，未来可能会扩展到其他类型的多模态内容。另外，如何在保持准确性的同时进一步提高效率，也是一个值得探索的方向。

说到底，REVISOR的核心贡献在于它让我们重新思考了AI系统应该如何处理复杂信息。它证明了有时候"慢下来，仔细看"比"快速处理"更有价值。这不仅是技术上的进步，也是AI系统向人类认知方式靠近的重要一步。归根结底，这项研究为我们展示了一个更加"深思熟虑"的AI未来，在这个未来里，AI不仅能够快速处理信息，还能够像人类一样进行反思和重新审视。这种能力的重要性，在我们面临越来越复杂的信息世界时显得尤为珍贵。

Q&A

Q1：REVISOR框架是如何工作的？

A：REVISOR采用两阶段工作模式。首先快速浏览整个视频形成初步印象并标记关键片段，然后用视觉工具箱重新仔细观察这些片段，结合初步结果和详细视觉信息进行深入反思，最终得出准确答案。就像侦探先了解案件概况再深入调查可疑区域一样。

Q2：双重归因解耦奖励机制DADR有什么作用？

A：DADR机制确保AI系统既能给出正确答案又能准确定位关键证据。它不像传统训练只看最终答案对错，而是要求AI准确识别支持答案的重要视频片段。只有答案正确且证据定位准确时才给予最高奖励，避免AI"碰运气"答题。

Q3：REVISOR在长视频理解上效果如何？

A：在多个权威测试中表现出色。VideoMME数据集上准确率提升1.4%，长视频子集提升2.8%；120分钟视频的MLVU数据集提升2.5%；视频片段定位任务达到51.4%精确率，比之前最佳方法提升4.1%。这些提升在AI领域意义重大。

小米研究院推出AI视频理解：让机器像人一样＂回看＂思考视频内容

中方在联合国...

范志毅：U2...

迟重瑞妻子陈...

奥巴马意外现...

年味拉满，好...

新能源购置税...

伊朗：美福特号航母在红海的存在被视为对伊朗的威胁

舒淇最爱穿的裙子搭配，真的很适合春天！

为什么骑手的保障，“普惠”更重要？

特朗普亮明＂弃台＂主张学者：美在台海已不具军事优势

原来他就是白百何的二婚老公，难怪能逆风翻盘

泰国外长：泰柬将于12月24日举行会谈讨论停火细节

伊利契奇：有人出钱让我讲述经历；加斯佩里尼让我突破极限

董明珠的言语经常惹争议，但是她做的事为何都做对了？

以防长威胁伊朗：准备好重启战事就等美国“开绿灯”

恩里克：踢出极高的水平是我们一贯的目标；要避免球员受伤

雅图高新被举报后发长文反驳：谁是谁非需捋清北交所非“垃圾箱”IPO企业非出气筒

泰柬在13条战线上交战泰总理:愿意接听特朗普电话

国家出手太快，这一仗是打不起来了

大衣+阔腿裤：今年冬天最经典搭配，松弛又时髦！

明抢！中国企业147亿半导体资产被荷兰政府冻结，CEO被停职；小米第三款车YU9多张实车谍照曝光；美团外卖骑手能屏蔽顾客了丨雷峰早报

30亿元“炸弹”入场！千问烧钱搅动AI春节红包大战

小鹏汽车2025年全年交付量达429,445台同比增长126%

海信CES发布全新一代RGB-Mini LED电视，搭载“玲珑4芯”真彩背光

央视年代剧《老舅》开播！这部剧又要火向全国

北大腾讯团队只改一行代码，让AI图像生成效果提升20%！

时间的“相对论”：为什么我们总觉得时间越跑越快？『心灵加油站』（271）

直播|| 春夏百元级首饰，最爱逛的一定有他家！

罗马诺：阿贾克斯即将与富安健洋签约半年，根据表现可能续约

超微电脑Q1财季营收大幅下滑15%，毛利率暴跌至9%，盘后股价重挫10%