关闭广告

小米研究院推出AI视频理解:让机器像人一样"回看"思考视频内容

科技行者1938人阅读


这项由小米人工智能实验室(MiLM Plus)的李佳泽领导,联合独立研究者以及中国人民大学团队合作完成的研究,发表于2025年11月的计算机视觉领域顶级会议论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2511.13026v1查询完整论文。

当你在看一部长电影时,如果朋友突然问你"刚才那个场景里谁救了谁",你可能会本能地回想刚才看到的画面,重新审视那些关键镜头。现在,研究团队让人工智能也学会了这种"回看思考"的能力。

目前的AI视频理解系统就像一个只能"一遍过"看视频的观众,看完就必须立即给出答案,不能重新检查可能遗漏的重要细节。特别是面对长视频时,这种限制变得更加明显。就好比你被要求看完一部两小时的电影后,不允许回想任何情节就要回答复杂问题一样困难。

研究团队发现了现有AI系统的一个重要缺陷:当这些系统需要理解长视频内容时,它们只会重新思考文字描述,却不会重新审视视频画面本身。这就像一个学生在考试时只反复读题目,却不重新观察图表和图像一样。相比之下,人类在遇到复杂视频理解任务时,会自然地回到关键画面进行再次观察和思考。

为了解决这个问题,研究团队开发了名为REVISOR的创新框架。这个名字本身就很有意思——它结合了"反思"(Reflective)、"视觉"(Visual)、"片段"(Segment)和"推理"(Reasoning)四个关键概念。可以把REVISOR比作一个配备了"倒带功能"的智能视频观察者。

REVISOR的工作方式非常巧妙,分为两个阶段进行。第一个阶段类似于快速浏览,AI系统会先粗略地看一遍整个视频,形成初步印象,同时标记出那些看起来最重要或最让它困惑的时间段。就像你快速翻阅一本书时会用便签纸标记重要章节一样。

在第二个阶段,AI系统会启动"视觉工具箱",重新仔细观察那些被标记的关键片段。这时,它会用更高的精度重新采样这些片段的画面,获得比第一遍观看时更详细的视觉信息。然后,AI系统会结合初步观察的结果和新获得的详细画面信息,进行深入的反思和重新推理,最终得出更准确的答案。

这个过程就像一个侦探在调查案件时的工作方式。侦探会先听取案件的大致情况,形成初步判断,然后重返现场仔细检查那些最可疑的区域,寻找之前可能遗漏的关键证据,最后综合所有信息得出结论。

为了确保AI系统能够准确地找到真正重要的视频片段,研究团队还设计了一个精巧的训练机制,叫做"双重归因解耦奖励机制"(DADR)。这个机制的工作原理有点像训练一个学生同时掌握两种技能:既要能给出正确答案,又要能准确指出支持这个答案的关键证据。

传统的AI训练方法只关注最终答案是否正确,就像只看考试分数而不关心学生的解题过程。而DADR机制除了要求AI给出正确答案外,还要求它能够准确识别出那些对得出正确答案至关重要的视频片段。只有当AI既能给出正确答案,又能准确定位关键证据时,它才会获得最高的奖励分数。

这种训练方式确保了AI不仅仅是"碰运气"答对题目,而是真正理解了视频内容的逻辑关系。就像训练一个学生不仅要会做题,还要能够清楚地解释自己的解题思路一样。

研究团队在多个权威数据集上测试了REVISOR的效果,结果令人印象深刻。在VideoMME这个具有挑战性的长视频理解基准测试中,REVISOR相比基础模型提升了1.4%的准确率,在专门针对长视频的子集上更是提升了2.8%。在MLVU数据集(包含长达120分钟的视频)上,准确率提升了2.5%。这些数字虽然看起来不大,但在AI领域,即使是1%的提升也往往需要大量的技术突破才能实现。

更有趣的是,研究团队还发现REVISOR在视频片段定位任务上表现出色。在Charades-STA数据集上,它达到了51.4%的精确定位率,比之前的最佳方法提升了4.1%。这说明REVISOR不仅能够理解视频内容,还能够准确地找到支持其结论的关键证据。

为了深入了解REVISOR为什么有效,研究团队进行了详细的分析实验。他们发现了一个非常有趣的现象:在训练过程中,AI系统生成的文字推理内容越来越短,而选择重新观看的视频片段则先增长后缩短。这个变化模式揭示了AI学习过程中的一个重要洞察。

文字推理变短说明AI逐渐认识到,对于长视频理解任务,纯粹的文字思考作用有限,关键在于视觉信息的重新审视。而视频片段长度的变化则表明,AI首先学会了扩大搜索范围以确保不遗漏重要信息,然后又学会了精确定位,去除冗余内容。这个学习过程很像人类专家技能的发展轨迹:从广泛探索到精确聚焦。

研究团队还进行了一个对照实验,强制让AI进行更长的文字推理。结果发现,这样做反而导致了性能下降。这进一步证实了他们的核心观点:对于长视频理解,视觉重新审视比文字反思更为重要。

这项研究的意义远远超出了技术本身。在当今视频内容爆炸的时代,从短视频平台到在线教育,从安防监控到医疗诊断,长视频理解技术有着广泛的应用前景。REVISOR提出的"视觉反思"理念为AI系统处理复杂视觉信息提供了新的思路。

比如在教育领域,这种技术可以帮助AI系统更好地理解课堂录像,准确识别学生的学习状态和关键知识点。在安防监控中,AI可以更准确地识别异常事件,并定位到具体的关键时刻。在内容创作领域,AI可以帮助编辑快速找到视频中的精彩片段。

研究团队特别强调,REVISOR框架不需要额外的监督学习训练或外部模型支持,这意味着它可以很容易地集成到现有的AI系统中。这种设计的实用性为技术的广泛应用奠定了基础。

更重要的是,这项研究提供了一个全新的视角来思考AI的学习和推理过程。传统上,我们倾向于让AI系统"一次性"处理信息,就像填鸭式教育一样。而REVISOR证明了"回看思考"的价值,这更接近人类的自然学习方式。

这种视觉反思机制也为未来的多模态AI发展指明了方向。随着AI需要处理的信息越来越复杂,单纯依靠"直觉式"的一次性处理可能无法满足需求。REVISOR展示了一种更加深思熟虑的AI推理模式,这可能成为下一代智能系统的重要特征。

当然,这项研究也还有进一步改进的空间。目前的系统主要针对视频内容,未来可能会扩展到其他类型的多模态内容。另外,如何在保持准确性的同时进一步提高效率,也是一个值得探索的方向。

说到底,REVISOR的核心贡献在于它让我们重新思考了AI系统应该如何处理复杂信息。它证明了有时候"慢下来,仔细看"比"快速处理"更有价值。这不仅是技术上的进步,也是AI系统向人类认知方式靠近的重要一步。归根结底,这项研究为我们展示了一个更加"深思熟虑"的AI未来,在这个未来里,AI不仅能够快速处理信息,还能够像人类一样进行反思和重新审视。这种能力的重要性,在我们面临越来越复杂的信息世界时显得尤为珍贵。

Q&A

Q1:REVISOR框架是如何工作的?

A:REVISOR采用两阶段工作模式。首先快速浏览整个视频形成初步印象并标记关键片段,然后用视觉工具箱重新仔细观察这些片段,结合初步结果和详细视觉信息进行深入反思,最终得出准确答案。就像侦探先了解案件概况再深入调查可疑区域一样。

Q2:双重归因解耦奖励机制DADR有什么作用?

A:DADR机制确保AI系统既能给出正确答案又能准确定位关键证据。它不像传统训练只看最终答案对错,而是要求AI准确识别支持答案的重要视频片段。只有答案正确且证据定位准确时才给予最高奖励,避免AI"碰运气"答题。

Q3:REVISOR在长视频理解上效果如何?

A:在多个权威测试中表现出色。VideoMME数据集上准确率提升1.4%,长视频子集提升2.8%;120分钟视频的MLVU数据集提升2.5%;视频片段定位任务达到51.4%精确率,比之前最佳方法提升4.1%。这些提升在AI领域意义重大。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普亮明"弃台"主张 学者:美在台海已不具军事优势

台海网 浏览 7114

原来他就是白百何的二婚老公,难怪能逆风翻盘

情感大头说说 浏览 255

泰国外长:泰柬将于12月24日举行会谈 讨论停火细节

财联社 浏览 2160

伊利契奇:有人出钱让我讲述经历;加斯佩里尼让我突破极限

懂球帝 浏览 2859

董明珠的言语经常惹争议,但是她做的事为何都做对了?

BT财经 浏览 1891

以防长威胁伊朗:准备好重启战事 就等美国“开绿灯”

上观新闻 浏览 737

恩里克:踢出极高的水平是我们一贯的目标;要避免球员受伤

懂球帝 浏览 2607

雅图高新被举报后发长文反驳:谁是谁非需捋清 北交所非“垃圾箱”IPO企业非出气筒

财经下午茶 浏览 2482

泰柬在13条战线上交战 泰总理:愿意接听特朗普电话

环球网资讯 浏览 2131

国家出手太快,这一仗是打不起来了

老斯基财经 浏览 1917

大衣+阔腿裤:今年冬天最经典搭配,松弛又时髦!

LinkFashion 浏览 2110

明抢!中国企业147亿半导体资产被荷兰政府冻结,CEO被停职;小米第三款车YU9多张实车谍照曝光;美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网 浏览 2860

30亿元“炸弹”入场!千问烧钱搅动AI春节红包大战

华夏时报 浏览 1839

小鹏汽车2025年全年交付量达429,445台 同比增长126%

网易汽车 浏览 2093

海信CES发布全新一代RGB-Mini LED电视,搭载“玲珑4芯”真彩背光

IT之家 浏览 1969

央视年代剧《老舅》开播!这部剧又要火向全国

皮皮电影 浏览 2189

北大腾讯团队只改一行代码,让AI图像生成效果提升20%!

科技行者 浏览 1865

时间的“相对论”:为什么我们总觉得时间越跑越快?『心灵加油站』(271)

我们的太空 浏览 2230

直播|| 春夏百元级首饰,最爱逛的一定有他家!

黎贝卡的异想世界 浏览 943

罗马诺:阿贾克斯即将与富安健洋签约半年,根据表现可能续约

懂球帝 浏览 2068

超微电脑Q1财季营收大幅下滑15%,毛利率暴跌至9%,盘后股价重挫10%

华尔街见闻官方 浏览 2485
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1