关闭广告

蒙特利尔大学团队发现让AI"分段思考"的惊人秘密

科技行者441人阅读


这项由蒙特利尔大学Mila实验室的Milad Aghajohari、Kamran Chitsaz、Amirhossein Kazemnejad等研究人员与微软研究院、麦吉尔大学、ServiceNow研究部门合作完成的研究,发表于2025年的arXiv预印本平台(论文编号:arXiv:2510.06557v1)。有兴趣深入了解的读者可以通过该编号查询完整论文,也可以访问研究团队公开的代码仓库和模型权重。

你有没有想过,当我们思考一个复杂问题时,大脑是怎么工作的?比如解一道数学题,我们不会把所有信息都塞在脑海里,而是会分步骤推理,把重要的中间结果记下来,然后基于这些关键信息继续思考。然而,目前最先进的AI模型在"思考"时却不是这样的——它们就像一个强迫症患者,必须把之前想过的每一个字都牢牢记住,这让它们在处理复杂问题时变得极其耗费计算资源。

研究团队发现了一个令人震惊的现象:让一个小巧的1.5B参数模型采用"分段思考"的方式,竟然能在数学竞赛题目上击败那些使用传统"长篇大论思考"方式的大型模型,而且计算成本只有后者的四分之一。这就好比一个聪明的学生用简洁的草稿纸就能解出难题,而另一个学生却需要写满厚厚的笔记本才能得到同样的答案。

更令人惊喜的是,这种"分段思考"的方法还具有极强的扩展性。当给模型更多时间思考时,传统方法很快就会遇到瓶颈,就像一个人的记忆力有限,信息太多反而会混乱。但采用分段思考的模型却能持续改善表现,甚至能处理长达十万个词汇的超长推理过程,这在以前几乎是不可想象的。

一、重新定义AI的"思考环境":从无限记忆到有限状态

传统的AI训练就像要求一个学生在考试时必须把教科书的每一页都背下来。当前最主流的"长链思维"训练方法让AI模型在解决问题时必须保持对之前所有推理步骤的完整记忆。这种方法的问题显而易见:随着思考过程的延长,模型需要处理的信息量呈指数级增长,计算成本变得极其昂贵。

研究团队提出的"马尔可夫思考者"概念彻底颠覆了这种做法。马尔可夫这个名字来自数学中的马尔可夫过程,简单来说就是"当下决定未来,过去不重要"。这种思考方式更接近人类的实际推理过程:我们在解决复杂问题时,通常会把重要的中间结果提炼出来,然后基于这些关键信息继续推理,而不需要回忆每一个细微的思考细节。

具体来说,研究团队设计了一个名为"Delethink"的训练环境。在这个环境中,AI模型被迫学会将长篇推理过程分解成多个固定长度的"思考块"。每个思考块就像一张便签纸,模型在上面进行一段推理,然后必须在便签纸的末尾写下最重要的信息摘要。当这张便签纸用完时,系统会把之前的内容全部清空,只保留最后的摘要信息,然后开始新的一轮思考。

这种设计的巧妙之处在于,它强迫模型学会抓住问题的核心。就像一个优秀的侦探,不会记住案件中的每一个细节,但会牢牢抓住最关键的线索。通过反复练习,模型逐渐学会了如何在有限的空间内提炼出最有价值的信息,如何让推理过程既简洁又有效。

二、小模型的逆袭:1.5B参数如何击败巨无霸

为了验证这种新方法的效果,研究团队选择了R1-Distill 1.5B模型作为实验对象。这个模型的参数量只有15亿,在当今动辄千亿参数的大模型面前显得相当"迷你"。然而,经过Delethink方法训练后,这个小模型展现出了令人刮目相看的能力。

在数学竞赛的较量中,结果让人大跌眼镜。在美国数学邀请赛(AIME)2024和2025年的题目上,使用Delethink训练的1.5B模型不仅达到了传统方法训练的同等规模模型的性能,在某些测试中甚至超越了后者。更重要的是,这种性能提升的代价极其低廉——训练成本只有传统方法的四分之一左右。

这种现象的背后有着深刻的原理。传统的长链思维训练就像让学生在考试时必须写满整本答题册,哪怕有些内容是重复或无关的。而Delethink方法则教会模型如何写出精炼而有效的解答,每一步都直指问题核心。这不仅节省了计算资源,还提高了推理的质量。

更令人兴奋的是扩展性测试的结果。当研究团队将思考预算从24K词汇扩展到96K词汇时,传统方法训练的模型很快就遇到了性能瓶颈,就像一个人的工作记忆被过多信息压垮。但Delethink训练的模型却能持续改善,在某些困难题目上的准确率从35%提升到49%,平均解答长度达到36K词汇。这意味着模型真正学会了如何进行长期、深度的推理。

三、计算成本的革命:从平方增长到线性增长

要理解Delethink方法的革命性意义,我们需要先了解传统AI训练的计算瓶颈。当前的AI模型基于注意力机制工作,这种机制要求模型在生成每个新词时都要"回顾"之前的所有内容。随着文本长度的增加,计算量呈平方级增长。这就像一个图书管理员,每次添加新书时都要重新整理整个图书馆,工作量会随着藏书数量的平方倍增长。

研究团队通过理论分析和实际测量证明了Delethink方法的计算优势。在处理相同长度的推理任务时,传统方法需要的计算量随思考长度的平方增长,而Delethink方法只需要线性增长的计算量。具体数字更是惊人:当平均思考长度达到94K词汇时,传统方法需要27个H100-月的计算资源,而Delethink只需要7个H100-月。

这种计算效率的提升不仅体现在训练阶段,在实际使用时也同样明显。研究团队测量了不同方法在GPU上的实际运行速度,发现Delethink方法能够维持恒定的处理速度,而传统方法的速度会随着思考长度的增加而急剧下降。这就像高速公路和普通道路的区别:无论行驶多远,高速公路都能保持稳定的速度,而普通道路却会因为拥堵而越来越慢。

内存使用方面的改进同样显著。传统方法需要存储整个推理过程的所有中间状态,内存需求随思考长度线性增长。而Delethink方法由于每次都会清空历史信息,内存使用量始终保持在固定水平。这意味着即使是配置相对较低的硬件也能运行需要长时间思考的复杂任务。

四、意外发现:现成模型竟然天生具备分段思考能力

研究过程中最令人意外的发现是,许多现有的AI模型竟然天生就具备进行分段思考的能力,只是之前从未有人发现或利用过这种能力。研究团队测试了从1.5B到120B参数不等的多个模型,发现它们在没有经过任何专门训练的情况下,就能在Delethink环境中产生合理的推理轨迹。

这种现象特别在R1-Distill系列模型中表现突出。即使完全没有经过Delethink训练,这些模型在分段思考模式下就能恢复其传统长链思维模式下的大部分性能。这就像发现一个会说中文的人天生就具备了学习其他语言的能力,只需要稍加引导就能掌握新的表达方式。

更大规模的模型,如GPT-OSS 120B和Qwen3 30B,同样展现出了这种令人惊喜的适应性。在博士级别的科学问题、编程任务、数学竞赛以及填字游戏等不同类型的挑战中,这些模型都能在分段思考模式下保持良好的表现。这表明分段思考可能是一种更加通用和自然的推理方式。

研究团队还进行了"压力测试",故意选择那些似乎需要完整历史信息的任务,比如填字游戏(需要记住已经填入的单词)。令人惊讶的是,即使在这些看似不利于分段思考的任务中,模型仍然能找到创造性的解决方案,通过巧妙的状态表示来维持必要的信息。

五、实战验证:在数学竞赛中的卓越表现

为了验证Delethink方法的实际效果,研究团队选择了数学竞赛作为主要测试场景。数学竞赛题目具有客观的对错标准,需要复杂的多步推理,是测试AI推理能力的理想场景。测试涵盖了美国数学邀请赛(AIME)2024和2025年的题目,以及哈佛-麻省理工数学竞赛(HMMT)2025年的题目。

在这些高难度的数学挑战中,Delethink训练的模型展现出了令人印象深刻的能力。以AIME 2025为例,在24K词汇的思考预算下,Delethink模型的准确率达到30%,不仅匹配了传统方法训练的模型,在某些情况下还有所超越。考虑到这些题目的难度(通常只有数学竞赛的优秀选手才能解决),这样的表现已经相当出色。

更令人兴奋的是测试时扩展能力的验证。当允许模型使用更长的思考时间时,传统方法训练的模型很快就达到了性能上限,无法进一步改善。但Delethink模型却能持续受益于额外的思考时间,准确率随着思考预算的增加而稳步提升。在128K词汇的思考预算下,某些困难题目的解决率相比24K预算时提升了超过10个百分点。

研究团队还分析了模型的具体解题过程,发现Delethink训练的模型确实学会了更高效的推理策略。它们能够在每个思考片段的结尾总结出关键信息,然后在下一个片段中基于这些信息继续推理。这种做法与优秀数学学生的解题策略高度相似:先分析问题结构,然后逐步深入,最终得出答案。

六、技术深度解析:从环境设计到训练算法

Delethink方法的核心创新在于重新设计了强化学习的环境。在传统的AI训练中,环境通常被认为是固定不变的,就像棋盘游戏的规则一样。但研究团队意识到,环境本身也是可以优化的重要因素。

具体的环境设计相当巧妙。每个思考块被限制在固定的长度(比如8K词汇),模型在这个空间内可以自由推理。当接近块的结尾时,模型必须决定如何总结当前的推理状态。系统会自动提取块末尾的一小段文字(比如最后4K词汇)作为"状态载体",然后清空所有其他信息,开始新的思考块。

这种设计的关键在于状态载体的大小选择。太小的载体可能无法传递足够的信息,导致推理链断裂。太大的载体则失去了节省计算资源的意义。研究团队通过大量实验发现,将载体大小设定为思考块大小的一半(比如8K块配4K载体)能够在效果和效率之间达到最佳平衡。

训练算法方面,研究团队巧妙地修改了传统的策略梯度方法。由于推理过程被分解为多个片段,奖励信号需要在所有片段之间合理分配。他们采用了类似GRPO的方法,将总奖励按照各片段的长度进行归一化分配,确保每个片段都能得到恰当的学习信号。

训练稳定性是另一个重要考虑因素。研究团队发现,适当的超参数调整对于保持训练过程的稳定性至关重要。他们特别关注了熵值的变化,这是衡量模型探索能力的重要指标。通过精心调节PPO剪切比例等关键参数,他们成功避免了训练过程中常见的"策略坍塌"问题。

七、扩展实验:推向极限的96K词汇挑战

为了测试Delethink方法的极限能力,研究团队进行了一项雄心勃勃的扩展实验:将思考预算从24K词汇大幅提升到96K词汇。这相当于让AI模型写出一本中篇小说长度的推理过程,在技术上是一个巨大的挑战。

96K词汇的训练采用了更具挑战性的OpenMath数据集,这个数据集包含了比之前测试更加困难的数学竞赛问题。研究团队将思考块的迭代上限从5轮增加到23轮,同时保持每个块8K词汇的大小不变。这种设计确保了即使在处理超长推理时,每个局部的计算复杂度仍然保持可控。

令人惊喜的是,即使只经过150步的额外训练,96K版本的模型就在AIME2024上达到了49%的准确率,远超基础模型的40%。更重要的是,模型的平均解答长度达到了36K词汇(AIME24)和42K词汇(AIME25),表明它确实学会了有效利用扩展的思考空间。

这个实验还验证了Delethink方法的另一个重要特性:可扩展性。与传统方法在长序列上的训练困难相比,Delethink能够相对轻松地扩展到更长的推理长度。研究团队估计,如果使用传统方法训练96K长度的模型,计算成本将是Delethink的数倍,而且可能面临严重的稳定性问题。

测试阶段的表现更加令人印象深刻。当给予模型128K甚至256K的思考预算时,某些原本无法解决的难题开始出现正确答案。这种"顿悟"现象表明,给予充分的思考时间确实能让AI模型发现更深层的问题结构和解决方案。

八、跨领域验证:从数学到编程到逻辑推理

虽然数学竞赛是主要的测试场景,但研究团队也在其他领域验证了Delethink方法的通用性。在编程挑战平台LiveCodeBench上,Delethink训练的模型同样表现出色。编程任务需要模型理解复杂的算法逻辑,设计数据结构,并处理各种边界情况,是对AI推理能力的全面考验。

特别有趣的是GPQA-Diamond测试的结果。这是一个包含博士级别科学问题的数据集,涵盖物理、化学、生物等多个学科。虽然Delethink模型在这个数据集上的提升相对较小,但仍然能够匹配或略微超越传统方法。这表明分段思考的优势可能在需要长期推理的任务中更加明显。

研究团队还进行了一个特殊的"压力测试":填字游戏。这种任务看似对分段思考不利,因为需要记住已经填入的单词来避免冲突。然而,结果显示模型能够通过巧妙的状态编码来处理这种挑战。在7×7的填字游戏中,Delethink的表现与传统方法相当,在14×14的更复杂版本中虽有下降,但仍能产生有意义的解答。

这些跨领域的测试结果表明,分段思考可能是一种更加通用的推理范式。它不仅适用于数学这样需要严格逻辑推理的领域,也能处理编程、科学问题等需要创造性思维的任务。这种通用性为Delethink方法的广泛应用奠定了基础。

九、深入机理:为什么分段思考如此有效

Delethink方法的成功并非偶然,背后有着深刻的认知科学和计算理论基础。人类在处理复杂问题时,大脑确实采用了类似的分段处理策略。认知心理学研究表明,人类的工作记忆容量有限,但通过将信息组织成有意义的"组块",我们能够处理远超工作记忆容量的复杂任务。

从计算角度来看,分段思考实现了一种优雅的时空权衡。传统方法用空间(存储所有历史信息)换取时间(避免重复计算),而Delethink方法则用少量的重复计算换取大幅的空间节省。由于现代AI系统的瓶颈往往在于内存而非计算,这种权衡通常是有利的。

研究团队还发现了一个有趣的现象:即使是没有经过专门训练的模型,在分段思考环境中也能表现出合理的行为。这暗示着当前的大型语言模型可能已经在训练数据中隐式学习了某种形式的分段推理能力。毕竟,人类产生的文本本身就具有分段结构,模型可能在无意中学会了这种推理模式。

另一个可能的解释是注意力机制的局限性。虽然理论上注意力可以关注任意位置的信息,但实际上模型往往更关注近期的内容。Delethink方法通过强制重置,反而可能帮助模型更好地关注当前最相关的信息,避免被过多的历史细节分散注意力。

十、技术挑战与解决方案

尽管Delethink方法展现出了巨大的潜力,但在实际实现过程中也面临着不少技术挑战。最主要的挑战是如何设计有效的状态传递机制。状态载体必须足够紧凑以节省计算资源,同时又要包含足够的信息以维持推理的连贯性。

研究团队通过大量的消融实验来解决这个问题。他们测试了不同的载体大小(从1K到7K词汇不等),发现载体大小与思考块大小的比例对性能有重要影响。过小的载体导致信息丢失,过大的载体则失去了效率优势。最终,他们确定了C/2的比例(即载体大小为思考块大小的一半)作为最佳配置。

另一个挑战是训练的稳定性。分段推理的训练比传统方法更复杂,因为奖励信号需要在多个片段之间传播。研究团队采用了几种策略来确保训练稳定:首先是小心调节超参数,特别是PPO的剪切比例。其次是使用截断重要性采样来减少训练和推理时的分布差异。最后是监控训练过程中的熵值变化,及时发现并纠正潜在的不稳定。

技术实现方面,研究团队还需要解决KV缓存管理的问题。在传统方法中,KV缓存可以在整个序列生成过程中复用。但在Delethink中,每个思考块的边界都需要清空缓存并重新编码载体信息。虽然这会带来一些额外的计算开销,但由于每个块的长度有限,这种开销是可以接受的。

十一、未来展望:百万词汇推理的可能性

Delethink方法的成功为AI推理能力的进一步发展开辟了新的道路。最令人兴奋的可能性是扩展到百万词汇级别的超长推理。传统方法在这种规模下将面临难以克服的计算和内存挑战,但Delethink的线性扩展特性使这种可能性变得现实可行。

这种超长推理能力可能会带来质的突破。许多复杂的科学问题、工程设计、创意写作等任务都需要长期的深度思考。如果AI模型能够进行百万词汇级别的推理,它们可能能够处理当前看似不可能的复杂挑战,比如设计新的药物分子、解决复杂的数学猜想、或者创作长篇小说。

研究团队还指出,Delethink方法与新兴的线性注意力架构具有天然的兼容性。Mamba、线性注意力等新架构本身就具有线性的计算复杂度,如果与Delethink结合,可能实现更大的效率提升。这种组合将推理的"内在复杂度"(架构级别)和"外在复杂度"(环境级别)都降到了线性,有望实现真正高效的大规模推理。

另一个有趣的方向是个性化的思考模式。不同的任务可能需要不同的分段策略,比如数学问题可能适合较短的块以保持逻辑严密性,而创意写作可能适合较长的块以保持思路的连贯性。未来的系统可能会根据任务类型自动调整分段参数,实现真正的自适应推理。

十二、对AI发展的深远影响

Delethink方法的意义远超其技术细节,它代表了AI发展思路的一次重要转变。过去,人们往往认为更大的模型、更多的数据、更强的计算力是提升AI能力的唯一途径。但这项研究表明,巧妙的方法设计有时比蛮力扩展更有效。

这种思路转变可能会影响整个AI领域的发展方向。研究者们可能会更多地关注如何优化学习环境、如何设计更好的训练范式,而不仅仅是追求更大的模型规模。这对于资源有限的研究机构和公司来说是个好消息,因为它证明了创新思维的价值超越了纯粹的计算资源优势。

从产业应用的角度来看,Delethink方法降低了部署高性能推理系统的门槛。企业不再需要配置昂贵的大型GPU集群来运行需要复杂推理的AI应用,相对较小的硬件配置就能实现令人满意的性能。这可能会加速AI技术在各行各业的普及应用。

更重要的是,这项研究为人工智能向人类智能的进一步靠拢提供了新的思路。人类的思维本身就是分段、分层的,我们在解决复杂问题时会自然地将其分解为更小的子问题。Delethink方法在某种程度上模拟了这种认知过程,这可能为开发更加类人的AI系统提供了有价值的启示。

总的来说,Delethink不仅是一个技术突破,更是一次思维方式的革新。它告诉我们,在追求AI能力提升的道路上,有时候改变游戏规则比在现有规则内竞争更有效。这种创新精神和方法论思维,可能是AI领域未来发展的重要驱动力。通过这种"分段思考"的方式,我们或许能够开发出既高效又强大的AI系统,真正实现人工智能的普惠化应用。

研究团队的工作证明了一个重要观点:智能不仅在于能够获取和处理大量信息,更在于能够提炼出关键信息并有效地利用它们。这种洞察可能会指导未来AI系统的设计,帮助我们构建更加智能、高效的人工智能助手,让它们能够真正理解和解决人类面临的复杂问题。

Q&A

Q1:Delethink方法是什么?它如何让AI模型思考得更高效?

A:Delethink是一种全新的AI训练方法,它模仿人类分段思考的方式。传统AI模型在思考时必须记住所有之前的内容,就像背诵整本教科书。而Delethink让AI将长篇推理分解成多个固定长度的"思考块",每个块结束时只保留最重要的信息摘要,然后清空其他内容开始新的思考。这样既节省了计算资源,又提高了推理效率。

Q2:为什么小参数的模型用Delethink训练后能击败大模型?

A:这主要是因为Delethink教会了模型如何高效思考。就像一个聪明的学生用简洁的草稿纸就能解出难题,而另一个学生却需要写满厚厚的笔记本。大模型虽然参数多,但如果思考方式低效,反而会被过多无关信息拖累。Delethink训练的小模型学会了抓住问题核心,每一步推理都直指关键,因此能以更少的资源达到更好的效果。

Q3:Delethink方法在实际应用中有什么优势?成本能降低多少?

A:Delethink的最大优势是大幅降低计算成本和内存需求。研究显示,处理相同复杂度的问题时,Delethink的训练成本只有传统方法的四分之一左右。具体来说,当推理长度达到94K词汇时,传统方法需要27个H100-月的计算资源,而Delethink只需要7个H100-月。更重要的是,这种方法的内存使用量始终保持恒定,意味着即使配置较低的硬件也能运行复杂的AI推理任务。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女星直播带货收20万酬劳 3个月卖不到300被起诉

扒圈818 浏览 15535

宝能前员工:之前姚老板在地库被堵过 大家不知道而已

南方都市报 浏览 111336

热巴亮相活动大秀美背 太惊艳了

萌神木木 浏览 16526

已故主持人李咏女儿签约经纪公司 以演员身份出道

潇湘晨报 浏览 83374

莫斯科大学突破:普通照片实现房间结构与物品识别

科技行者 浏览 680

环球:中国实施稀土出口管制 美方没必要过度反应

环球网资讯 浏览 4218

西方媒体称卢卡申科访华为疏远俄罗斯 向中国求助

新民晚报 浏览 15932

二手房直降百万挂牌 广州楼市怎么了?

每日经济新闻 浏览 11985

杨振宁和她的53年婚姻,是这样的

Yuki女人故事 浏览 690

双11|| 今年我只想回购这些!

黎贝卡的异想世界 浏览 720

前妻许婧晒外籍丈夫后,陈赫终于高调秀恩爱

阿废冷眼观察所 浏览 863

星空有约|冬夜焰火!双子座流星雨即将迎来极大

新华社 浏览 97

记者:认为奥蓬达价值不止3000万欧,朗斯准备推迟与莱比锡接触

直播吧 浏览 16905

德云社董事长王惠凌晨发文,郭汾阳长大,触景生情

动物奇奇怪怪 浏览 715

美业数字化再添新助力 成都美博会AI美业工具受追捧丨新经济观察

封面新闻 浏览 658

baby晒照温柔甜美似初恋 陪小海绵被赞好妈妈

深剖娱乐圈 浏览 13567

俄军为堵漏洞合并防空指挥权 俄专家意见不一

环球网资讯 浏览 13846

宗馥莉将独立经营“娃小宗” 名下仍关联超200家企业

21世纪经济报道 浏览 4154

赵露思一字肩造型盘点 衬托肩颈线条好优雅

一只可可 浏览 13511

赵本山终于松口 说出突然退春晚原因

扒圈818 浏览 15298

尼克斯129-101送黄蜂7连败,布伦森33分,哈特22+8+7

懂球帝 浏览 272
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1