预见

告别“数据暴食”,AI Agent迎来“中训练”时代

原文链接: https://www.yjnt111.top/article/741

一、AI的第三次训练革命,正在悄悄开始

过去几年,人工智能的故事我们早已熟悉:从GPT的狂飙到Sora的视频生成,竞技场始终是“更大的模型”与“更猛的算力”。

然而,当参数的堆砌触及边际收益的瓶颈,2025年的AI竞赛迎来了它的价值回归点:从技术驱动走向应用驱动。行业的焦点,正从榜单上的分数,转向解决实际问题的能力——一个能独立思考和执行复杂任务的通用智能体。

10月,Meta发布了一篇题为《Agent Learning via Early Experience》的论文,提出一个新概念:中训练(in-training)

这个名字听起来不起眼,却可能是AI训练史上的第三次革命。

第一次革命,是预训练 ——让AI掌握语言、知识与逻辑;

第二次,是RLHF(人类反馈强化学习) ——让AI学会理解人类偏好;

而第三次革命,就是这次的“中训练” ——让AI从自己的错误中学习

这听起来像一句玩笑,但意义非凡。

过去的AI像是“好学生”,等人喂数据、看标准答案;

而中训练的AI,更像一个“野孩子”,它会主动去试、去犯错、去总结。

AI第一次拥有了“经验”,而不是仅仅“知识”。

这意味着,AI的学习方式从“人教AI”变成了“AI自学”,

从“靠数据堆叠”变成“靠世界反馈”。

这是智能进化的分水岭,也是产业格局被重写的起点。

二、AI喂养的尽头:人类训练太贵,AI成长太慢

AI行业其实早就到了“养不起”的阶段。

训练一个大模型,要几千张GPU、几万个标注工人、一整套调优机制。

表面上大家在拼技术,实则是在拼算力与预算。

目前主流的两种“喂养”方式,都遇到了天花板:

第一种叫监督微调(SFT)

就像让AI去模仿人类专家的操作。

问题是——好老师太贵。

想教AI开网页、订机票、写代码,就得有大量人类演示数据。

但这种“模仿式学习”有一个致命缺陷:AI永远不知道“为什么”,

它知道“怎么做”,却不知道“不这么做会怎样”。

所以,一旦环境稍有变化,它就容易崩溃。

第二种是强化学习(RL)

听起来很酷,AI在环境中不断试错,通过“奖励”学习。

但问题在于:现实世界没有那么多奖励信号。

比如让AI学会“正确订机票”,它得试上千次才能获得一次“成功”的奖励。

这种训练成本高、周期长、效率低。

结果就是:模仿学习不够强,强化学习太昂贵 ——AI 的进步被卡在反馈机制的瓶颈上

三、Meta的新思路:让AI自己犯错、自己反思

Meta提出的“中训练”方法,正是为了解决这个反馈困局。

它的逻辑非常人性化:

既然专家太贵,奖励太稀缺——那就让AI靠自己的“经验”成长。

研究团队设计了两种策略:

隐式世界建模(Implicit World Modeling)  和 自我反思(Self Reflection)

简单理解:

前者是让AI学会预测“如果我这样做,世界会怎样变化”;

后者是让AI学会解释“为什么专家的做法比我的更好”。

比如,AI要学“订机票”任务。

传统做法只给它看成功案例;

而中训练让它自己去点错日期、填错证件号,然后观察报错信息、页面跳转等。

这些反应,就是最真实的世界反馈。

它不再等人告诉答案,而是通过行动感知环境——这就是“经验学习”。

更神奇的是,当AI自己复盘时,它会生成反思语句,比如:

“虽然红衬衫更好看,但价格超预算;蓝衬衫在预算内,更符合目标。”

这一过程让AI第一次形成了“因果理解”,

也就是,它终于明白“为什么这么做更好”。

四、“中训练”机制的实验与结果

Meta在论文中设计了两类核心机制,用以验证“中训练”的可行性:

隐式世界建模(Implicit World Modeling, IWM)  与 自我反思(Self Reflection, SR)

(1)隐式世界建模(IWM)

研究者让Agent在专家行为轨迹的基础上,自行生成多种不同动作,并记录每个动作导致的真实环境反馈。

随后,模型学习去预测“当前状态+动作”对应的“未来状态”。

这个过程不依赖奖励信号,仅通过环境变化来获得监督信号。

换句话说,AI通过反复“试—错—观察”来构建自己的世界理解。

(2)自我反思(SR)

该方法让Agent同时比较“专家动作”与“自我生成动作”的结果。

系统利用大语言模型生成详细解释,说明专家行为为何更优。

然后让Agent在训练中学习这种反思逻辑,即“先推理—再决策”。

例如,在购物任务中,专家选择价格合适的蓝衬衫,AI选择超预算的红衬衫。

模型的反思语句为:“虽然红衬衫更符合颜色偏好,但超出了预算,蓝衬衫满足约束条件。”

这让Agent学会综合考虑目标、约束与效率。

(3)实验结果

论文在八个不同环境下进行测试,涵盖网页交互、工具使用、导航、长程规划等任务。

结果显示:

成功率比传统模仿学习提高 9.6%

在未见过任务上的泛化性能提升 9.4%

在强化学习初始化阶段的最终表现提升最多 6.4%

这些数据表明,“中训练”确实能在缺乏奖励的情况下,让Agent获得更丰富、更稳定的学习信号。

五、“中训练”的意义:连接模仿与强化

论文提出,“中训练”可被视作一种介于模仿学习与强化学习之间的桥梁

传统模仿学习只让模型模仿专家,而强化学习依赖奖励信号。

“中训练”则通过让Agent利用自身行动导致的状态变化来学习,既无需人工标注,也不必等待奖励。

这种方式使Agent能够在训练早期便积累“世界经验”,

为后续强化学习阶段提供更好的起点。

研究者认为,这种三阶段训练框架——

预训练 → 中训练 → 后训练,将成为通用智能体训练的主流路径之一。

六、参数效率与Scaling Law

Meta论文还观察到一个额外现象:

经过“早期经验”训练的小模型,其性能在某些任务上竟然超过了十倍参数量的模型。

这暗示出一种新的Scaling Law:

模型能力不再仅依赖参数数量,也依赖推理深度与经验积累。

传统Scaling Law强调“更大模型=更高能力”,

而“中训练”展示出“更高利用率=更高能力”的趋势。

模型通过自我递归和反思,使更多参数参与决策过程,从而提高“参数效率”。

这意味着未来AI优化方向,可能从“增加算力”转向“提升经验利用率”。

结论

Meta的研究在技术层面揭示了一个重要方向:

让AI像人一样,从自身行动的结果中学习世界规律。

“中训练”不依赖人工数据或奖励机制,却能持续增强模型的泛化与稳健性。

它既不是新的算法,也不是训练技巧,而是一种更接近“认知演化”的学习方式。

如果说预训练让AI“知道”,RLHF让AI“懂人”,那么“中训练”,正让AI第一次“理解世界”。

© 2025 AI资讯 - 用冷静的智慧预见下一个未知

京ICP备2025144713号-1

主体备案单位:北京预见花开网络科技有限公司