告别“数据暴食”，AI Agent迎来“中训练”时代

2025-10-14 作者: 预见大模型 AI技术顶级公司推理时代 #推理时代 #顶级公司 #AI技术

原文链接： https://www.yjnt111.top/article/741

一、AI的第三次训练革命，正在悄悄开始

过去几年，人工智能的故事我们早已熟悉：从GPT的狂飙到Sora的视频生成，竞技场始终是“更大的模型”与“更猛的算力”。

然而，当参数的堆砌触及边际收益的瓶颈，2025年的AI竞赛迎来了它的价值回归点：从技术驱动走向应用驱动。行业的焦点，正从榜单上的分数，转向解决实际问题的能力——一个能独立思考和执行复杂任务的通用智能体。

10月，Meta发布了一篇题为《Agent Learning via Early Experience》的论文，提出一个新概念：中训练（in-training） 。

这个名字听起来不起眼，却可能是AI训练史上的第三次革命。

第一次革命，是预训练 ——让AI掌握语言、知识与逻辑；

第二次，是RLHF（人类反馈强化学习） ——让AI学会理解人类偏好；

而第三次革命，就是这次的“中训练” ——让AI从自己的错误中学习 。

这听起来像一句玩笑，但意义非凡。

过去的AI像是“好学生”，等人喂数据、看标准答案；

而中训练的AI，更像一个“野孩子”，它会主动去试、去犯错、去总结。

AI第一次拥有了“经验”，而不是仅仅“知识”。

这意味着，AI的学习方式从“人教AI”变成了“AI自学”，

从“靠数据堆叠”变成“靠世界反馈”。

这是智能进化的分水岭，也是产业格局被重写的起点。

二、AI喂养的尽头：人类训练太贵，AI成长太慢

AI行业其实早就到了“养不起”的阶段。

训练一个大模型，要几千张GPU、几万个标注工人、一整套调优机制。

表面上大家在拼技术，实则是在拼算力与预算。

目前主流的两种“喂养”方式，都遇到了天花板：

第一种叫监督微调（SFT） ，

就像让AI去模仿人类专家的操作。

问题是——好老师太贵。

想教AI开网页、订机票、写代码，就得有大量人类演示数据。

但这种“模仿式学习”有一个致命缺陷：AI永远不知道“为什么”，

它知道“怎么做”，却不知道“不这么做会怎样”。

所以，一旦环境稍有变化，它就容易崩溃。

第二种是强化学习（RL） ，

听起来很酷，AI在环境中不断试错，通过“奖励”学习。

但问题在于：现实世界没有那么多奖励信号。

比如让AI学会“正确订机票”，它得试上千次才能获得一次“成功”的奖励。

这种训练成本高、周期长、效率低。

结果就是：模仿学习不够强，强化学习太昂贵 ——AI 的进步被卡在反馈机制的瓶颈上

三、Meta的新思路：让AI自己犯错、自己反思

Meta提出的“中训练”方法，正是为了解决这个反馈困局。

它的逻辑非常人性化：

既然专家太贵，奖励太稀缺——那就让AI靠自己的“经验”成长。

研究团队设计了两种策略：

隐式世界建模（Implicit World Modeling） 和 自我反思（Self Reflection） 。

简单理解：

前者是让AI学会预测“如果我这样做，世界会怎样变化”；

后者是让AI学会解释“为什么专家的做法比我的更好”。

比如，AI要学“订机票”任务。

传统做法只给它看成功案例；

而中训练让它自己去点错日期、填错证件号，然后观察报错信息、页面跳转等。

这些反应，就是最真实的世界反馈。

它不再等人告诉答案，而是通过行动感知环境——这就是“经验学习”。

更神奇的是，当AI自己复盘时，它会生成反思语句，比如：

“虽然红衬衫更好看，但价格超预算；蓝衬衫在预算内，更符合目标。”

这一过程让AI第一次形成了“因果理解”，

也就是，它终于明白“为什么这么做更好”。

四、“中训练”机制的实验与结果

Meta在论文中设计了两类核心机制，用以验证“中训练”的可行性：

隐式世界建模（Implicit World Modeling, IWM） 与 自我反思（Self Reflection, SR） 。

（1）隐式世界建模（IWM）

研究者让Agent在专家行为轨迹的基础上，自行生成多种不同动作，并记录每个动作导致的真实环境反馈。

随后，模型学习去预测“当前状态+动作”对应的“未来状态”。

这个过程不依赖奖励信号，仅通过环境变化来获得监督信号。

换句话说，AI通过反复“试—错—观察”来构建自己的世界理解。

（2）自我反思（SR）

该方法让Agent同时比较“专家动作”与“自我生成动作”的结果。

系统利用大语言模型生成详细解释，说明专家行为为何更优。

然后让Agent在训练中学习这种反思逻辑，即“先推理—再决策”。

例如，在购物任务中，专家选择价格合适的蓝衬衫，AI选择超预算的红衬衫。

模型的反思语句为：“虽然红衬衫更符合颜色偏好，但超出了预算，蓝衬衫满足约束条件。”

这让Agent学会综合考虑目标、约束与效率。

（3）实验结果

论文在八个不同环境下进行测试，涵盖网页交互、工具使用、导航、长程规划等任务。

结果显示：

成功率比传统模仿学习提高 9.6% ；

在未见过任务上的泛化性能提升 9.4% ；

在强化学习初始化阶段的最终表现提升最多 6.4% 。

这些数据表明，“中训练”确实能在缺乏奖励的情况下，让Agent获得更丰富、更稳定的学习信号。

五、“中训练”的意义：连接模仿与强化

论文提出，“中训练”可被视作一种介于模仿学习与强化学习之间的桥梁 。

传统模仿学习只让模型模仿专家，而强化学习依赖奖励信号。

“中训练”则通过让Agent利用自身行动导致的状态变化来学习，既无需人工标注，也不必等待奖励。

这种方式使Agent能够在训练早期便积累“世界经验”，

为后续强化学习阶段提供更好的起点。

研究者认为，这种三阶段训练框架——

预训练 → 中训练 → 后训练，将成为通用智能体训练的主流路径之一。

六、参数效率与Scaling Law

Meta论文还观察到一个额外现象：

经过“早期经验”训练的小模型，其性能在某些任务上竟然超过了十倍参数量的模型。

这暗示出一种新的Scaling Law：

模型能力不再仅依赖参数数量，也依赖推理深度与经验积累。

传统Scaling Law强调“更大模型=更高能力”，

而“中训练”展示出“更高利用率=更高能力”的趋势。

模型通过自我递归和反思，使更多参数参与决策过程，从而提高“参数效率”。

这意味着未来AI优化方向，可能从“增加算力”转向“提升经验利用率”。

结论

Meta的研究在技术层面揭示了一个重要方向：

让AI像人一样，从自身行动的结果中学习世界规律。

“中训练”不依赖人工数据或奖励机制，却能持续增强模型的泛化与稳健性。

它既不是新的算法，也不是训练技巧，而是一种更接近“认知演化”的学习方式。

如果说预训练让AI“知道”，RLHF让AI“懂人”，那么“中训练”，正让AI第一次“理解世界”。