告别“数据暴食”,AI Agent迎来“中训练”时代
一、AI的第三次训练革命,正在悄悄开始
过去几年,人工智能的故事我们早已熟悉:从GPT的狂飙到Sora的视频生成,竞技场始终是“更大的模型”与“更猛的算力”。
然而,当参数的堆砌触及边际收益的瓶颈,2025年的AI竞赛迎来了它的价值回归点:从技术驱动走向应用驱动。行业的焦点,正从榜单上的分数,转向解决实际问题的能力——一个能独立思考和执行复杂任务的通用智能体。
10月,Meta发布了一篇题为《Agent Learning via Early Experience》的论文,提出一个新概念:中训练(in-training) 。
这个名字听起来不起眼,却可能是AI训练史上的第三次革命。
第一次革命,是预训练 ——让AI掌握语言、知识与逻辑;
第二次,是RLHF(人类反馈强化学习) ——让AI学会理解人类偏好;
而第三次革命,就是这次的“中训练” ——让AI从自己的错误中学习 。
这听起来像一句玩笑,但意义非凡。
过去的AI像是“好学生”,等人喂数据、看标准答案;
而中训练的AI,更像一个“野孩子”,它会主动去试、去犯错、去总结。
AI第一次拥有了“经验”,而不是仅仅“知识”。
这意味着,AI的学习方式从“人教AI”变成了“AI自学”,
从“靠数据堆叠”变成“靠世界反馈”。
这是智能进化的分水岭,也是产业格局被重写的起点。
二、AI喂养的尽头:人类训练太贵,AI成长太慢
AI行业其实早就到了“养不起”的阶段。
训练一个大模型,要几千张GPU、几万个标注工人、一整套调优机制。
表面上大家在拼技术,实则是在拼算力与预算。
目前主流的两种“喂养”方式,都遇到了天花板:
第一种叫监督微调(SFT) ,
就像让AI去模仿人类专家的操作。
问题是——好老师太贵。
想教AI开网页、订机票、写代码,就得有大量人类演示数据。
但这种“模仿式学习”有一个致命缺陷:AI永远不知道“为什么”,
它知道“怎么做”,却不知道“不这么做会怎样”。
所以,一旦环境稍有变化,它就容易崩溃。
第二种是强化学习(RL) ,
听起来很酷,AI在环境中不断试错,通过“奖励”学习。
但问题在于:现实世界没有那么多奖励信号。
比如让AI学会“正确订机票”,它得试上千次才能获得一次“成功”的奖励。
这种训练成本高、周期长、效率低。
结果就是:模仿学习不够强,强化学习太昂贵 ——AI 的进步被卡在反馈机制的瓶颈上
三、Meta的新思路:让AI自己犯错、自己反思
Meta提出的“中训练”方法,正是为了解决这个反馈困局。
它的逻辑非常人性化:
既然专家太贵,奖励太稀缺——那就让AI靠自己的“经验”成长。
研究团队设计了两种策略:
隐式世界建模(Implicit World Modeling) 和 自我反思(Self Reflection) 。
简单理解:
前者是让AI学会预测“如果我这样做,世界会怎样变化”;
后者是让AI学会解释“为什么专家的做法比我的更好”。
比如,AI要学“订机票”任务。
传统做法只给它看成功案例;
而中训练让它自己去点错日期、填错证件号,然后观察报错信息、页面跳转等。
这些反应,就是最真实的世界反馈。
它不再等人告诉答案,而是通过行动感知环境——这就是“经验学习”。
更神奇的是,当AI自己复盘时,它会生成反思语句,比如:
“虽然红衬衫更好看,但价格超预算;蓝衬衫在预算内,更符合目标。”
这一过程让AI第一次形成了“因果理解”,
也就是,它终于明白“为什么这么做更好”。
四、“中训练”机制的实验与结果
Meta在论文中设计了两类核心机制,用以验证“中训练”的可行性:
隐式世界建模(Implicit World Modeling, IWM) 与 自我反思(Self Reflection, SR) 。
(1)隐式世界建模(IWM)
研究者让Agent在专家行为轨迹的基础上,自行生成多种不同动作,并记录每个动作导致的真实环境反馈。
随后,模型学习去预测“当前状态+动作”对应的“未来状态”。
这个过程不依赖奖励信号,仅通过环境变化来获得监督信号。
换句话说,AI通过反复“试—错—观察”来构建自己的世界理解。
(2)自我反思(SR)
该方法让Agent同时比较“专家动作”与“自我生成动作”的结果。
系统利用大语言模型生成详细解释,说明专家行为为何更优。
然后让Agent在训练中学习这种反思逻辑,即“先推理—再决策”。
例如,在购物任务中,专家选择价格合适的蓝衬衫,AI选择超预算的红衬衫。
模型的反思语句为:“虽然红衬衫更符合颜色偏好,但超出了预算,蓝衬衫满足约束条件。”
这让Agent学会综合考虑目标、约束与效率。
(3)实验结果
论文在八个不同环境下进行测试,涵盖网页交互、工具使用、导航、长程规划等任务。
结果显示:
成功率比传统模仿学习提高 9.6% ;
在未见过任务上的泛化性能提升 9.4% ;
在强化学习初始化阶段的最终表现提升最多 6.4% 。
这些数据表明,“中训练”确实能在缺乏奖励的情况下,让Agent获得更丰富、更稳定的学习信号。
五、“中训练”的意义:连接模仿与强化
论文提出,“中训练”可被视作一种介于模仿学习与强化学习之间的桥梁 。
传统模仿学习只让模型模仿专家,而强化学习依赖奖励信号。
“中训练”则通过让Agent利用自身行动导致的状态变化来学习,既无需人工标注,也不必等待奖励。
这种方式使Agent能够在训练早期便积累“世界经验”,
为后续强化学习阶段提供更好的起点。
研究者认为,这种三阶段训练框架——
预训练 → 中训练 → 后训练,将成为通用智能体训练的主流路径之一。
六、参数效率与Scaling Law
Meta论文还观察到一个额外现象:
经过“早期经验”训练的小模型,其性能在某些任务上竟然超过了十倍参数量的模型。
这暗示出一种新的Scaling Law:
模型能力不再仅依赖参数数量,也依赖推理深度与经验积累。
传统Scaling Law强调“更大模型=更高能力”,
而“中训练”展示出“更高利用率=更高能力”的趋势。
模型通过自我递归和反思,使更多参数参与决策过程,从而提高“参数效率”。
这意味着未来AI优化方向,可能从“增加算力”转向“提升经验利用率”。
结论
Meta的研究在技术层面揭示了一个重要方向:
让AI像人一样,从自身行动的结果中学习世界规律。
“中训练”不依赖人工数据或奖励机制,却能持续增强模型的泛化与稳健性。
它既不是新的算法,也不是训练技巧,而是一种更接近“认知演化”的学习方式。
如果说预训练让AI“知道”,RLHF让AI“懂人”,那么“中训练”,正让AI第一次“理解世界”。