谷歌升级机器人模型，AI不止“会说话”，还“能做事”

2025-09-26 作者: 预见大模型 AI技术顶级公司推理时代 #推理时代 #顶级公司 #AI技术

原文链接： https://www.yjnt111.top/article/617

9月26日，谷歌DeepMind发布了Gemini Robotics 1.5系列机器人模型。

有分析称，这一模型的出现，标志着AI从“会说话”迈向“会做事”的关键转折。Gemini Robotics 1.5的核心，是谷歌最新的Gemin i1.5Pro大模型，具备多模态感知能力，能同时处理语音、图像和文本信息。它不仅能看懂，还能听懂，更能动手。

谷歌新模型究竟是怎样的一款产品？又将多大限度上改变当下AI的格局呢？

参数升级，能力全面进化

Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型（视觉语言模型） ，能对物理世界进行推理，更像是机器人的大脑。

Gemini Robotics 1.5的技术基础来自Gemini 1.5 Pro大模型。它支持语音驱动任务执行，具备环境感知与自主决策能力，响应速度达到秒级，动作协调性显著提升。用户只需发出一句口令，比如“请把塑料瓶扔进可回收垃圾桶”，机器人就能识别物体、判断属性、完成动作。在演示中，它不仅识别出塑料瓶，还能判断是否干净、是否可回收，并准确投放到指定垃圾桶。这种“理解+执行”的能力，背后是谷歌在多模态融合、强化学习和大模型微调上的深度积累。

训练所用的机器人数据集是多本体（multi-embodiment）的，涵盖了数千个多样化任务，从抓取与操控，到双臂协作，再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台。当接到“帮我收拾桌子”的指令时，模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。

这些都让Gemini Robotics 1.5能够执行很多物理动作。

因此，Gemini Robotics 1.5的未来应用场景就更加广泛了。在家庭中，它可以自动分类整理物品、协助老人完成日常任务；在仓储物流中，它能识别货物、搬运物品、优化路径规划；在医疗辅助方面，它可协助护理人员完成基础护理任务，如递送药品、整理床铺；在教育陪伴场景中，它能作为互动式教学助手，辅助儿童学习、参与游戏。这些应用不仅展示了模型的技术能力，也体现了其对现实世界的适应性和实用性。

AI迈入物理世界

未来，随着模型能力的进一步增强，我们或将看到机器人自主学习新技能、多个机器人协同完成复杂任务、甚至构建人机共生环境。这不仅是技术的演进，更是社会结构的重塑。Gemini Robotics 1.5正在为AI智能体的黄金时代奠定基础。

Gemini Robotics 1.5不是一个孤立的产品，而是AI发展史上的一个里程碑。它让我们看到，智能体不再只是“会说话”，而是“能做事”。从理解到执行，从虚拟到现实，AI正在用自己的方式参与世界的构建。未来已来，只是尚未平均分布。而Gemini Robotics 1.5，正是这场分布的起点。