谷歌升级机器人模型,AI不止“会说话”,还“能做事”

9月26日,谷歌DeepMind发布了Gemini Robotics 1.5系列机器人模型。
有分析称,这一模型的出现,标志着AI从“会说话”迈向“会做事”的关键转折。Gemini Robotics 1.5的核心,是谷歌最新的Gemin i1.5Pro大模型,具备多模态感知能力,能同时处理语音、图像和文本信息。它不仅能看懂,还能听懂,更能动手。
谷歌新模型究竟是怎样的一款产品?又将多大限度上改变当下AI的格局呢?
参数升级,能力全面进化
Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型(视觉语言模型) ,能对物理世界进行推理,更像是机器人的大脑。
Gemini Robotics 1.5的技术基础来自Gemini 1.5 Pro大模型。它支持语音驱动任务执行,具备环境感知与自主决策能力,响应速度达到秒级,动作协调性显著提升。用户只需发出一句口令,比如“请把塑料瓶扔进可回收垃圾桶”,机器人就能识别物体、判断属性、完成动作。在演示中,它不仅识别出塑料瓶,还能判断是否干净、是否可回收,并准确投放到指定垃圾桶。这种“理解+执行”的能力,背后是谷歌在多模态融合、强化学习和大模型微调上的深度积累。
训练所用的机器人数据集是多本体(multi-embodiment)的,涵盖了数千个多样化任务,从抓取与操控,到双臂协作,再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台。当接到“帮我收拾桌子”的指令时,模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。
这些都让Gemini Robotics 1.5能够执行很多物理动作。
因此,Gemini Robotics 1.5的未来应用场景就更加广泛了。在家庭中,它可以自动分类整理物品、协助老人完成日常任务;在仓储物流中,它能识别货物、搬运物品、优化路径规划;在医疗辅助方面,它可协助护理人员完成基础护理任务,如递送药品、整理床铺;在教育陪伴场景中,它能作为互动式教学助手,辅助儿童学习、参与游戏。这些应用不仅展示了模型的技术能力,也体现了其对现实世界的适应性和实用性。
AI迈入物理世界
未来,随着模型能力的进一步增强,我们或将看到机器人自主学习新技能、多个机器人协同完成复杂任务、甚至构建人机共生环境。这不仅是技术的演进,更是社会结构的重塑。Gemini Robotics 1.5正在为AI智能体的黄金时代奠定基础。
Gemini Robotics 1.5不是一个孤立的产品,而是AI发展史上的一个里程碑。它让我们看到,智能体不再只是“会说话”,而是“能做事”。从理解到执行,从虚拟到现实,AI正在用自己的方式参与世界的构建。未来已来,只是尚未平均分布。而Gemini Robotics 1.5,正是这场分布的起点。