双商在线，能力领先，马斯克的Grok 4.1全线霸榜

2025-11-18 作者: 预见大模型 AI技术顶级公司 #顶级公司 #AI技术

原文链接： https://www.yjnt111.top/article/1131

11月18日，xAI的Grok 4.1 正式上线，所有人都可以免费使用。

很快这款产品就被拿去盲测，而在LM Arena排行榜上，Grok 4.1 Thinking拿下了1483 Elo的成绩，在全球大模型中位列第一，且其情商也可以直追近期刚刚上线的GPT 5.1。

近期，GPT 5.1方才上线，Gemini 3.0也刚刚宣布年底发布，Grok抢在这个时间段出现，显然是看准了这个时间空档。那么Grok 4.1到底强在哪里，马斯克又希望通过这款产品达到自己怎样的目的呢？

Grok 4.1能力有哪些突破

盲测任务通常偏向开放式问题或非结构化信息的即时处理，模型需要在没有额外提示的前提下快速构建逻辑链，给出连贯回答，Grok 4.1能在盲测中获得好成绩，足见其能力。

这一事实意味着模型能够在未知任务中保持较稳定的逻辑表现，推理链条更容易形成连续结构。这类任务往往容易暴露模型“思考不稳”“回答跳跃”等弱点，而领先的表现说明其在这些方面更有优势。

在大模型竞技场新推出的专家榜和职业榜上，Grok 4.1思考模式同样霸榜。专家榜中的题目预计只有各自领域的顶尖专家才会提出，职业榜分为八个细分：软件和IT服务，写作、文学和语言，生命科学、物理科学和社会科学，娱乐、体育和媒体，商业、管理和财务运营，数学、法律与政府，医疗保健。

Grok 4.1目前只在文学榜上输给Gemini 2.5，数学榜输给Claude 4.5和o3，其他六个榜单均拿下第一。这些表现构成了它上线初期的能力轮廓，使其在多个维度被视为值得评估的对象。

除了理性思考，Grok 4.1在创意表达、情绪交流和协作互动上，表现也尤为出色。它能精准捕捉细微的意图，让对话更自然、更有温度。与此同时，Grok 4.1的整体人格更加一致，智能之外，也更加亲和了。

此外Grok 4.1还重点改善了幻觉问题。

配备搜索工具的非推理模型可以快速给出答案，但由于推理深度受限和工具调用预算有限，很容易出现事实错误。

在包含500个个人传记问题的FAct Score测试中，Grok 4.1非推理模式的成绩也比前一代有明显改善。

近几年行业更多讨论生态、工具链、接口与部署方案。但 Grok 4.1 的上线，让模型本体性能再次成为讨论中心。

Grok 4.1 的上线，为行业带来了一个新的讨论起点。它的表现尚不足以重塑市场，它的意义也并不在于“击败”谁，而在于为行业提供了一个强性能样本，使竞争的张力重新聚焦在模型本体能力上。在未来的模型演化中，这种张力将推动更多模型在“真实场景推理”上投入更多资源。