谷歌Gemini 3 重磅发布:全方位碾压GPT-5.1,Gro k 4.1和Claude

     分类 [Ai资讯]
2025/11/19 11:34:56 浏览量  187 喜欢  4
导读:Google 正式推出了 Gemini 3,称其为公司迄今为止最智能的模型。

谷歌Gemini 3 重磅发布:全方位碾压GPT-5.1,Gro k 4.1和Claude

 

Google 正式推出了 Gemini 3,称其为公司迄今为止最智能的模型。首席执行官 Sundar Pichai 和 Google DeepMind 负责人表示,新系列旨在推动 逻辑推理多模态理解 和 Agent(智能体)能力 的发展。

Gemini 3 Pro 目前已推出预览版,并将逐步推广至 Google 的全线产品中,包括 Gemini AppAI StudioVertex AI 以及 Google 搜索的 AI 模式。这是新一代 Gemini 模型首次在发布当天就可用于搜索。Google 表示,Gemini 3 提供了更强的语境理解和更细致入微的响应。它的回答力求智能、简洁、直截了当,避免使用陈词滥调和奉承之词,转而提供真知灼见


 

强大的推理能力将 Gemini 3 推向新的基准高点

 

Google 通过一系列基准测试结果,突显了 Gemini 3 Pro 的卓越性能。据报道,它以 1501 的 Elo 分数领跑 LMArena 排名。在测试如“人类终极考试”(Humanity's Last Exam)等博士级推理测试中,Gemini 3 Pro 在不使用工具的情况下达到了 37.5%,在 GPQA Diamond 上达到了 91.9%。这使其超越了 xAI 最近发布的 Grok 4.1。该模型在数学领域也取得了强劲的分数,在 MathArena Apex 上为 23.4%;在多模态理解方面,其在 MMMU-Pro 上达到了 81%。下图是Gemini 3在不同基准上的得分:

谷歌Gemini 3 重磅发布:全方位碾压GPT-5.1,Gro k 4.1和Claude

 

根据官方模型卡,Gemini 3 Pro 建立在稀疏混合专家 (sparse mixture-of-experts) Transformer 架构之上。Google 使用了大规模多模态数据集对其进行训练,这些数据包括公开的网络文档、授权数据、合成 AI 数据以及来自 Google 产品和服务的用户数据。该模型的知识截止日期是 2025 年 1 月


 

多模态性能成为 Gemini 3 的核心优势

 

Gemini 3 的显著特征之一是其原生多模态能力,使其能够处理文本、图像、视频和音频。Google 报告称其在 MMMU-Pro 上取得了 81%,在 Video-MMMU 上取得了 87.6% 的顶级成绩。该模型的优势在界面理解方面表现得尤为明显。在 ScreenSpot-Pro 基准测试(用于测试模型定位屏幕元素的能力)中,Gemini 3 Pro 获得了 72.7% 的分数。这使其超越了先前的领导者 Holo2(66.1%),尽管 Holo2 是专为 UI 导航而构建的。它也远远优于竞争对手,如 Claude 4.5 Sonnet(36.2%)和 GPT-5.1(3.5%),相对于 Gemini 2.5 Pro 的 11.4% 实现了重大飞跃。

Google 表示,这些能力开辟了实际应用,例如分析体育录像以改进技术,或生成用于高级可视化的代码。在搜索的 AI 模式中,Gemini 3 可以生成全新的沉浸式视觉布局。而在 Chrome 浏览器中,该模型有望成为一个更可靠的浏览器 Agent


 

Deep Think 与 Antigravity 平台

 

与 Gemini 3 Pro 同时发布的还有 Deep Think 模式,专为更困难的推理任务而设计。在测试中,Deep Think 超越了标准模型本已强劲的结果,在“人类终极考试”中达到 41.0%,在 ARC-AGI-2 基准测试中达到 45.1%。Google 表示,Deep Think 将首先向安全测试人员开放,然后推广给 Google AI Ultra 订阅用户。下图是在这三个基准上的得分:

谷歌Gemini 3 重磅发布:全方位碾压GPT-5.1,Gro k 4.1和Claude

 

针对开发者,Google 推出了 Google Antigravity,这是一个以 Agent 为中心的新型开发平台。其目标是将 AI 从一个被动助手转变为 Google 所称的主动合作伙伴。Agent 可以直接访问编辑器、终端和浏览器,并能够自主规划、执行和验证复杂的软件任务。


 

早期分析表明 Gemini 3 领先于模型竞争

 

独立评估似乎支持了 Google 的说法。获得 Gemini 3 Pro 早期访问权限的分析公司 Artificial Analysis 表示,该模型目前领跑市场,并在其“Artificial Analysis 智能指数”上的得分比 GPT-5.1 高出三分。下图是“Artificial Analysis 智能指数”排行榜:

谷歌Gemini 3 重磅发布:全方位碾压GPT-5.1,Gro k 4.1和Claude

 

该团队在 X 上报告称,该模型在十个核心基准中的五个上位居第一,包括 GPQA DiamondMMLU-Pro 和 HLE。他们表示,Gemini 3 Pro 在编码任务、Agent 任务和多模态推理方面特别强大,并在 MMMU-Pro 上取得了最高分。Artificial Analysis 还指出,该模型在衡量知识和幻觉的 AA-Omniscience 基准上的结果表明其模型规模相对较大,与 Anthropic 的 Opus 4.1 相似。


 

性能提升伴随着更高的运营成本

 

Artificial Analysis 表示,Gemini 3 Pro 的顶级性能也带来了更高的成本。对于低于 200,000 token 的上下文,定价为每百万输入 token 2 美元,每百万输出 token 12 美元。这比 Gemini 2.5 Pro(输入 1.25 美元,输出 10 美元)和定价相同的 GPT-5.1 更贵。

不过,Google 对 Gemini 3 Pro 的定价仍低于其他高端模型,例如 Claude 4.5 Sonnet(输入 3 美元,输出 15 美元)和 Grok 4.1(输入 3 美元,输出 15 美元)。它也比最昂贵的选项便宜得多,包括 Claude 4.1 Opus(输入 15 美元,输出 75 美元)和 GPT-5 Pro(输入 15 美元,输出 120 美元)。

对于超过 200,000 token 的更大上下文,Gemini 3 Pro 的输入价格跃升至 4 美元,输出价格跃升至 18 美元。预计 Deep Think 的成本会更高。

该模型的 token 效率 高于 Gemini 2.5 Pro,但更高的费率仍然使得运行 Artificial Analysis 基准指数的成本比旧模型增加了 12%。分析师指出,Gemini 3 Pro 通过速度进行弥补,每秒可生成多达 128 个输出 token,这比 GPT-5.1 等模型更快。

可靠性分析显示出喜忧参半的局面。Gemini 3 Pro 在知识测试中达到了 88% 的准确率,是报告的最高分数之一,但 Artificial Analysis 也观察到其幻觉率高于竞争对手模型。Google 在模型卡中没有给出具体的幻觉指标,仅将其描述为基础模型的一个已知限制

感谢阅读,您的分享和订阅是对我最大的鼓励和支持:

 

微信扫一扫,分享到朋友圈

微信公众号
 苹果iOS虚拟币充值(抖音钻石、快币、薯币、比心币、他趣币、陌陌币充值)

相关推荐