终于发了！DeepSeek发布并开源V3.1，迄今为止最强大的开放AI

AI资讯分类 [Ai资讯]

2025/8/22 14:45:23 浏览量 1960 喜欢 8

导读：DeepSeek憋了个大招！

DeepSeek宣布推出新一代开源大语言模型DeepSeek-V3.1，并将其权重和代码在GitHub等平台上开放。

这一模型延续了DeepSeek-V3的强大能力，并在多个关键方面进行了升级。

终于发了！DeepSeek发布并开源V3.1，迄今为止最强大的开放AI

01｜模型参数与架构

DeepSeek-V3.1采用了改进的Transformer架构，总参数规模达到约6850亿。

其中采用了Mixture-of-Experts（MoE）稀疏专家方案，每个token推理时激活约370亿参数。

值得一提的是，DeepSeek-V3.1取消了传统MoE所需的负载均衡损失，避免了额外开销。

同时引入多token预测训练目标，进一步增强模型性能。

在训练过程中，DeepSeek团队使用了FP8混合精度和自研的DualPipe流水线并行算法，在2048张NVIDIA H800 GPU上完成了14.8万亿token的预训练，整个过程稳定高效，没有出现不可恢复的损失激增。

终于发了！DeepSeek发布并开源V3.1，迄今为止最强大的开放AI

02｜上下?窗?扩展

DeepSeek-V3.1最大的改进在于上下文长度的显著扩展。

新版本将模型的上下文窗口提升到128K tokens（约相当于300页文本）。

这意味着模型在一次交互中可以处理和记忆远超以往的信息量，能够支持更长的对话和更大规模的文档分析。

为了实现超长上下文，DeepSeek采用了名为YaRN（Yet another Random Noise）的位置编码扩展方案。

通过在长上下文训练中引入随机噪声扰动，模型在保持长程依赖建模能力的同时，有效缓解了长序列训练的不稳定问题。

实际测试显示，DeepSeek-V3.1在不同长度上下文下表现稳健，即使输入长达128K tokens时依然能够准确定位关键信息。

03｜性能表现

凭借更大的参数规模和优化的训练策略，DeepSeek-V3.1在各项基准测试中表现优异。

综合评估显示，它不仅超越了此前所有开源模型的水平，而且在许多任务上达到了与领先闭源模型相当的性能。

终于发了！DeepSeek发布并开源V3.1，迄今为止最强大的开放AI

例如，在知识问答和推理测试（MMLU-Pro等）上， DeepSeek-V3.1的准确率达到75.9%。

在数学和代码领域，该模型更是展现出强大实力：在MATH数学题基准上准确率超过90%。

在Codeforces编程竞赛评测中，其解题能力达到前51.6百分位，大幅领先其他开源模型。

在长文档理解的“大海捞针”（NeedleInAHaystack）测试中，DeepSeek-V3.1在不同长度上下文下均能保持高准确率，展现了扩展至128K后的稳健表现。

总体而言，DeepSeek-V3.1被认为是目前最强大的开源大模型。

终于发了！DeepSeek发布并开源V3.1，迄今为止最强大的开放AI

04｜开源与获取?式

DeepSeek-V3.1延续了DeepSeek一贯的开放策略，将模型权重和代码完全开源发布。

开发者可以在GitHub、Hugging Face等平台获取模型权重及推理代码。

DeepSeek官方还提供了多种本地部署方案和推理工具，包括轻量级的FP8/BF16推理演示、社区优化的推理框架（如LMDeploy、 vLLM等）以及分布式推理实现。

对于不具备大规模算力的用户，DeepSeek在其官方平台上提供了在线体验和API接口。用户现在可以通过网页端、对V3.1模型进行使用。

标签 AI

上一篇：宇树VS天工：从赛场冲线到产业未来，人形机器人运动会撕开的技术路线之争