终于发了!DeepSeek发布并开源V3.1,迄今为止最强大的开放AI

     分类 [Ai资讯]
2025/8/22 14:45:23 浏览量  652 喜欢  8
导读:DeepSeek憋了个大招!

终于发了!DeepSeek发布并开源V3.1,迄今为止最强大的开放AI

DeepSeek宣布推出新一代开源大语言模型DeepSeek-V3.1,并将其权重和代码在GitHub等平台上开放。

这一模型延续了DeepSeek-V3的强大能力,并在多个关键方面进行了升级。

终于发了!DeepSeek发布并开源V3.1,迄今为止最强大的开放AI

01|模型参数与架构

DeepSeek-V3.1采用了改进的Transformer架构,总参数规模达到约6850亿

其中采用了Mixture-of-ExpertsMoE)稀疏专家方案,每个token推理时激活约370亿参数。

值得一提的是,DeepSeek-V3.1取消了传统MoE所需的负载均衡损失,避免了额外开销。

同时引入token训练目标,进一步增强模型性能。

训练过程中,DeepSeek团队使用了FP8混合精度和自研的DualPipe流水线并行算法,在2048张NVIDIA H800 GPU上完成了14.8万亿token的预训练,整个过程稳定高效,没有出现不可恢复的损失激增。

终于发了!DeepSeek发布并开源V3.1,迄今为止最强大的开放AI

 

02|上下?窗?扩展

DeepSeek-V3.1最大的改进在于上下文长度的显著扩展。

新版本将模型的上下文窗口提升到128K tokens(约相当于300页文本)。

这意味着模型在一次交互中可以处理和记忆远超以往的信息量,能够支持更长的对话和更大规模的文档分析。

为了实现超长上下文,DeepSeek采用了名为YaRNYet another Random Noise)的位置编码扩展方案。

通过在长上下文训练中引入随机噪声扰动,模型在保持长程依赖建模能力的同时,有效缓解了长序列训练的不稳定问题。

实际测试显示,DeepSeek-V3.1在不同长度上下文下表现稳健,即使输入长达128K tokens时依然能够准确定位关键信息。

03|性能表现

凭借更大的参数规模和优化的训练策略,DeepSeek-V3.1在各项基准测试中表现优异。

综合评估显示,它不仅超越了此前所有开源模型的水平,而且在许多任务上达到了与领先闭源模型相当的性能。

终于发了!DeepSeek发布并开源V3.1,迄今为止最强大的开放AI

例如, 在知识问答和推理测试MMLU-Pro 上, DeepSeek-V3.1的准确率达到75.9%

在数学和代码领域,该模型更是展现出强大实力:在MATH数学题基准上准确率超过90%。

Codeforces编程竞赛评测中,其解题能力达到前51.6百分位,大幅领先其他开源模型。

在长文档理解的大海捞针NeedleInAHaystack测试中,DeepSeek-V3.1在不同长度上下文下均能保持高准确率,展现了扩展至128K后的稳健表现。

总体而言,DeepSeek-V3.1被认为是目前强大的源大模型

终于发了!DeepSeek发布并开源V3.1,迄今为止最强大的开放AI

 

04|开源与获取?式

DeepSeek-V3.1延续了DeepSeek一贯的开放策略,将模型权重和代码完全开源发布。

开发者可以在GitHubHugging Face等平台获取模型权重及推理代码。

DeepSeek官方还提供了多种本地部署方案和推理工具,包括轻量级的FP8/BF16推理演示、社区优化的推理框架(如LMDeploy、 vLLM等)以及分布式推理实现。

对于不具备大规模算力的用户,DeepSeek在其官方平台上提供了在线体验和API接口。用户现在可以通过网页端、对V3.1模型进行使用

 

标签

微信扫一扫,分享到朋友圈

微信公众号
 苹果iOS虚拟币充值(抖音钻石、快币、薯币、比心币、他趣币、陌陌币充值)

相关推荐