传闻中的DeepSeek-V4版本,今天终于来了。
中午,DeepSeek官方微信发布消息称,全新系列模型 DeepSeek-V4 的预览版本正式上线,同时开源。
官方称,它拥有百万字超长上下文,在Agent(智能体)能力、世界知识和推理性能上,实现了国内与开源领域的领先。
模型按大小分为两个版本:DeepSeek-V4-Pro:对标顶级闭源模型,总参数1.6T,激活参数49B,上下文长度1M;DeepSeek-V4-Flash:更小更快的经济版,总参数284B,激活参数13B,上下文长度1M。
也就是说,从今天开始,1M(百万)上下文成为DeepSeek所有官方服务的标配。这是个什么概念?就是足够读完合计约90万字的《三体》三部曲。
即日起,用户登录DeepSeek官网或官方App,就能直接体验。API服务也已同步更新,修改model_name为deepseek-v4-pro或deepseek-v4-flash即可调用。
DeepSeek-V4-Pro的优势,主要体现在三个方面:
第一,智能体能力大幅提高。相比前代,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,它已经达到当前开源模型最佳水平。
第二,世界知识更丰富。在世界知识测评中,DeepSeek-V4-Pro大幅领先其他开源模型,仅次于顶尖闭源模型Gemini-Pro-3.1。
第三,推理性能世界顶级。在数学、STEM、竞赛型代码的测评中,V4-Pro超越了所有已公开评测的开源模型,比肩世界顶级闭源模型。
相比Pro版本,DeepSeek-V4-Flash在世界知识储备方面稍弱一些,但推理能力依然接近。由于模型参数和激活更小,Flash版本能提供更快、更经济的API服务。
在智能体测评中,Flash在简单任务上和Pro旗鼓相当,但在高难度任务上仍有差距。
橙柿互动记者用“洗车测试”试了一下,这个测试曾让不少大模型栽过跟头。结果V4快速给出了正确答案。
此外,DeepSeek-V4采用了一种全新的注意力机制,在token维度进行压缩,结合自研的DSA稀疏注意力技术,实现了全球领先的长上下文能力,同时大幅降低对计算和显存的需求。
官方还坦言,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
“不诱于誉,不恐于诽,率道而行,端然正己。”DeepSeek在发布公告的结尾这样写道:“感谢每一位用户的信任与支持,大家的肯定、建议和期许,是我们不竭探索、持续进步的动力,也让我们始终坚守初心,专注于不懈的创新。我们将始终秉持长期主义的原则理念,在尝试与思考中踏实前行,努力向实现AGI的目标不断靠近。”
7分钟,直线涨停
国产芯片板块盘中直线拉升
市场对于DeepSeek-V4期待已久。国产芯片板块盘中直线拉升,截至午盘,海光信息大涨超10%,龙芯中科、中芯国际、通富微电、寒武纪、摩尔线程等龙头股纷纷跟涨。
GPU指数成分股,截至4月24早盘收盘
此外,DeepSeek概念股明显异动,皖通科技7分钟内由跌转涨,直线封板。
消息面上,DeepSeek官方今日发布消息称,全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:deepseek-v4-pro和deepseek-v4-flash。
Deepseek表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
值得注意的是,4月初的公开报道显示,DeepSeekV4已首次实现了与华为昇腾等国产芯片的深度适配。这标志着中国AI产业在摆脱对国外技术生态依赖、推进去CUDA化进程中迈出了具有里程碑意义的关键一步。
来源:橙柿互动·都市快报





