DeepSeek-V4 预览版发布:百万上下文普惠化,开源模型追平闭源2026年4月24日,DeepSeek-V4 预览版正式上线并同步开源。1M 上下文标配化、DSA 稀疏注意力架构、Muon 优化器、mHC 流形约束超连接——这是自 DeepSeek R1 以来十五个月后,深度求索交出的又一份硬核答卷。一、双版本布局:Pro 追求极致,Flash 追求普惠DeepSeek-V4 按应用需求分为两个版本,均原生支持100万 Token 超长上下文(输出上限 384K Token):版本总参数激活参数训练数据量定位V4-Pro1.6T49B33T Token性能旗舰,对标顶尖闭源V4-Flash284B13B32T Token极致性价比,轻量场景两个版本均支持非思考模式和思考模式,思考模式开放reasoning_effort参数(high/max),用户可根据任务复杂度灵活调整推理深度。对于复杂的 Agent 场景,官方建议使用思考模式并设置强度为max。相比 V4-Pro,V4-Flash 在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。在 Agent 测评中,V4-Flash 在简单任务上与 V4-Pro 旗鼓相当,但在高难度任务上仍有差距。由于模型参数和激活更小,V4-Flash 能够提供更加快捷、经济的 API 服务。二、核心架构创新:四大技术突破2.1 DSA 稀疏注意力(DeepSeek Sparse Attention)这是 V4 最核心的架构创新,也是实现百万上下文普惠化的关键。DeepSeek 官方将其命名为DSA(DeepSeek Sparse Attention)——一种在 Token 维度进行压缩的全