DeepSeek V4 上周就发布了本来想聊聊但是之前没想清楚要讲什么。今天就说说令我印象深刻的两个部分。国产芯片适配。这里我没有细研究只挑了几个关键点。简单来说就是优化了国产芯片的推理。还有一个 TileLang能在代码层适配国产芯片的算子和国外的CUDA1M上下文成为标配。国内的模型除了Qwen,其他的厂商似乎都没有做 1M 的上下文。标准的注意力机制每个新来的token都要和前面所有token算一次内积。如果把4K上下文换成100万上下文需要算的内积数量是4000倍显存占用也是4000倍。粗略估算下来100万上下文的单次推理成本比4K高约6万倍。这堵「算力墙」和「显存墙」加起来是大多数模型在128K-200K就停住的原因。但这次DeepSeek开放的CSA HCA给了一个解决方案。具体内容比较复杂我也看不太明白只知道效果大概是这样子。两者加起来V4在100万上下文下的单次推理成本只有V3.2的约1/4。KV cache占用只有传统BF16 GQA8 baseline的约2%感觉今年年底左右大家应该也会让 1M 上下文变成模型的基本能力不再是高价位模型的专属。之前 Karpathy 分享的知识库管理其实有个前提就是模型的上下文要比较大这样在用起来才比较方便。现在看来在线的知识管理这种产品应该比较慌了没必要继续续费~~还有RAG的场景进一步被压缩。数据量少的时候直接丢到上下文数据量大且有多实体关联的时候单纯的RAP没用了又得加图。还真印证了那句话AI时代如果你学得慢很多东西不用学~具体技术报告https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf推荐阅读非本人https://mp.weixin.qq.com/s/BELLFDV6hlmmFoAcJy1RZg