DeepSeek 开源了 TileKernels——完全用 Python(TileLang DSL)编写的高性能 GPU 内核库。Engram 和 mHC 模块的暴露,揭示了 DeepSeek V4 的架构野心。一个反直觉的事实写一个高性能 GPU 内核,你需要什么?传统答案是:C++、CUDA、模板元编程、几百行甚至上千行的代码、数周的调试时间。DeepSeek 的答案是:Python,70 行以内。这不是玩笑。TileKernels 是 DeepSeek 最新开源的 GPU 内核库,所有内核都用 TileLang——一个 Python DSL(领域特定语言)编写。在 H800 上跑出了接近硬件极限的性能,部分内核已经用于 DeepSeek 内部的训练和推理。更关键的是,这个库里藏着两个模块——Engram和mHC——它们直接暴露了 DeepSeek V4 的架构设计。为什么放弃 CUDA?要理解 TileKernels 的意义,先要理解传统 GPU 内核开发的痛点。写一个高性能的矩阵乘法(GEMM)内核,用纯 CUDA + C++ 模板,代码量通常在1000-3000 行。这些代码充满了:手动的 shared memory 分配和 bank conflict 处理warp 级