一、开篇:为什么 Transformer 之外还需要新架构?2017 年 Transformer 问世以来,"Attention Is All You Need"几乎成了序列建模的圣经。但到了 2023 年,Transformer 在三个场景上遇到了硬瓶颈:序列长度的二次复杂度:处理 100 万 token 的文档?101210^{12}10