ESM 与 ESMFold:当蛋白质序列成为生命语言
如果把生命看作一本书那么蛋白质序列就是其中最重要的一种文字。一个蛋白由 20 种常见氨基酸组成。它们像字母一样排列形成一条长短不一的序列。表面上看这只是一串字符A、V、L、G、K、D、E、Y、W……但在这串字符背后隐藏着蛋白如何折叠、如何稳定、如何结合其他分子、如何执行功能甚至如何在漫长进化中被自然选择保留下来的信息。过去研究者主要依赖实验和结构生物学手段来理解这些信息。X 射线晶体学、冷冻电镜、核磁共振等技术可以直接看到蛋白质的三维结构。但这些方法成本高、周期长也不可能覆盖自然界中近乎无穷的蛋白空间。后来AlphaFold2 让蛋白结构预测进入了一个新阶段。它告诉我们只要有足够好的算法和进化信息蛋白质结构可以被高精度预测。但在 AlphaFold2 之外还有另一条路线也非常重要。这条路线不是先问“如何从 MSA 中提取共进化信息”而是问如果把蛋白质序列看成一种语言模型能不能像理解自然语言一样理解蛋白质这就是 ESM 系列模型的核心问题。ESM全称 Evolutionary Scale Modeling是 Meta AI / FAIR 推出的蛋白语言模型系列。它的基本思想并不复杂让模型阅读海量蛋白序列从中学习蛋白质的“语法”“语义”和“上下文规律”。如果自然语言模型可以通过阅读大量文本学会“我今天喝了一杯___”后面更可能接“咖啡”或“水”那么蛋白语言模型也可以通过阅读大量蛋白序列学会某个位置更可能出现什么氨基酸哪些残基之间存在依赖关系哪些突变可能破坏结构哪些序列模式可能暗示特定功能。ESM 的意义不只是提出了一个模型。它更深层的意义在于蛋白质序列不再只是数据库中的字符串而成为可以被深度学习模型理解、编码和推理的生命语言。ESMFold 则是在这条路线上的一个重要成果。它基于 ESM-2 蛋白语言模型直接从单条蛋白序列预测三维结构不依赖传统 MSA。它让我们看到单条蛋白序列中本身就隐藏着大量结构信息只要模型足够大、训练数据足够广就可能从序列语言中读出结构线索。这正是 ESM 与 ESMFold 值得 AIDD、蛋白工程和结构生物学共同关注的原因。一、为什么蛋白质可以被看作一种“语言”自然语言中的一句话并不是字词的随意堆砌。“我今天喝了一杯咖啡”之所以成立是因为词与词之间存在语法关系、语义关系和上下文约束。你很少会说“我今天喝了一杯椅子”因为“椅子”不符合这个语境。蛋白质序列也是如此。一个蛋白序列看起来只是一串氨基酸但它并不是随机排列。每个残基出现在某个位置往往都受到结构稳定性、功能需求、进化选择和相互作用约束的影响。有些位置高度保守说明它们对结构或功能非常重要有些位置可以容忍多种氨基酸说明它们对功能影响较小有些残基虽然在序列上相隔很远但在三维结构中靠得很近会共同决定折叠和功能。这就像一篇文章里前后文之间存在隐含关系。蛋白语言模型要学习的正是这些关系。因此蛋白语言模型的核心假设是自然界中已经存在的海量蛋白序列记录了长期进化筛选后的结构和功能规律。模型不需要一开始就知道物理方程也不需要直接看到每一个蛋白的实验结构。它只要阅读足够多的蛋白序列就有机会学到哪些序列模式是自然界“允许”的哪些组合是不合理的哪些残基之间可能存在结构联系。这就是 ESM 的起点。它把蛋白序列视为一种语言把氨基酸视为 token把海量蛋白数据库视为训练语料然后用 Transformer 模型去学习蛋白质序列空间中的规律。这不是简单的比喻而是一种非常实用的建模方式。因为一旦模型能把蛋白序列转化为向量表示也就是 embedding后续很多任务就可以建立在这个表示之上结构预测、功能注释、突变效应预测、蛋白分类、药物靶点建模、抗体工程、酶工程甚至蛋白设计。二、ESM 是什么ESM 是 Evolutionary Scale Modeling 的缩写可以理解为“进化尺度建模”。它是一系列蛋白语言模型而不是一个单一工具。ESM 系列模型的目标是从大规模蛋白序列中学习结构、功能和进化信息。从技术上看ESM 使用的是 Transformer 架构。Transformer 最早在自然语言处理领域大放异彩后来也被广泛用于蛋白质、DNA、RNA、小分子等生物序列建模。在 ESM 中一条蛋白质序列会被看作由氨基酸 token 组成的序列。模型通过 masked language modeling 进行训练。所谓 masked language modeling可以理解为“遮住一部分再让模型猜回来”。例如一条蛋白序列中某个位置的氨基酸被遮住模型需要根据前后上下文预测这里最可能是什么残基。为了猜对这个残基模型必须学习序列上下文、残基偏好、进化约束和潜在结构关系。这和自然语言模型很像。如果一句话是“我今天喝了一杯___”模型会根据上下文猜测“咖啡”“茶”或“水”。如果一段蛋白序列中某个残基被遮住蛋白语言模型也会根据上下文判断这里更可能是疏水氨基酸、带电氨基酸还是某个高度保守的功能残基。这个训练过程看似简单但威力很大。因为蛋白序列不是随机生成的。它们是自然进化筛选后的结果。模型在学习“猜氨基酸”的过程中实际上也在学习自然界允许哪些突变、保留哪些结构模式以及哪些残基组合可能共同维持功能。所以ESM 学到的不只是字符统计规律而是隐藏在序列背后的结构和进化信息。三、ESM 系列的发展脉络ESM 系列不是一步到位的它经历了从序列表征学习到结构预测再到生成式蛋白设计的逐步演进。1. ESM-1 / ESM-1b证明蛋白语言模型可以学习结构和功能信号ESM-1 和 ESM-1b 是较早的重要版本。它们证明了一件关键事情即使没有明确监督结构和功能标签蛋白语言模型也可以从海量序列中学到与结构和功能相关的信息。这很重要。因为过去很多蛋白预测任务依赖人工特征、同源比对、结构模板或实验数据。而 ESM-1b 表明模型可以通过无监督学习从序列本身获得有用表征。这些表征可以用于突变效应预测、远程同源性识别、结构接触预测、功能分类等任务。换句话说ESM-1b 让人们看到蛋白序列本身就是一种高密度信息载体。2. ESM-2更大规模的蛋白语言模型ESM-2 是 ESMFold 的关键基础。相比早期模型ESM-2 参数规模更大训练数据更丰富能够学习更强的 residue-level representation 和 protein-level representation。所谓 residue-level representation是指模型为每个氨基酸位置生成向量表示。它可以用于判断某个残基的局部环境、功能重要性和结构关系。所谓 protein-level representation是指模型为整条蛋白生成总体表示。它可以用于蛋白分类、功能预测、家族识别、下游机器学习任务等。ESM-2 的重要性在于它不仅能为蛋白序列提供高质量 embedding还能作为 ESMFold 的表征基础让结构预测不再完全依赖 MSA。3. ESMFold从蛋白语言到蛋白结构ESMFold 是基于 ESM-2 构建的结构预测模型。它的核心特点是直接从单条蛋白序列预测三维结构不依赖传统 MSA。这和 AlphaFold2 的路线不同。AlphaFold2 的强大很大程度上来自对 MSA 的利用。MSA也就是多序列比对可以把一组同源蛋白序列对齐从中提取共进化信号。如果两个残基在进化中经常协同变化它们可能在三维结构中相互接触。ESMFold 则走了另一条路线。它不需要为每条序列构建 MSA而是依赖 ESM-2 从海量序列中预训练出来的语言模型表征。模型在训练阶段已经读过大量蛋白序列因此在预测时即使只给它一条序列它也能利用过去学到的“蛋白语法”推断结构。这使 ESMFold 在速度和规模化应用上非常有优势。4. ESM Metagenomic Atlas把结构预测推向宏基因组空间ESMFold 的一个代表性应用是 ESM Metagenomic Atlas。宏基因组中存在大量未注释蛋白。它们来自环境样本、微生物群落和未知生物体系很多没有实验结构也缺少清晰功能注释。传统结构预测如果依赖 MSA 和模板面对如此庞大且未知的序列空间会非常困难。ESMFold 的优势在这里体现出来它可以快速处理大量单序列为这些未知蛋白生成结构假设。这相当于第一次用大规模语言模型的方式为宏基因组“暗蛋白空间”打开了一扇结构窗口。当然这些预测结构不等于实验结构也不能直接代表功能结论。但它们可以帮助研究者发现新折叠、新结构域、新酶家族和潜在功能线索。5. ESM3 / ESM-C从理解蛋白走向生成蛋白ESM 系列后续的发展已经不再局限于结构预测。ESM3 将序列、结构和功能纳入统一建模框架进一步走向生成式蛋白设计。它不只是理解已有蛋白而是尝试根据序列、结构或功能提示生成新的蛋白。ESM-C 则更偏向高质量蛋白表征学习可以作为下游任务的蛋白 embedding 模型。这说明 ESM 系列正在发生一个重要转向从 protein representation到 protein folding再到 protein generation。也就是说ESM 的价值已经不只是“Fold”而是正在成为蛋白设计基础模型的一部分。四、ESMFold 是如何工作的ESMFold 的流程可以简化为三步输入蛋白序列 → ESM-2 提取语言模型表征 → Folding trunk 转化为空间结构。第一步输入是一条氨基酸序列。第二步ESM-2 对这条序列进行编码。模型会为每个残基生成深层表征。这些表征不是简单的 one-hot 编码而是包含上下文信息、进化约束、局部结构倾向和潜在功能线索的高维向量。第三步ESMFold 使用 folding trunk也就是结构折叠模块把这些语言模型表征转化为三维几何信息最终输出蛋白的原子结构预测。这里的关键在于ESMFold 不需要先搜索同源序列也不需要为每个蛋白构建 MSA。它把 ESM-2 学到的隐含进化规律作为结构预测的基础。可以用一个类比来理解。AlphaFold2 像是拿着一本家族族谱通过比较很多亲戚之间的差异判断哪些位置共同进化、哪些残基可能接触。ESMFold 则像是一位读过海量蛋白序列的语言学家。即使只给它一句新句子它也能凭借过去学到的语法和语义规律判断这句话可能表达什么结构含义。这并不意味着 ESMFold 全面替代 AlphaFold2。更准确地说它们代表了两条不同路线。AlphaFold2 更依赖显式 MSA 和进化共变信息通常在高精度结构预测任务上非常强。ESMFold 更依赖大规模蛋白语言模型的隐式表征优势是速度快、输入简单、适合大规模结构预测。二者不是谁消灭谁而是各有适用场景。五、ESM 模型到底学到了什么ESM 最吸引人的地方在于它似乎从序列中学到了很多“没有被明确告诉它”的东西。1. 结构信息蛋白语言模型虽然训练目标只是预测被遮住的氨基酸但它的隐层表征中会出现与结构相关的信号。例如某些注意力模式和残基表征可以反映二级结构、残基接触和折叠模式。这说明蛋白结构信息并不完全存在于三维坐标中也隐含在序列分布中。长期进化已经把结构约束写进了序列。模型通过阅读大量序列就能学到这些约束。2. 进化信息自然界中的蛋白序列不是随机保留下来的。如果一个突变会严重破坏结构或功能它往往会被自然选择淘汰。如果一个位置可以替换多种氨基酸而不影响功能它就会表现出较高变异性。ESM 通过大规模序列学习可以捕捉这些变异约束。因此ESM 的 embedding 不只是“序列编码”也包含了进化选择的信息。3. 功能信息某些残基组合、结构域模式和序列 motif 与功能密切相关。例如酶的催化残基、蛋白结合位点、金属结合位点、信号肽、跨膜区等都可能在序列中留下可学习的模式。ESM embedding 可以用于功能预测、酶分类、结合位点预测和蛋白家族识别。不过这里必须强调embedding 提供的是计算推断不等于实验功能验证。模型可以帮助提出假设但不能替代实验确认。4. 突变效应信息在蛋白工程中研究者常常关心某个突变是否会影响稳定性、功能或结合能力。ESM 可以通过比较野生型和突变体序列的语言模型分数或 embedding 变化辅助判断突变是否可能被自然序列分布接受。如果一个突变让序列变得“很不像自然蛋白”它可能带来结构或功能风险。但这仍然只是辅助判断。突变是否真的稳定、是否表达良好、是否保留活性最终仍需要实验验证。六、ESMFold 能做什么1. 单序列蛋白结构预测ESMFold 最直接的用途是输入一条氨基酸序列快速输出预测结构。这对很多没有实验结构的蛋白非常有用。研究者可以先用 ESMFold 获得结构假设再进行结构比对、口袋分析、突变解释或下游实验设计。2. 大规模结构组学ESMFold 的速度优势使它适合大规模结构预测。对于宏基因组蛋白、未知蛋白和未注释蛋白ESMFold 可以快速生成结构模型帮助研究者探索蛋白暗物质。这里的价值不是一次预测一个蛋白而是批量建立结构地图。当大量未知序列被转化为结构假设后研究者可以发现新的结构家族、新的折叠类型和潜在功能线索。3. 蛋白功能注释结构可以帮助功能注释。如果一个未知蛋白的序列看不出明显同源关系但预测结构与某个已知酶、转运蛋白或结合蛋白相似那么它可能具有相关功能。不过功能注释不能只靠结构预测。更稳妥的做法是结合序列同源性、结构比对、保守位点、功能数据库、表达信息和实验数据综合判断。4. AIDD 中的靶点理解在 AI 制药中很多靶点缺少实验结构。ESMFold 可以为这些靶点提供初始结构模型用于口袋分析、突变位点解释、蛋白工程和下游对接前的结构假设。但用于药物设计时必须谨慎。药物结合常常依赖特定构象、局部口袋、配体诱导变化、膜环境、辅因子和蛋白动态。一个静态预测结构未必就是药物真正看到的结构。因此ESMFold 结构可以作为起点但不应该直接作为终点。5. 蛋白工程与突变设计ESM embedding 可以用于稳定性预测、突变效应预测、功能分类和序列筛选。ESMFold 则可以帮助观察突变后结构是否可能发生明显变化。例如在酶工程中可以用 ESM 表征筛选潜在功能序列在抗体工程中可以用 ESM embedding 表征可变区序列在 DTI 模型中可以用 ESM-2 表征蛋白靶点在突变扫描中可以用语言模型分数辅助判断突变合理性。这并不意味着 ESM 可以替代实验筛选。更准确地说它可以把实验筛选从完全盲目变成更加有方向。七、ESMFold 的优势ESMFold 的优势非常清楚。第一不依赖 MSA。这使它在缺少高质量同源序列的情况下仍然可以工作。第二速度快。由于省去了复杂的 MSA 搜索和模板流程它适合大规模蛋白结构预测。第三输入简单。只需要一条蛋白序列就能生成结构模型。第四适合宏基因组和未知蛋白空间。对于海量未注释序列ESMFold 可以快速提供结构假设。第五可与下游 AIDD 任务结合。ESM embedding 和 ESMFold 结构可以服务于靶点理解、功能预测、突变效应分析、蛋白工程和药物发现流程。这使 ESMFold 不只是一个结构预测工具更是连接序列数据和结构分析的一座桥。八、ESMFold 的局限ESMFold 很有价值但不能被神化。高 pLDDT 不等于实验结构。pLDDT 是模型对局部结构可信度的估计不是实验解析结果。单序列预测不等于完整进化分析。ESMFold 不依赖 MSA这是优势也是局限。对于某些需要强共进化信号才能准确判断的结构缺少显式 MSA 可能影响预测精度。静态结构不等于真实功能状态。蛋白在细胞中是动态的。很多蛋白存在多构象状态功能依赖构象变化而预测结构往往只是一个静态假设。对复杂体系仍然困难。无序蛋白、膜蛋白、多构象蛋白、复合物界面、配体结合构象等都可能超出单序列结构预测的能力边界。不能直接判断结合亲和力。ESMFold 可以预测单链结构但不能单独回答某个小分子或蛋白是否真的结合也不能直接给出药物可行性。因此在药物设计中ESMFold 预测结构应与 AlphaFold、RoseTTAFold、Boltz、Chai、分子动力学、实验结构和功能数据进行交叉验证。模型预测可以提供假设但实验才是最终裁判。九、ESM 与 AIDD 的关系对 AIDD 来说ESM 的价值不只是结构预测。更重要的是它提供了一种通用蛋白表征方式。过去药物发现中的蛋白信息常常以序列、结构、功能注释、通路信息等分散形式存在。深度学习模型很难直接理解一条蛋白序列到底意味着什么。ESM embedding 改变了这一点。它把蛋白序列转化为连续向量使蛋白可以进入各种机器学习模型。在 DTI 预测中可以用 ESM 表征蛋白靶点序列再与小分子特征结合预测药物-靶点相互作用。在靶点功能预测中可以用 ESM embedding 判断蛋白家族、功能类别和潜在结构域。在抗体工程中可以用 ESM 表征抗体可变区辅助分析突变、稳定性和功能趋势。在酶设计中可以用 ESM embedding 辅助酶分类、底物识别和功能筛选。在突变效应预测中可以用语言模型分数评估某个突变是否偏离自然序列分布。这些应用说明ESM 不只是一个“Fold 模型”的前置模块而是蛋白质 AI 建模的基础设施。它让蛋白序列从文本变成了可计算对象。十、ESMFold 与 AlphaFold2、AlphaFold3的区别1. ESMFold vs AlphaFold2AlphaFold2 主要依赖 MSA 和模板信息来提取进化共变信号在很多高精度结构预测任务中非常强。ESMFold 则基于 ESM-2 表征直接从单序列进行结构预测不依赖传统 MSA速度更快适合大规模结构预测。简单说AlphaFold2 更像进化比对驱动的高精度结构预测器ESMFold 更像蛋白语言模型驱动的快速结构假设生成器。2. ESMFold vs AlphaFold3ESMFold 主要面向单链蛋白结构预测。AlphaFold3 则面向更复杂的多分子体系可以预测蛋白、核酸、小分子等分子之间的复合物结构。因此ESMFold 更适合快速预测单体蛋白结构AlphaFold3 更适合多分子相互作用场景。3. ESM3 与生成式蛋白设计ESM3 的出现说明ESM 系列正在从表示学习和结构预测走向更广义的蛋白生成。它试图在统一框架中处理序列、结构和功能。这意味着蛋白语言模型不再只是“读懂蛋白”也开始尝试“写出蛋白”。这对 AIDD 和蛋白工程来说是一个更大的方向。十一、如何正确使用 ESMFold如果在实际项目中使用 ESMFold可以遵循几个原则。第一把它作为快速结构假设工具而不是实验结构替代品。第二重点检查 pLDDT、PAE 和结构合理性。低置信区、柔性区和无序区不要过度解读。第三对于药物设计不要直接用 ESMFold 预测结构就开始下结论。最好结合 AlphaFold、Boltz、Chai、实验结构、分子动力学和功能数据交叉验证。第四对膜蛋白、多构象蛋白、蛋白复合物和配体结合状态要格外谨慎。第五使用 ESM embedding 时要明确它是模型表征不是功能实验。它可以辅助预测但不能替代实验验证。第六在 AIDD 模型中使用 ESM 表征时要注意数据泄露、任务适配和外部验证。一个漂亮的交叉验证结果不一定代表模型能泛化到真实新靶点。这些原则看似保守但对 AI 制药非常重要。因为结构预测和表征学习越强越容易让人误以为模型已经替代实验。事实上模型只是让我们更快提出假设。科学仍然要靠验证走完最后一步。十二、结语ESM 的意义不只是 Fold而是理解生命语言ESMFold 很重要但它只是 ESM 系列价值的一部分。如果只把 ESMFold 看成一个“快速版 AlphaFold”就低估了 ESM 的意义。ESM 更深层的价值在于它把蛋白质序列从字符串变成了可计算、可表示、可推理的生命语言。当模型能够从海量序列中学习结构、功能和进化约束时蛋白质研究就不再只是一个个实验对象的积累而开始成为可以系统建模的语言空间。ESMFold 告诉我们单条蛋白序列中已经隐藏着大量结构信息。ESM embedding 告诉我们蛋白序列可以被转化为通用表征进入药物发现和蛋白工程模型。ESM3 等后续模型则进一步提示我们蛋白语言模型正在从理解蛋白走向生成蛋白。这对 AIDD 来说非常关键。因为药物发现面对的不是孤立结构而是序列、结构、功能、突变、相互作用和进化约束共同构成的复杂空间。ESM 的意义正是为这个空间提供了一种可计算的入口。当然蛋白语言模型并没有读懂生命的全部语法。它仍然会出错仍然需要实验验证也仍然无法直接替代结构解析、功能实验和药物开发。但它已经让我们看到一种新的可能蛋白质不再只是实验室里的分子。它也是可以被 AI 阅读、理解、编码和生成的生命文本。从这个角度看ESMFold 不是终点。它只是蛋白语言模型进入结构世界的一扇门。