蛋白质语言模型在酶工程中的应用进展
宋中迪1,周佳楠2,陈妍1,江玲3*,于浩然2*
1浙江树人学院 交叉科学研究院 浙江省新污染物全过程监测与绿色治理协同创新中心
2浙江大学化学工程与生物工程学院 生物工程研究所
3浙江大学杭州国际科创中心
酶作为高效且环境友好的生物催化剂,在医药、食品、化工、农业等领域广泛应用,然而野生型酶常存在热稳定性差、底物谱窄及活性不足等局限。蛋白质语言模型(PLMs)通过借鉴自然语言处理方法,在大规模蛋白质序列和结构数据上进行自监督学习,能够捕捉序列、结构与功能之间的进化规律,在酶工程中展现出巨大潜力。本文系统综述代表性PLMs的模型架构及训练策略,总结其在零样本与少样本预测、酶功能预测及从头设计中的应用进展,具体包括利用PLMs实现突变效应预测与催化性能优化,辅助自动化进化平台加速迭代,提升酶的热稳定性、活性及底物适应性;结合多模态表征与小样本学习提升特定任务预测精度;以及在全新功能性酶蛋白设计中的探索。本文还讨论了PLMs在规模、泛化能力及与生物物理知识融合方面的挑战,并展望其在可控功能蛋白设计和工业应用中的前景。
1 代表性蛋白质语言模型介绍
蛋白质语言模型的架构可以分为Transformer架构及非Transformer架构。非Transformer架构的代表性模型包括word2vec、doc2vec、CNN、GNN和循环神经网络等,主要用于蛋白质序列的特征表示。Transformer是自然语言处理领域一种具有突破意义的深度学习模型。自注意力机制(Self-attention mechanism)是Transformer的核心,它允许序列中每个氨基酸残基与序列中所有其它残基直接进行交互,并计算一个“注意力分数”,使模型高效捕捉到序列中氨基酸残基间的协同进化信号。完整的Transformer模型包含编码器和解码器结构。编码器结构常用来对输入蛋白质序列进行序列特征提取生成向量表示,即将蛋白质序列、结构或功能等生物学特性信息转化为可用于计算的数值向量表示,使相似蛋白质在向量空间中距离更近。解码器可用于生成目标蛋白质序列,并对序列评分。
在实际蛋白质序列模型训练应用中,Transformer编码器、解码器组件可以作为纯编码器(Encoder-only)和纯解码器(Decoder-only)语言模型独立使用。编码器语言模型采用掩码语言建模(Masked language modeling, MLM)作为预训练目标,即随机掩盖输入序列中一定比例的氨基酸,然后训练模型根据未被掩盖的序列上、下文信息,预测被掩盖的氨基酸残基。为了准确预测被掩盖的残基,模型必须整合局部和全局的序列上、下文,学习共进化信号、氨基酸物理化学性质、结构等知识(图1)。这类模型通常适用于表示学习以及需要理解完整输入序列的下游任务。基于Transformer纯编码器架构的代表性PLMs有ESM、ProteinBERT等。
解码器语言模型也被称为自回归语言模型(Autoregressive language models),使用因果语言建模(Causal language modeling, CLM)目标进行训练,即仅提供前序标记的上文,模型须学习预测下一个标记(图1)。这类模型通常用于生成任务,通过自回归的方式逐个生成标记,直到得到完整的期望输出。模型以单向方式从左到右依次处理序列,基于前面所有氨基酸信息迭代预测序列中下一个氨基酸的概率分布,擅长序列生成任务。基于Transformer纯解码器结构的代表性PLMs有ProGen、ProtGPT2等。
2 PLMs在“零样本”“少样本”预测中的应用
在蛋白质语言模型训练过程中,氨基酸残基会被模型隐藏(掩码),模型的任务是根据其余未被掩码的残基来预测或填充这些隐藏的残基。通过这一训练过程,模型能够被引导去学习蛋白质序列的语义信息(图2)。经过训练的语言模型可以基于所有未被掩码的残基,计算某一被掩码残基为特定氨基酸的概率。PLMs能够在不具备试验数据即零样本条件下基于蛋白质序列预测所有蛋白质突变体的“概率”,而具有更高“概率”的突变体通常具有比野生型更优的性能。
PLMs的零样本预测能力已经被用于酶催化性能的改造。利用PLMs辅助优化一个具有胸腺嘧啶特异性的尿嘧啶-N-糖基化酶突变体(eTDG),开发了一种不依赖脱氨酶的新型碱基编辑器,能够高效实现T→G/C的替换编辑。使用预训练的ESM-2零样本预测高活性TDG突变体,获得16个活性提升超过1.5倍的突变体,其中2个突变体活性提升2倍以上。将PLMs与自动化生物铸造厂(BioFoundry)整合,可以加速酶的定向进化改造。浙江大学团队建立了蛋白质语言模型驱动的蛋白质体外连续自动进化平台(Protein language model-enabled automatic protein evolution, PLMeAE)。PLMeAE遵循设计-构建-测试-学习的循环过程,PLMs执行设计和学习环节,自动化设施BioFoundry执行蛋白质突变体的构建和测试环节,形成自动化闭环(图3)。针对目标蛋白质,PLMeAE平台首先利用ESM-2模型零样本预测96个高活性突变体,再利用BioFoundry构建并表征这些突变体;所获得数据用于训练多层感知机以建立蛋白质性能预测器(Fitness predictor),并预测出活性更高的96个突变体,开启新一轮进化。重复这一循环过程,使目标蛋白的性能持续提高。将PLMeAE应用于古菌来源的酪氨酰tRNA合成酶(MjTyrRS)的活性改造,在10 d内完成4轮进化,酶活性提高了2.4倍。
3 PLMs在酶功能预测中的应用
基于PLMs的蛋白质序列表示能够用于酶的挖掘。PLMs为蛋白质序列提供高维向量表示,使得用户能在高维空间中捕捉酶功能之间关联性。西湖大学王雅婕团队以多铜氧化酶(Multicopper oxidase, MCO)为研究对象,将查询酶QE的序列映射到高维语义空间,比较QE与数据库中候选酶之间的相似性,寻找功能相关而序列差异显著的候选酶,在MCOs家族中发现序列相似度<30%,功能更强的新酶。PLM模型强大的蛋白质表示能力也被用于基于小样本学习的酶催化性能改造。EVOLVEpro模型将PLMs与小样本主动学习中的回归方法相结合,在每轮试验中仅依赖极少量样本即可实现多目标优化。在12个深度突变扫描数据集上的评估结果表明,该模型表现出优异的性能;同时在多项酶工程任务中也取得显著成果。例如,优化后的T7 RNA聚合酶的免疫原性降低了515倍,翻译效率提升了57倍。这些结果表明,将传统机器学习方法与PLMs表征相融合的策略不仅具有有效性,而且具备较强的泛化能力。另外,PLMs已被广泛用于酶动力学参数的预测。例如,ProSmith模型结合ESM-1b的酶序列嵌入特征与底物分子指纹编码,基于多模态Transformer架构实现Km值的高精度预测。
4 PLMs在新酶从头设计中的应用
除了改造现有酶以提高其催化性能外,PLMs还被用来设计自然界不存在的新酶。PLMs可以作为一个“进化模拟器”,探索蛋白质序列空间中未被自然进化触及的区域,为蛋白质设计和功能发现提供了新范式,尤其是在生成具有复杂功能的蛋白质方面具有巨大潜力。Madani等利用ProGen语言模型设计人工酶,成功生成了功能性蛋白酶序列(图4)。通过在来自5个溶菌酶家族的约5.6万条序列上进行微调,模型生成的人工溶菌酶具有与天然溶菌酶相当的表达水平和催化效率,而与天然酶的序列相似性低至31.4%。所生成的人工酶中,73%具有酶活性,部分人工酶(如L056、L070)的催化效率与天然鸡蛋清溶菌酶相当,晶体结构显示人工酶与天然酶结构相似,关键催化残基和底物结合残基位置正确。ProGen还可轻松适配多种蛋白质家族,在分支酸变位酶和苹果酸脱氢酶家族中也成功生成功能性酶蛋白。ProGen可跨家族生成功能性酶蛋白,且不依赖多序列比对或结构信息,为酶工程设计提供了高效、可扩展的新范式。
5 结语
蛋白质语言模型已被证实能有效辅助给定酶蛋白的性能优化,并能够从头生成功能性酶蛋白。然而,目前PLMs在酶工程应用中仍存在一定挑战。与NLP中的预训练语言模型相比,如何最好地利用大规模预训练的PLMs,仍未经充分探索。在NLP领域,研究者积累了丰富的经验和方法,懂得如何通过迁移学习,比如微调、少样本学习、提示学习等,将这些大规模模型应用到具体任务中。然而,在蛋白质语言模型方面,虽也有类似的大规模预训练,但如何高效地把模型中学到的通用知识迁移到具体的生物学任务,如特定酶的功能预测、活性改造、从头设计等,还没有形成成熟的策略。研究者需针对不同的下游任务,设计和开发专门的迁移学习方法,以便更好地发挥PLMs的潜力。




