总述
在重组蛋白技术发展成熟之后,蛋白质一级序列中的氨基酸可以被精准控制和编辑。在此基础上,蛋白质层面有关工作机理和理化性质的先验知识可以被转化成蛋白质序列设计方案。理性设计方法便是依赖这些知识判断具体氨基酸替换后是否会增强蛋白质的特定性质,或者改造蛋白质的特异性功能,但这种方法不适用于工作机理或结构未知的蛋白质 。
定向进化策略跨越了理性设计的知识壁垒,该方法通过随机突变和高通量筛选加速蛋白质向特定指标的进化过程,研究人员不再需要了解蛋白质的结构和工作机理 。由于酶工程的实验结果可以按照统一的标准被收集,随着实验结果的累积,大量的数据推动了数据驱动的酶工程的发展。人工智能为酶工程提供了新的工具,机器学习方法与深度神经网络在该领域得到了有效利用与发展。
定向进化与半理性设计
定向进化技术的核心思路可以被分为两步,先构建大规模随机突变文库,再通过高通量实验筛选得到有益突变体。这样的过程往往会被迭代实施很多轮,直到有益突变位点积累到使蛋白质性质满足预期的数量。另一个具有代表性意义的工作是Stemmer在1994年提出的利用DNA重组构建随机突变文库,这项技术利用PCR扩增目标蛋白的同源基因文库并将它们剪切成大量基因片段,通过无引物PCR技术重组后,基因片段会组成杂交基因并被克隆到表达载体中供后续筛选,得到的突变体会被用于构建新的DNA片段文库,有益的突变会在如此反复的筛选过程中累积。
Liebeton 团队将多种定向进化策略结合在一起来改造铜绿假单胞菌(Pseudomonas aeruginosa)中的细菌脂肪酶(bacterial lipase)。该团队先利用易错 PCR 技术,在多轮迭代过程中找到数个对蛋白质产物选择性影响较大的阳性单点突变体。然 后 在 这 些 阳 性 突 变 所 在 位 置 进 行 饱 和 突 变(saturation mutagenesis),得到了之前随机突变过
程中漏选的更好的阳性突变。在这些结果的基础上,再利用定点突变技术(site-specific mutagenesis)重新设计多点突变,最终得到的突变体在特定产物的选择性上比野生型提高了 23.5 倍。这种将多个定向进化策略结合起来的方法降低了随机突变漏选优秀突变体的概率,同时为饱和突变技术提供了关键的氨基酸位点 。
共识序列(consensus sequence)是半理性设计中具有代表性的方法。蛋白质一级序列中氨基酸之间具有高度的进化相关性,从进化角度来看,对酶活性和稳定性产生重要影响的氨基酸很可能是保守的。在给定蛋白质家族的多重序列比对(multiple sequence alignment)中 ,某个位置上的保守氨基酸具有更高的频率,这些残基被认为是共识残基(consensus residue)。共识序列的核心思想是氨基酸频率反映了某些生物特性的相对重要性,在给定位置上用共识残基代替非共识残基往往能优化蛋白质性质 。这些计算设计方法着眼于单个或者多个突变给蛋白质结构和功能带来的具体影响,可以构建相比于定向进化更小也更合理的突变文库,大幅度降低了定向进化方案中筛选突变体的工作量,具体进行实验时不再需要高通量筛选方法。
人工智能助力酶工程
机器学习的方法是将大量蛋白质信息按照一定方式编码,使计算机产生可以执行复杂决策的算法。 Capriotti等在 2004年利用 1615个单点突变数据训练单层感知机并预测蛋白质突变对热稳定性造成的影响,他们将测量蛋白质突变稳定性变化时的温度、pH 值、单点突变内容、溶液可及性以及单点突变周围氨基酸频率分布编码并输入到模型中,使模型在预测精度上超过了之前利用能量函数计算热稳定性变化的方法。这种编码方案只利用突变周围的氨基酸频率分布将蛋白质结构信息纳入考虑,该团队在 2005 年推出了基于支持向量机(SVM)的 I-Mutant2.0,在结构信息之外又成功编码了蛋白质序列信息 。
Laimer等不仅增加了编码内容,还通过整合的方法丰富了模型架构,使用的数据包括统计模型的打分,蛋白质残基数目、二级结构、溶液可及面积、质量、亲疏水性和等电点等理化性质。这些数据会被编码输入到3个模块中,3个模块包括具备单个隐藏层的人工神经网络(artificial neural networks)、支持向量机(SVM)和多重线性回归(multiple linear regression)。经过测试,该整合模型被证明具有超越以往模型的精度。
Dehouck 等选择利用多种统计势能的线性组合来预测突变带来的热稳定性变化,该方法在预测速度上相比其他方法有巨大的提升。Pires等则是利用支持向量机(SVM)整合了突变体阈值扫描矩阵 (mutation cutoff scanning matrix,mCSM)和定点诱变(site directed mutator,SDM)两种属性互补的方法,其中 mCSM 是一种利用结构特征预测错义突变(missense mutation)的机器学习方法,SDM 则是一种包含了同源蛋白进化信息的统计函数。
蛋白质语言模型是这类语言模型在生物化学领域的迁移应用,它将 20 种天然氨基酸当作词汇,学习蛋白质一级序列中的语义和语序规则,以完成预测蛋白质功能、结构等下游任务。Facebook AI团队[30]在Transformer架构基础上开发了可以直接对蛋白质突变体进行非监督学习 (unsupervised learning)的蛋白质语言模型ESM-1v。该模型使用的训练集包括 9800 万条蛋白质序列,使用的训练方法为随机遮掩(masked training),即输入经过随机遮掩处理的残缺蛋白质序列,令模型通过未遮掩部分来预测被遮掩部分的残基类型。这样的训练方法可以让模型具备评估蛋白质中氨基酸保守性的能力,即某个序列中特定残基类型是否符合自然界中蛋白质语言的语义和语序规则。若突变体相比于野生型更加符合模型学习到的规则,模型就会对该突变体给出阳性打分。
蛋白质三级结构比一级序列包含更多的信息,尤其是蛋白内部氨基酸三维空间互作信息,目前通过实验解出的结构约 20 万条,远少于目前已知的序列数量。AlphaFold2作为深度学习模型,能够以极高的准确度根据序列预测蛋白质三级结构。ESM-IF1 模型使用经AlphaFold2 预测的 1200 万条蛋白质序列的结构进行训练,根据蛋白质骨架坐标预测其序列。模型架构方面 ESM-IF1 使用几何向量感知机(GVP)来编码蛋白质三维结构,该模块可以保证编码信息向量的等变性以及标量的不变性。
ESM-1v、 ESM-IF1 和 MSA-Transformer 等 无监督模型不需要经过额外训练即可直接在特定蛋白质上执行突变体的预测任务,但打分的规则并不是蛋白质活性或者稳定性等具体指标,而是突变体相比于野生型是否更加符合模型学习到的规则。
相比无监督学习,监督学习(supervised learning)通过学习某个特定蛋白的突变数据(序列和性质的对应关系)可以更加准确地预测该蛋白突变体的性质。无监督模型已经通过训练学习到了蛋白质的编码方式,因此有监督模型引入无监督模型作为编码模块可以在准确预测特定蛋白质突变体性质的同时保证预测结果符合自然规律。ESM-1b模型使用34层的Transformer在UR50/S数据库上进行预训练,然后使用特定蛋白的突变数据对模型进行微调(fine-tune),得到了相比以往方法更高的精度。ECNet 是利用进化环境预测特定蛋白质的突变效果的有监督模型,该模型使用无监督模型 TAPE 编码蛋白质序列特征,并且从 MSA 中学习了残基之间的进化约束。ECNet在多个数据集上表现出高于 TAPE 模型的预测精度,证明 MSA中包含的进化信息对预测蛋白质突变效果有正向作用。SESNet是整合了蛋白质序列、MSA和结构信息的有监督模型,在多个数据集上的预测精度超过了现有的监督学习模型。
Rosetta的核心是一整套基于物理参数的分子势能和统计势能的分子力场,其包含了结构生物学中经常提到的氢键、盐桥、溶液可及面积、亲疏水性等作用项。
整体来说,基于结构的蛋白质从头设计方法更加具有创新性和新颖性,但同时成功率也更低,一般需要在万这个数量级的设计序列库上做筛选才能找到阳性序列。这需要有针对性的高通量筛选实验方法,且同时受限于 Oligo合成技术的限制,不能在更长的蛋白质序列上做设计合成(一般不超过200个氨基酸)。
蛋白质语言模型首先在公共蛋白质序列数据库上进行预训练,模型学习到了蛋白质序列中氨基酸的排列规则(类似于蛋白质的一种语言规则),之后其可以对任何序列是否接近自然序列做出判断。一般来说,更符合自然序列特征的序列,意味着其具有更好的结构折叠能力和更好的表达能力以及水溶性。在需要对特定功能的蛋白质做设计之前,将预训练模型在这些特定家族的蛋白质序列上进行微调(finetune),然后其对特定功能的蛋白质序列具有更准确的生成和预测能力。
使用计算机代替高通量筛选方法去探索庞大的序列空间可以大幅度缩小实验成本,相比定向进化方法,高精度的模型可以更快地找到最优突变体,从而减少实验周期。但是蛋白质多点位突变的序列空间非常庞大,即便使用计算方法也无法完全遍历,因此需要按照一定方法对序列空间进行采样。传统采样方法包括随机突变、贪婪算法和蒙特卡洛模拟退火等。其中随机突变方法即在序列空间中随机采样,采样结果将被计算方法筛选。这种采样方法效率较低,并且找到最优突变的概率严重依赖采样数量。贪婪算法先选择一批表现较好的突变体作为亲本(parent sequences),然后迭代组合这些突变生成子本(children sequences)。该方法可以有效探索高维突变的序列空间,但是探索内容受到亲本限制,无法在整个蛋白质的序列空间中进行有效检索。蒙特卡洛方法即在一个不具有物理意义的玻尔兹曼分布中采样。