banner
NEWS LETTER

文献阅读:ECnet

Scroll down
  • 本文介绍了一种新的机器学习算法,可以利用蛋白质序列的进化信息来预测蛋白质的功能适应性,从而辅助蛋白质设计和定向进化。

  • 摘要概述了ECNet的主要特点和优势:

    结合局部进化上下文和全局进化上下文。ECNet使用两种类型的表示来捕捉蛋白质序列中的进化信息,一种是基于特定蛋白质的同源序列计算的局部进化上下文表示,另一种是基于大规模蛋白质序列数据库学习的全局进化上下文表示。这两种表示分别反映了蛋白质序列中残基之间的协变关系和表现力,以及序列中的语义和结构特征。通过将这两种表示结合起来,ECNet能够更准确地捕捉蛋白质功能的细微差异。

    使用深度神经网络来学习序列到功能的映射。ECNet使用基于长短期记忆网络(LSTM)和注意力机制(Attention)的深度神经网络来建立预测模型,该网络能够学习序列到功能之间的复杂非线性映射关系。通过使用深度突变扫描或随机突变等实验方法测量得到的功能适应性数据作为监督信号,ECNet能够通过反向传播算法来更新网络参数,从而提高预测性能。

    在多个数据集和实验中表现出色。ECNet在多个基准实验中都取得了优异的性能,包括与其他方法在~50个深度突变扫描数据集上的比较,以及在组合突变数据集上的泛化能力。此外,ECNet还在指导TEM-1 β-内酰胺酶工程中得到了应用和验证,证明了其在蛋白质工程中的有效性和实用性。,以及在多个数据集和实验中的表现和应用。

  • 文件的正文分为以下几个部分:

    • 引言部分介绍了蛋白质工程的背景和挑战,以及现有的机器学习方法的局限性和不足。然后提出了ECNet的主要思想和创新点,即结合了针对特定蛋白质的局部进化上下文和从大规模蛋白质序列数据库中学习的全局进化上下文,以及使用深度神经网络来学习序列到功能的映射。
    • 方法部分详细描述了ECNet的技术细节,包括如何构建蛋白质序列的表示,如何使用语言模型和直接耦合分析模型来捕捉进化上下文,如何使用循环神经网络和注意力机制来建立预测模型,以及如何使用深度突变扫描或随机突变数据来训练和评估模型。
    • 结果部分展示了ECNet在多个基准实验中的性能,包括与其他方法在~50个深度突变扫描数据集上的比较,以及在组合突变数据集上的泛化能力。此外,还展示了ECNet在指导TEM-1 β-内酰胺酶工程中的应用和验证,证明了ECNet能够成功地发现具有改善抗生素抗性的变体。
    • 讨论部分总结了ECNet的主要贡献和优势,分析了影响ECNet性能的因素,讨论了ECNet在蛋白质工程中的实际应用场景和潜在价值,以及未来可能的改进方向。

方法部分主要包括以下几个步骤

  • 构建蛋白质序列的表示。为了捕捉蛋白质序列中的进化信息,ECNet使用了两种类型的表示,一种是局部进化上下文表示,另一种是全局进化上下文表示。局部进化上下文表示是基于特定蛋白质的同源序列,使用直接耦合分析模型(DCA)来计算序列中每对残基之间的相互作用强度,从而反映出残基之间的协变关系和表现力。全局进化上下文表示是基于大规模的蛋白质序列数据库,使用语言模型(LM)来学习序列中每个残基出现的概率,从而反映出序列中的语义和结构特征。这两种表示都是使用神经网络来实现的,具体细节可以参考原文中的公式和图示。
  • 使用语言模型和直接耦合分析模型来捕捉进化上下文。语言模型是一种无监督的机器学习模型,它可以从大量的文本数据中学习语言的规律和统计特性。在这里,作者将蛋白质序列视为一种特殊的语言,并使用UniProt或Pfam等数据库中的蛋白质序列作为训练数据,来训练一个基于长短期记忆网络(LSTM)的语言模型。该模型的目标是根据给定的上下文,预测序列中某个位置出现某个氨基酸的概率。通过这样的训练,语言模型可以学习到蛋白质序列中隐含的语法和语义信息,以及与结构和稳定性相关的信息。直接耦合分析模型是一种基于马尔可夫随机场(MRF)的生成模型,它可以从特定蛋白质的同源序列中学习残基之间的相互作用关系。该模型使用多重序列比对(MSA)作为输入,定义一个能量函数来描述序列生成的概率,其中能量函数由单点项和双点项组成,分别表示每个残基和每对残基对能量函数的贡献。通过最大似然估计或近似推断方法,可以得到单点项和双点项的参数,从而反映出残基之间的协变程度和表达力。
  • 使用深度神经网络来建立预测模型。将局部进化上下文表示和全局进化上下文表示结合起来,就得到了蛋白质序列的完整表示。该表示作为输入,被送入一个基于LSTM和注意力机制(Attention)的深度神经网络中,该网络可以学习序列到功能之间的复杂非线性映射关系。该网络使用深度突变扫描或随机突变等实验方法测量得到的功能适应性数据作为监督信号,通过反向传播算法来更新网络参数,从而提高预测性能。

结果部分主要展示了ECNet在多个数据集和实验中的表现和应用,包括以下几个方面:

  • ECNet在Envision数据集上与其他蛋白质变体表示方法进行了比较,包括Yang et al.提出的基于Doc2Vec模型的固定长度向量表示,以及Envision模型提出的基于27个生物学、结构学和物理化学特征的变体表示。结果表明,ECNet在所有12个数据集上都取得了更高的斯皮尔曼相关系数和AUROC分数,说明ECNet的序列表示方法更能捕捉蛋白质功能的细微差异。
  • ECNet在DeepSequence数据集上与其他序列建模方法进行了比较,包括三种无监督的生成模型(EVmutation,DeepSequence和Autoregressive),以及两种有监督的模型(UniRep和TAPE),后者都使用了预训练的蛋白质语言模型来学习序列表示。结果表明,ECNet在几乎所有的数据集上都取得了最高的斯皮尔曼相关系数,说明ECNet的序列建模方法更能准确地预测蛋白质功能适应性。
  • ECNet在组合突变数据集上展示了其泛化能力,即使用低阶突变数据来训练模型,然后用来预测高阶突变的功能适应性。结果表明,ECNet在六个蛋白质的双突变数据集上都优于其他方法,并且能够从单突变数据中推断出四突变的功能适应性。此外,ECNet还能够准确地捕捉残基之间的表现力效应,并与实验观察到的表现力效应呈正相关。
  • ECNet在TEM-1 β-内酰胺酶工程中的应用和验证。作者使用ECNet来指导TEM-1 β-内酰胺酶的定向进化,从单突变和连续双突变数据中训练模型,并用来预测高阶突变的抗生素抗性。作者从ECNet的预测结果中选择了37个新颖的高阶突变,并在实验室中构建和筛选它们。结果表明,大多数由ECNet预测的突变都比野生型TEM-1具有更高的抗生素抗性,并且有些突变甚至比训练数据中最好的突变还要好。这些结果证明了ECNet在蛋白质工程中的有效性和实用性。

I'm so cute. Please give me money.

其他文章
请输入关键词进行搜索