banner
NEWS LETTER

文献阅读:davidBaker组RFdiffusion

Scroll down

文章总述

  • 论文介绍了一种基于深度学习的蛋白质设计框架,称为 RFdiffusion,它利用了 RoseTTAFold 结构预测网络的能力,通过逆向去噪过程生成多样化和精确的蛋白质结构。

  • 论文展示了 RFdiffusion 在无条件和有条件的蛋白质单体设计、蛋白质结合物设计、对称寡聚体设计、酶活性位点支架设计和对称功能基团支架设计等多个方面的优异性能。

  • 论文通过实验验证了数百个设计的对称组装体、金属结合蛋白和蛋白质结合物的结构和功能,并通过冷冻电镜解析了一个设计的结合物与流感血凝素的复合物结构,证明了 RFdiffusion 可以以原子级精度设计功能性蛋白质。

  • 论文讨论了 RFdiffusion 的优势和局限,以及未来可能的扩展方向,例如将其应用于核酸和配体结合蛋白的设计,以及利用外部势能和微调技术来定制特定的设计挑战。

    实现方法

    • 原理:RFdiffusion 的基本思想是利用一个去噪网络将随机状态映射到一个低维流形上,该流形包含了所有可能的合理的蛋白质结构。通过在流形上进行随机游走,RFdiffusion 可以探索出各种不同的蛋白质结构,并通过条件信息来指导生成过程,以满足特定的设计目标。去噪网络的作用是将输入的状态修正为更接近真实蛋白质结构的状态,从而消除噪声和不合理的结构。条件信息的作用是提供一些额外的约束或指示,例如拓扑类型、对称性、功能基团、结合伙伴等,从而使生成的结构符合设计要求。RFdiffusion 的核心假设是存在一个从随机状态到真实蛋白质结构的映射关系,该映射关系可以由去噪网络来近似学习和表示。通过逆向扩散过程,RFdiffusion 可以从任意初始状态出发,沿着梯度方向逐步接近真实蛋白质结构,同时保持多样性和创新性。

    • 实现方法:RFdiffusion 的实现方法主要包括以下几个步骤:

      • 建立去噪网络:RFdiffusion 使用了 RoseTTAFold 结构预测网络作为去噪网络,因为它已经被证明能够根据蛋白质序列预测出其三维结构,并达到接近实验水平的精度。RoseTTAFold 结构预测网络由三个模块组成:一个序列编码器、一个三维距离预测器和一个三维坐标预测器。序列编码器将蛋白质序列转换为一个高维特征向量,三维距离预测器将特征向量转换为一个距离矩阵,三维坐标预测器将距离矩阵转换为一个坐标矩阵。RFdiffusion 只使用了 RoseTTAFold 的最后一个模块作为去噪网络,即三维坐标预测器,它可以将任意输入的坐标矩阵修正为更接近真实蛋白质结构的坐标矩阵。
      • 训练去噪网络:RFdiffusion 使用了与 RoseTTAFold 相同的数据集来训练去噪网络,即 Protein Data Bank(PDB)中的所有已知蛋白质结构。训练过程中,RFdiffusion 对每个蛋白质结构添加一些随机扰动或噪声,然后将扰动后的坐标矩阵作为输入,将原始的坐标矩阵作为输出,计算两者之间的均方误差(MSE)作为损失函数,并使用反向传播算法更新去噪网络的参数。训练目标是使去噪网络能够尽可能地恢复原始的蛋白质结构,并消除输入中的噪声和不合理性。
      • 生成蛋白质结构:RFdiffusion 使用了一种基于 Langevin 动力学(LD)的生成过程来生成蛋白质结构。LD 是一种描述粒子在随机力场中运动的物理模型,它可以用来模拟蛋白质的折叠过程。RFdiffusion 将去噪网络的输出视为一个势能函数,将输入的坐标矩阵视为一个粒子状态,然后使用 LD 方程来更新粒子状态,从而实现在流形上的随机游走。LD 方程的形式如下:

      !LD equation

      其中,!x_t 是粒子状态,!U(x_t) 是势能函数,!T 是温度参数,!\xi_t 是高斯白噪声。RFdiffusion 使用了 Euler-Maruyama 方法来离散化 LD 方程,并使用梯度下降法来计算势能函数的梯度。生成过程中,RFdiffusion 从一个随机初始化的坐标矩阵开始,然后重复以下步骤:

      • 将当前的坐标矩阵输入去噪网络,得到修正后的坐标矩阵;

      • 计算修正后的坐标矩阵和当前的坐标矩阵之间的梯度;

      • 根据 LD 方程更新当前的坐标矩阵,并添加一些随机扰动;

      • 如果有条件信息,则将当前的坐标矩阵与条件信息进行对齐或匹配;

      • 如果满足停止条件,则结束生成过程,否则继续重复以上步骤。

      • 设计蛋白质序列:RFdiffusion 使用了另一个基于深度学习的网络,称为 ProteinMPNN,来设计与生成的蛋白质结构匹配的蛋白质序列。ProteinMPNN 是一种基于消息传递神经网络(MPNN)的序列设计网络,它可以根据蛋白质结构和条件信息预测出最优的蛋白质序列。ProteinMPNN 的输入是一个由残基类型、距离、角度、二级结构等特征组成的特征矩阵,以及一个由拓扑类型、对称性、功能基团等特征组成的条件向量。ProteinMPNN 的输出是一个由残基类型概率分布组成的序列矩阵。ProteinMPNN 的训练数据是从 PDB 中提取的所有已知蛋白质结构和序列,以及一些人工合成的条件信息。ProteinMPNN 的训练目标是使预测出的序列与给定的结构和条件信息尽可能地匹配,并具有高度的可行性和稳定性。设计过程中,RFdiffusion 将生成的蛋白质结构和条件信息输入 ProteinMPNN,得到预测出的序列矩阵,然后从每个位置上选择最大概率的残基类型作为最终的序列。如果需要,RFdiffusion 还可以对预测出的序列进行一些后处理,例如添加或删除一些残基,以满足一些额外的约束或优化一些性能指标。

        蛋白设计示例

        论文展示了RFdiffusion在以下几个方面的优异性能:

        • 无条件的蛋白质单体设计:RFdiffusion可以从随机噪声开始,生成多种复杂的蛋白质结构,包括α螺旋、β折叠和混合α/β拓扑,这些结构与AlphaFold2和ESMFold预测的结构非常接近,而且与已知蛋白质结构有很大差异,表明了模型的创新能力。论文还实验验证了一些设计的蛋白质具有高度稳定性和正确的二级结构。
        • 有条件的蛋白质单体设计:RFdiffusion可以根据用户指定的二级结构和/或拓扑信息生成符合要求的蛋白质结构,例如TIM桶或NTF2折叠。论文也实验验证了一些设计的TIM桶具有高度稳定性和正确的二级结构。
        • 蛋白质结合物设计:RFdiffusion可以根据目标蛋白质结构信息和界面热点残基生成新颖的高亲和力结合物。论文展示了对五个不同目标(流感病毒血凝素、IL-7Rα、PD-L1、胰岛素受体和TrkA)设计并实验筛选出具有纳摩尔级亲和力的结合物,并且通过冷冻电镜解析了一个流感病毒血凝素结合物与目标复合物的高分辨率结构,与设计模型几乎完全一致。
        • 对称寡聚体设计:RFdiffusion可以根据用户指定的对称性生成具有任意点群对称性(如循环、二面角、四面体、八面体或二十面体)的寡聚体结构。论文展示了多种复杂而新颖的对称寡聚体结构,并且通过电镜验证了它们具有正确的寡聚化状态和形状。
        • 酶活性位点支架设计:RFdiffusion可以根据用户指定的酶活性位点(包括多个残基和背景原子)生成能够精确固定这些位点在空间中位置和取向的支架蛋白质。论文展示了对多种酶类别(如水解酶、转移酶、还原酶等)进行活性位点支架设计,并且通过AlphaFold2验证了设计模型的准确性。
        • 对称功能基团支架设计:RFdiffusion可以根据用户指定的对称功能基团(如金属配位位点或病毒抗原表位)生成能够精确固定这些基团在空间中位置和取向的对称寡聚体结构。论文展示了对四面体Ni2+配位位点和三聚体SARS-CoV-2刺突蛋白结合位点进行对称功能基团支架设计,并且通过热力学和电镜验证了设计蛋白质的功能和结构。

I'm so cute. Please give me money.

其他文章
请输入关键词进行搜索