Back

mmCSM-PPI:用于预测突变对蛋白-蛋白相互作用的影响

摘要

蛋白-蛋白之间的联系在细胞内功能和生物学进程中非常重要,突变可能导致疾病的富集。作者使用机器学习模型来精确的评价单点或者多点突变对蛋白-蛋白亲和力之间的影响。最后mmCSM-PPI的Pearson’s系数可以达到0.75 (RMSE = 1.64 kcal/mol),blind测试集验证的结果为0.7(RMSE=2.06kcal/mol)。

1. 介绍

介绍了我觉得有用的信息主要是介绍了几个亲和力数据库: ThermomutDB, ProTherm, PROXiMATESKEMPI

mmCSM-PPI的流程:其以SKEMPI2数据库为基础,通过其单点或者多点突变的结果和pdb数据来生成基于图签名的物理化学和几何参数,其在其中提取了6种特征参数(??):

  1. NMA获取的动力学属性
  2. 野生型残基环境
  3. 进化和接触式的打分
  4. 非共价联系
  5. 野生型的分子内距离
  6. 点突变的ΔΔGbinding

使用Scikit-learn 的GridSearch函数进行监督学习的算法优化

2. 材料和方法

2.1. 数据库

使用SKEMPI2

吉布斯自由能计算方法:

$$ \Delta G^{binding} = RTlin(K_{D})$$

R=1.9872 cak/K*mol, T为温度 KD为蛋白蛋白复合物亲和力

亲和力差值

$$ \Delta\Delta G^{binding}=\Delta G^{binding}WT- \Delta ^{binding} MT $$

2.2. 图基础的签名

?文章中没有讲清楚,待研究

2.3. 多突变建模

主要是6个主要的分类;

  1. 动力学,参考bio3d的normal mode analysis
  2. 残基环境, Biopython
  3. 保守性, AAindex
  4. 非共价联系, Arpeggio
  5. 分子内残基距离
  6. 预测的$$ \Delta \Delta G ^{binding} $$

2.4 机器学习

使用scikit-learn Python库进行cross-validation:

Extra Trees, Random Forest, Gradient Boosting, XGBoost

并使用Gridsearch函数来进行参数调优

3. 验证

其只和Discovery Studio, FoldX进行了比较,并未和Roestta ΔΔG 之类的进行比较,不过确实,Rosetta ΔΔG计算量过大。