当前位置:乐搜资讯网 >> 科技 >> 文章正文

解决生物学50年来的重大挑战 AlphaGo精确预测蛋白质结构

发布于:2020-12-01 被浏览:2802次

DeepMind的第二代AlphaFold在蛋白质结构预测的国际竞赛中击败了其他参赛者,能够基于氨基酸序列准确预测蛋白质的3D结构。其精度与冷冻电镜、核磁共振或x光结晶学分析的三维结构相当。

作者|陈、蒋宝上

最近,Google AI团队DeepMind研究的AlphaFold算法在生物学领域取得了重要突破:通过蛋白质的氨基酸序列,可以高精度地确定蛋白质的三维结构。

具体来说,DeepMind的第二代AlphaFold击败了国际蛋白质结构预测大赛(CASP)的其他参赛选手,能够根据氨基酸序列准确预测蛋白质的3D结构。其精确度可与通过冷冻、核磁共振或x光结晶学分析的3D结构相媲美。

基因泰克公司前首席执行官阿特D莱文森博士称这一成就为“一代人中的一次进步”。

根据权威的蛋白质结构预测大赛CASP14的结果,我们可以看到AlphaFold2排名第一(总分远高于第二),前六名分别是大卫巴克实验室的两个工具(第二和第三),密歇根州立大学的Michael Feig和密歇根大学的张旸排名第四和第五,腾讯AI实验室的tFold_human排名第六。

这说明,在某种程度上,人类在预测蛋白质结构和折叠方面远远落后。

第二代AlphaFold做了什么?

在CASP竞赛中,DeepMind开发了AlphaFold2,其数据包括数据库中超过170,000个蛋白质序列和结构,以及来自其他大型数据库的数据。

评价蛋白质结构预测准确性的指标叫GDT,是评价预测氨基酸位置与实际氨基酸位置的差异。差距越小,分数越高。

GDT的得分在0到100之间。2006-2016年期间,最高数字为40人左右。2018年,上一代的AlphaFold评分突然超过50。然而,这款新一代AlphaFold在蛋白质结构预测大赛中的中值超过了92.4。

传奇:不仅远远领先于今年的竞争对手,而且与2018年的第一代AlphaFold相比,AlphaFold2的表现也如同脱胎换骨。

比较直观。对比预测结构和实际结构,可以看出基本一致(下图中,绿色为实验得到的实际结构,蓝色为计算预测结构)。

传说:AlphaFold在今年两年一度的蛋白质结构预测关键评估(CASP)竞赛中击败了所有其他小组,在准确性方面与实验结果相当。随着预测难度的增加,AlphaFold的准确率保持在一个稳定且较高的水平,远远优于其他球队和以往的比赛。

然而,许多人对这个结果表示怀疑,主要是因为它的准确性。首先,17万的数据应该远远不够,准确性存疑;再者,蛋白质结构折叠的问题太深刻了。如果能解决,DeepMind很快就能获得诺贝尔奖。

所以,在惊叹AlphaFold成就的同时,需要冷静等待生物学家的实验验证。

除了解决值得我们关注的问题,其实研究方法更有思考价值。

毕竟AlphaFold的结构预测和X射线结晶学或者cryo-EM等标准的实验方法没有什么区别,但是后者更加费力和昂贵。科学家表示,AlphaFold的出现可能不会完全取代这些实验方法,但它确实为人们提供了一种研究生物学的新方法。

蛋白质结构:过去50年生物学的挑战

蛋白质是生命的基础,与细胞组成密切相关。蛋白质的功能取决于它的三维结构。

长期以来,生物学家致力于实验,试图发现生命的奥秘,即氨基酸序列(蛋白质的组成部分)是如何绘制出最终形状的。

过去人们通过实验室了解蛋白质的结构。例如,用x光束照射结晶的蛋白质,衍射光被转换成蛋白质的原子坐标,从而抓住蛋白质的第一个完整结构。

除了实验之外,随着计算机的发展,这项技术在上世纪末已经被用于预测蛋白质结构,但效果并不理想。

利用计算机技术预测蛋白质结构的困难并没有重新点燃科学家的信心和希望,直到2018年AlphaFold在CASP中出现。

AlphaFold的第一次迭代将深度学习应用于结构和遗传数据,以预测蛋白质中氨基酸对之间的距离。据AlphaFold的主要领导者之一约翰跳跃者(John Jumper)介绍,在第二步中,虽然没有使用AI技术,但是AlphaFold利用结构和遗传数据获得了蛋白质的外观模型,这与之前的研究是一致的。

但是第一次迭代有缺陷。于是,团队开发了一个AI网络。该网络结合了决定蛋白质折叠方式的物理和几何约束信息。他们设定了一个艰巨的目标:网络可以预测目标蛋白质序列的最终结构,而不仅仅是氨基酸之间的关系。

惊人的准确性

CASP持续了几个月。

1994年,Moult和他的同事发起了CASP,每两年举行一次。竞赛小组获得了约100种蛋白质的氨基酸序列,其结构未知。一些小组计算每个序列的结构,而另一些小组通过实验来确定它。然后,组织者将计算的预测结果与实验室结果进行比较,并为预测结果提供全球距离测试(GDT)分数。

研究小组有几周时间提交其结构预测。然后,一组独立的科学家使用度量标准来评估预测的蛋白质和实验确定的结构之间的相似性,从而评估每个研究组的预测结果。课题组名字匿名。

在今年的比赛中,AlphaFold的冠军是“427团”。它预测的很多项目都有惊人的准确性,近三分之二的预测相当于实验结构。

对于各种靶蛋白,折叠的GDT评分中值为92.4。在难度适中的蛋白质上,其他团队的最佳表现通常在预测准确率上得分为75(满分100),而在AlphaFold中,得分在90左右,中位数为87,比次佳预测高25分。

AlphaFold甚至擅长解决楔入细胞膜的蛋白质结构,这是人类很多疾病的核心,但众所周知,这个问题是X射线结晶学很难解决的。医学研究委员会分子生物学实验室的结构生物学家文基拉玛克里希南(Venki Ramakrishnan)称这一结果是“蛋白质折叠的惊人进步”。

Moult认为,90分以上的预测结果与实验方法相当。

然而,AlphaFold并不适合所有的预测。对于一种由52个小的重复片段组成的蛋白质,AlphaFold的预测和实验结果有一些差异,在组装过程中会扭曲彼此的位置。

根据CASP负责人Moult的说法,无法确定是因为AlphaFold的预测误差还是实验伪影。

另外,AlphaFold的预测与核磁共振成像技术确定的实验结构匹配度较差,可能是因为需要改进AlphaFold将原始数据转化为模型的方法。

另一个例子是,AlphaFold的网络试图在蛋白质复合物或组中模拟单一结构,因此与其他蛋白质的相互作用会扭曲它们的形状。

app应用

AlphaFold的预测有助于确定Lupas实验室多年来试图破解的细菌蛋白质的结构。

Lupas的研究小组之前收集了原始的X射线衍射数据,但是为了将这些罗夏样的图案转化为结构,我们需要知道蛋白质的结构信息。卢帕斯介绍:“我们花了十年时间尝试了一切,427团的模式在半小时内为我们提供了结构。”

DeepMind的联合创始人兼首席执行官戴密斯哈萨比斯表示,AlphaFold预测蛋白质结构可能需要几天时间,包括对蛋白质不同区域的可靠性估计。但是AlphaFold将对科学家开放。

哈萨比斯认为,AlphaFold有望应用于药物发现和蛋白质设计。

借助AlphaFold,药物设计人员可以快速确定危险新病原体(如SARS-CoV-2)中各种蛋白质的结构,这是寻找预防疾病分子的关键一步。

加州大学伯克利分校的分子神经生物学家斯蒂芬布罗恩(Stephen Brohawn)说,DeepMind对一种名为Orf3a的蛋白质的预测与后来通过冷冻电镜鉴定的结果非常相似。

AlphaFold的出现可能意味着获得了一个良好的蛋白质结构,不再局限于实验室,只需要低质量且易于收集的实验数据。例如,蛋白质的进化分析可以蓬勃发展,因为大量的基因组数据可以转化为结构。

科学家评论说,AlphaFold可以帮助人类了解生命基因组中成千上万种未溶解蛋白质的功能,了解人与人之间因疾病而产生的基因变异。

AlphaFold的出现也改写了DeepMind的印象。之前大家都知道DeepMind是因为团队用AI玩游戏,比如AlphaGo。但是现在,AlphaFold涉及到了生物学领域,比如蛋白质结构预测,DeepMind向外界传递了另一个声音:

不仅可以玩围棋,还可以用AI帮助生命科学的长远发展。

参考链接:

2、https://www . science mag . org/news/2020/11/game-has-changed-ai-cavities-solution-protein-structures

3、https://www . newscientist.com/article/2261156-deep minds-ai-biologist-can-declare-secrets-of-the-machine-of-life/

4、https://www . deep mind.com/blog/article/alpha fold-a-solution-to-a-50岁-grand-challenge-in-biology

5、https://predictioncenter . org/casp 14/doc/casp 14 _ press _ release . html

6、https://predictioncenter.org/casp14/zscores_final.cgi

7、https://m.weibo.cn/1907380525/4577229730744076