当前位置:乐搜资讯网 >> 科普 >> 文章正文

“诺贝尔奖”里程碑!AI破解困扰这个问题50年 可能改变一切

发布于:2020-12-01 被浏览:3355次

新智元报道

编辑:新智元编辑部

【新智元导读】最近,DeepMind在预测蛋白质结构方面迈出了一大步!该公司表示,它已经解决了生物圈中研究了50年的关键“蛋白质折叠问题”。马斯克、李菲菲等大牌纷纷称赞!DeepMind是一个历史性的发展,有助于加快药物发现,对理解人类生命的形成机制非常重要。

刚才,一个困扰生物学家50年的难题被AI解决了。

去年年底,Google DeepMind推出了一款名为AlphaFold的算法(一款利用人工智能加速科学发现的系统,可以根据蛋白质的基因序列预测其三维结构)。

今天,在被称为“蛋白质奥林匹克竞赛”的国际蛋白质结构预测比赛(CASP)中,AlphaFold击败了其他参赛者,能够基于氨基酸序列准确预测蛋白质的三维结构。

其精确度可与通过冷冻、核磁共振或x光结晶学分析的3D结构相媲美。

DeepMind的联合创始人兼首席执行官戴密斯哈萨比斯说:“DeepMind背后的终极愿景一直是构建通用的人工智能,这可以大大加快科学发现的速度,并帮助我们更好地理解我们周围的世界。」

谷歌首席执行官桑德尔皮帅在推特上称赞了这一突破。

这是一个跨越圈子的壮举,李菲菲、马斯克等大佬也纷纷称赞:

《自然》杂志甚至评论为“这将改变一切”。

50年来,蛋白质折叠一直是生物学中的一大挑战。

分子折叠的方式变化无穷,其重要性难以估计。大多数生物过程都是围绕蛋白质展开的,蛋白质的形状决定了它们的功能。只有知道蛋白质是如何折叠的,才能知道蛋白质的功能。

例如,胰岛素如何控制血液中的血糖水平以及抗体如何对抗冠状病毒是由蛋白质的结构决定的。

众所周知,DeepMind以战胜人类而闻名,在国际象棋、围棋、星际争霸2和古老的雅达利经典游戏中占据上风。

但是超人游戏从来都不是主要目标。游戏为项目提供了一个训练场地。一旦程序足够强大,就可以解决现实世界中的问题!

蛋白质折叠在过去的50年里取得了重大突破,AI解决了预测问题

蛋白质的形状与其功能密切相关,预测蛋白质结构的能力可以帮助我们更好地理解蛋白质的功能和工作原理。世界上的许多重大挑战,如开发疾病治疗方法或寻找分解工业废物的酶,从根本上说与蛋白质及其作用有关。

传统上,需要几年才能得到蛋白质的形状。

自20世纪50年代以来,利用x光光束照射结晶蛋白质,并将衍射光转化为蛋白质原子坐标,确定了蛋白质的第一个完整结构。x射线结晶学已经证明了大部分的蛋白质结构。然而,在过去的十年里,低温电子显微镜已经成为许多结构生物学实验室的首选工具。

最新的技术进步使得利用低温电子显微镜产生接近原子分辨率的电子密度图成为可能

这些方法依赖于大量的实验和改进误差,可能需要数年才能完成每一个蛋白质结构,需要数百万美元的专用设备进行实验和验证。

1969年,赛勒斯莱文塔尔(Cyrus Levinthal)指出,通过暴力计算列出一种典型蛋白质的所有可能构型,比已知宇宙的年龄要花更长的时间。他估计一种典型的蛋白质有10 300种可能的构型。

1972年,克里斯蒂安安芬森在接受诺贝尔化学奖的演讲中提出了一个著名的假设:

克里斯蒂安安芬森

理论上,蛋白质的氨基酸序列应该完全决定其结构。

这个假说引起了50年的探索,即蛋白质的三维结构只能根据蛋白质的1D氨基酸序列来计算和预测。但是这个假说面临的一个主要挑战是,蛋白质在进入最终3D结构之前可以折叠的方式数量在理论上是天文数字。

20世纪八九十年代,虽然早期的计算机科学家取得了进展,但从蛋白质的组成推断结构仍然不容易。

为什么预测蛋白质的形状这么难?

在自然界中,蛋白质是氨基酸链,可以自发折叠成无数难以想象的形状,其中一些可以在几毫秒内完成。

为了理解蛋白质是如何折叠的,DeepMind的研究人员在一个包含大约170,000个蛋白质序列及其形状的公共数据库中训练了它的算法。在相当于100到200个图形处理单元上运行(按照现代标准,计算能力适中),这种训练需要几个星期。

AlphaFold解决蛋白质折叠问题的方法

2018年,DeepMind首次使用原版AlphaFold参与CASP13,获得了参赛选手中最高的准确率。后来在《自然》杂志上发表了一篇关于CASP13方法及相关代码的论文,继续启发其他工作和社区开发的开源实现。

现在DeepMind开发的新深度学习架构推动了CASP14方法的改变,可以达到前所未有的精确度。这些方法受到生物学、物理学和机器学习领域的启发,以及过去半个世纪许多科学家在蛋白质折叠领域的工作。

折叠的蛋白质可以被认为是一个“空间图形”,其中的残基由节点和边缘连接。

这张图片对于理解蛋白质之间的物理相互作用及其进化史非常重要。

对于CASP14上使用的最新版本的AlphaFold,研究人员创建了一个基于注意力的神经网络系统,该系统通过端到端的训练来解释这个图的结构,并推断它正在构建的隐含图。它通过使用多序列比对(MSA)和氨基酸残基对的表示来细化图结构。

通过迭代这个过程,系统可以准确预测蛋白质的基本物理结构,并在几天内确定高度准确的结构。

此外,AlphaFold还可以使用内部置信度来预测每个预测的蛋白质结构的哪些部分是可靠的。

该系统使用的数据包括来自蛋白质数据库的约170,000个蛋白质结构,以及包含未知结构的蛋白质序列的大型数据库。它使用大约128个TPU v3(大致相当于100-200个GPU),只训练几周,这在当今机器学习领域使用的大多数SOTA模型中是一个相对较小的计算量。

蛋白质奥林匹克竞赛

1994年,约翰穆特教授和克日什托夫费德利斯教授创建了CASP(结构预测的关键评估),作为两年一次的盲评估,以促进研究和建立蛋白质结构预测的最新水平。

CASP是评估预测技术的标准。更重要的是,CASP选择那些最近才通过实验确定的蛋白质结构(有的还在评估过程中等待确定)作为研究团队测试其结构预测方法的目标;但是这些结构的预测方法并没有提前公布。参与者必须直接预测蛋白质的结构,然后将这些预测与可用的实验数据进行比较。

GDT(Global Distance Test)是CASP用来衡量预测精度的主要指标,其范围从0到100。简单来说,GDT大致可以认为是阈值距离内正确位置的氨基酸残基的百分比。穆特教授认为,GDT的分数在90分左右,可以认为是与实验方法得出的结果相竞争。

根据今天公布的第14次CASP评估结果,最新的AlphaFold系统在所有目标中的中值分数为92.4 GDT。这意味着预测的平均误差(RMSD)约为1.6埃(1埃等于0.1纳米),相当于一个原子的宽度(或0.1纳米)。即使对于最困难的蛋白质目标,即那些最具挑战性的自由建模分类,AlphaFold也能达到87.0 GDT的中值。

在测试的近100个蛋白质靶标中,AlphaFold给出的三分之二蛋白质靶标的预测结构与实验手段得到的几乎相同。CASP创始人Moult教授说,在某些情况下,无法区分两者的区别是由于AlphaFold预测的误差,还是实验手段造成的错觉。

这些令人兴奋的结果为生物学家利用深度学习计算结构预测作为科学研究的核心工具开辟了潜力。DeepMind的方法可能特别有助于预测重要的蛋白质结构,如膜蛋白。

图:ALPHAFOLD预测了与实验结果相对应的高精度结构

历史性突破!AlphaFold将“改变一切”

如果把基因组序列比作一个人的身份信息,蛋白质的三维结构就是一个人的外貌。

预测蛋白质结构变化的意义在于,几乎所有的疾病,包括癌症和痴呆症,都与细胞内蛋白质结构的变化有关。如果能掌握蛋白质结构的变化,对疾病的防治会有重要影响。

通常,科学家需要几年时间来确定单个蛋白质的结构。如今,AlphaFold可以在几天内提供精确到一个原子的结果。

这将大大加快对细胞成分的理解,并有助于包括新冠肺炎肺炎在内的所有疾病的研究。

冠状病毒的结构中,穗状冠被称为穗糖蛋白(以下简称S蛋白),是与人体细胞上相应受体结合的罪魁祸首;e蛋白是一种包裹病毒内部遗传物质的包膜蛋白。还有膜蛋白(M蛋白)和核衣壳蛋白(N蛋白)。

冠状病毒结构示意图

三维结构的分析对于SARS-CoV-2的发病机制和药物设计非常重要。

基于AlphaFold的新突破,未来人类可能会更快地发现更先进的新药。

CASP的联合创始人、马里兰大学帕克分校的计算生物学家约翰穆特直言不讳地说:“这是一个伟大的事件。一定程度上解决了蛋白质折叠的问题。」

进化生物学家安德烈卢帕斯是这项挑战的评委之一,他进一步说道:“这将改变医学,改变研究,改变生物工程,改变一切。」

知名领域专家Mohammed AlQuraishi发微博;“他们令人震惊。——deepmind好像解决了蛋白质结构预测的问题。」

谷歌首席执行官桑德尔皮帅当天也在推特上分享了这一消息,并表示:

“DeepMind利用人工智能在蛋白质折叠预测方面取得的令人难以置信的突破将帮助我们更好地理解生命最基本的基础,并帮助研究人员应对新的和更困难的问题,包括疾病和环境可持续发展。」

参考链接:

https://deep mind.com/blog/article/alpha fold-a-solution-to-a-50岁-grand-challenge-in-biology

标签: 蛋白质 结构 蛋白