曾经靠alpha go、alpha zero在围棋界大杀四方,google旗下的deepmind公司又有最新战果,以人工智能“alphafold”程序,在98位参赛者中,拿下国际蛋白质3d结构预测竞赛(casp)的第一名。
值得注意的是,alphafold在43种蛋白质中,成功预测出其中25种蛋白质的精确结构,但在同类别比赛里排名第二的队伍,只预测出其中三种。
“正如我们已经看到ai能帮助人类掌握复杂的游戏一样,我们同样希望有一天,ai的突破会帮助人类掌握最根本性、重要的的科学问题。”deepmind共同创办人兼首席执行官杰米斯.哈萨比(demis hassabis)说。
为什么要“预测”蛋白质?
蛋白质是维持生命所必须的大型复杂分子。
deepmind解释,但凡身体能执行的各项功能:收缩肌肉、感知光线、将食物转化为能量,都跟一种或多种蛋白质的运动和变化有关。而这些蛋白质的“配方”——基因,被编码在人体的dna中。
而蛋白质的作用,取决于它独特的3d结构。
例如,胶原蛋白的形状像绳索,能在软骨、韧带、骨骼和面板之间传递张力;构成人体免疫系统的蛋白则是“y”型,长得像钩子,能够检测和标记致病微生物,锁定并消灭病毒和细菌。
换言之,若能预测蛋白质形状,有助于理解其在体内的作用,以及诊断和治疗被认为是由错误折叠的蛋白质引起的疾病,如阿兹海默症、帕金森氏症等。
但,这项挑战已经持续了几十年。
根据《卫报》报导,人体可以制造大量不同的蛋白质,估计从几万到几十亿不等。每一种都是一个胺基酸链,其中有20种不同的类型。一种蛋白质可以在每一个胺基酸之间扭曲和弯曲,因该种含有数百个胺基酸的蛋白质有可能呈现出惊人数量
的不同结构,“例如1后面跟着300个零。”
alphafold通过神经网络预测蛋白质结构,和传统以核磁共振、x光的实验室方法有很大不同。
ai改变了蛋白质预测方式
deepmind表示,在过去50年里,科学家们在实验室中通过核磁共振或x光等技术来确定蛋白质的形状,但是每种方法都依赖于大量的尝试和错误,且需要花费数年时间、数万美元。这也是为什么,生物学家开始通过人工智能来替代改变这些漫长而费力的过程。
alphafold并没有以过去的蛋白质3d结构为模版,而是试图从零开始,训练神经网络通过蛋白质的遗传串行,预测蛋白质的物理特性,包含:胺基酸对之间的距离、链接这些胺基酸的化学键之间的角度。
他们先训练了一个神经网络,来预测蛋白质中每对残基之间的距离分布。然后,还训练了一个单独的神经网络,可通过使用所有距离的总和来估计这些结构离正确答案有多近。
虽然,这些预测蛋白质折叠的成果令人兴奋,证明了人工智能对科学研发的效果。不过deepmind知道,在能够对治疗疾病、环境等议题产生“可量化的影响”之前,他们还需要继续努力。