2024化学诺奖专家解读:颁给蛋白质预测和AI实至名归,化学家还不会“失业”
2023年夏天,巴萨希望引入中场球员达德尔,但最终没有成功。近日,达德尔接受媒体采访,解释了当时的情况。达德尔示:“在那一刻你显然会倾听。当巴萨打电话给你时,你会经历几天的纠结心情。
“生命的奥秘不是纯粹的生物学问题,它不是孤立的。要研究这样一个复杂生命过程,需要用到生物、化学、物理、数学、计算机等等。”
人类研究者在对问题的敏锐上是目前AI比不上的,也能够很快地拥抱新技术助力研究。
当地时间2024年10月9日,瑞典斯德哥尔摩,诺贝尔化学*员会成员约翰·阿奎斯特、常任秘书汉斯·埃莱格伦和诺贝尔化学*员会 Heiner Linke在瑞典皇家科学院将今年的诺贝尔化学奖颁发给戴维·贝克、德米斯·哈萨比斯和约翰·江珀。 视觉中国 图
北京时间10月9日下午,2024年诺贝尔化学奖在瑞典揭晓。奖项授予大卫·贝克(David Baker)、德米斯·哈萨比斯(Demis Hassabis)和约翰·詹珀(John Jumper),以表彰他们在使用机器算法解读蛋白质结构方面所作出的巨大贡献。
解析蛋白质结构是困扰了科学家50年的难题。蛋白质是生命的基石,不仅组成了我们身体的器官组织等基本结构,还作为荷尔蒙、生物信号传递物质、抗体等广泛参与各种生命过程。蛋白质由20个氨基酸排列组合成的长链折叠而成,就像同样的纸能折成纸鹤也能折成盒子,不同的折叠方式所形成的结构决定了蛋白质的功能。
氨基酸链条在被细胞生产出来之后,会迅速自发折叠成具有特定结构的蛋白质。科学家们后来发现,指导折叠的“命令”就藏在氨基酸链条的序列之中,自此开启了对氨基酸序列和蛋白质结构之间关系的科学探索。
与这个领域差不多同时开始发展的是计算机科学中神经网络的研究。这种算法的设想是建立类似大脑的计算系统,其中每个神经元节点能够接受来自其他节点的信号,并计算是否向下一个节点发送信息。在这样的网络中,信息通过多层次的神经元加权计算,就能最终形成对输入信息模式的识别。科学家们早已尝试通过这种技术来计算氨基酸序列和蛋白质结构之间的关系,但这两个领域都进展缓慢。
在2010年之后,神经网络技术得到了重大突破,神经元的层数从2层增加到了成百上千层,从浅层网络变成“深度学习”和“人工智能”(AI),并能够完成对话、图像识别和生成等复杂任务。与此同时,通过实验生物学家的不断努力和冷冻电镜等观测技术的发明,被解析出来的蛋白质结构从几种暴涨到14万种,为深度学习提供了数据基础。
复杂的蛋白质结构问题最终迎来“人工智能”时刻。来自谷歌公司的哈萨比斯和詹珀创造了AlphaFold系列算法,通过不断迭代,2020年诞生的AlphaFold2已经能够以超过90%的正确率通过氨基酸序列预测人类所知的2亿种蛋白质结构。而蛋白质计算领域的先驱者贝克除了创造多种预测算法外,更加开创了在没有现存蛋白质结构参考的情况下“从头设计”蛋白质的先河,为 设计等领域作出了巨大贡献。
今年是诺贝尔奖的“AI年”,物理学奖与化学奖都颁给了AI相关的工作。这是否意味着AI已经能够取代科学家的工作?本届得主为何获得化学奖而非生理学或医学奖?蛋白质结构问题已经被 了吗?为了解答这些问题,澎湃科技采访了上海交通大学化学化工学院长聘教轨副教授沈琦。
颁给蛋白质结构问题,更是颁给AI
为何蛋白质研究没有获得生理学奖或医学奖而是获化学奖,而AI又能获得化学奖?对此,沈琦表示,生命的问题本质上就涉及到交叉学科,而像AI这样的强力工具能帮助人们进行探索。
“生命的奥秘不是纯粹的生物学问题,它不是孤立的。要研究这样一个复杂生命过程,需要用到生物、化学、物理、数学、计算机等等。”他说。
以蛋白质为例。组成蛋白质的基本单元氨基酸是由一个氨基、一个羧基、一个氢原子和一个侧链基团组成。不同氨基酸的区别在于它们的侧链基团不同,这影响了它们在蛋白质结构中的相互作用和功能。当两个氨基酸相遇时,其中一个的羧基结构会和另一个的氨基发生反应,形成肽键将它们连接在一起,如此形成多肽链。这便是蛋白质的“一级结构”。
多肽链会以螺旋或折叠的方式形成特定的“二级结构”,这些二级结构又能通过连接结构形成更复杂的三级结构。正如在折纸时涉及到纸张硬度、施力大小等多种物理、材料规律,多肽链的折叠也是由氨基酸序列中原子和分子的相互作用决定的,如氢键、疏水作用、离子键、范德华力等。
沈琦说,要研究这个过程,就涉及到微观层面的物理化学知识,如力场[QS1] 等。“能量最小化”是研究蛋白质折叠的一个重要线索。就像“水往低处流”一样,蛋白质折叠也倾向于形成能量最小的状态,科学家们因此可以通过计算分子间的相互作用力,模拟蛋白质的折叠和动态行为。
从这个角度上来说,“蛋白质结构问题的研究颁生命科学、化学甚至物理奖,都是可以的。”而随着AI的出现,蛋白质预测的准确率和效率都得到了前所未有的提高, 了困扰化学家多年的重大科学难题,并成为广大科研人员手中的得力工具,获奖实至名归。
沈琦告诉澎湃科技,有了这些预测工具之后,科学家们能够根据氨基酸序列快速计算出蛋白质的精细结构,大大提高工作效率。另外,通过AI也能 设计和验证新的蛋白结构,帮助新药开发和人工生命体的构建。
“从蛋白质一级结构预测高级结构是化学生物学家、结构生物学家和物理化学家都 关心的一个重要问题。”他说,“AI确实在某种程度上 了它。”
AI只是工具:生物化学家还不会“失业”
“自己辛辛苦苦花费数年解析出来的蛋白质结构被AI很快精准预测了,很多结构生物学家心里确实会不舒服。”沈琦说。不过在他看来,AI在蛋白质结构预测领域还有很长的路要走。
他认为,蛋白质结构预测的终极问题还未被 ,AI算法对我们彻底理解底层生物规律的帮助有限。AlphaFold一类的大模型本质是通过对已有的大量氨基酸序列和蛋白质结构数据的比对而形成概率预测,发现更有可能的结构,对于蛋白折叠过程背后的科学规律的认识还很有限。
虽然目前AI预测蛋白质结构的准确率很高,但也不是完全精确。“对于蛋白质来说,序列上百分之几的差异可能就是完全不同的功能。现在的AI还做不到那么精确,仍然需要依靠实验观测去解析。”沈琦说。
此外,对于蛋白质的动态结构以及蛋白质的相互作用,AI的表现也差强人意。“蛋白质在溶液中是动态的,彼此之间还会进行复杂的相互作用。另外,细胞中存在大量没有正常结构的‘天然无序蛋白’,但却发挥着重要的作用。这些AI都还不能很好地预测。”
沈琦认为,AI的成就是以传统结构生物学家数十年的努力作为基础的。“没有他们通过实验解析所得到的结构数据,AI是无法训练的。”
此外,人类研究者在对问题的敏锐上是目前AI比不上的,也能够很快地拥抱新技术助力研究。“从X射线晶体学,到冷冻电镜,再到现在的AI,仔细观察的话优秀的学者并没有被技术的更新所淘汰,而是能够很快地拥抱新技术。”他说。
对于人类来说,知识背后的逻辑和直觉或许是最大的优势。“让一个生物学家去学AI,或许比让AI工程师更容易在生命科学领域出成果”。另外,沈琦表示,“一个好的技术最终是要做到普及性,让大家可以比较快地去学习。以后用AI去预测蛋白,就像查手机地图那样简单。”