Google 旗下的 DeepMind,一夜之间让学术界炸了锅。
5 月 8 日,DeepMind 官宣了一个新的 AI 模型:AlphaFold 3。
相关的研究论文,发表在权威的《自然》杂志上,一来就占据了头版。
ChatGPT 之后,AI 模型不计其数,但最有资格自称改变世界的,可能只有 AlphaFold 3。
AlphaFold 超级进化,让生物世界更加「高清」
我们在中学生物课上学过,蛋白质是由氨基酸通过肽键连接形成的长链分子,在空间中折叠成复杂的三维结构。
三维结构决定了蛋白质的功能,直接影响了药物设计和疾病治疗。
可以说,蛋白质结构预测,是生物学最重要的命题之一。
但预测蛋白质的三维结构,是一件难事,往往需要复杂的实验,甚至被形容为「困扰了生物学家 50 年的问题」。
2016 年,DeepMind 的 AlphaGo,战胜了职业九段棋手,重写了围棋这门古老的技艺。
DeepMind 的 AlphaFold,则要探听生物学的密码,窥探生命本身的堂奥。
2018 年,AlphaFold 1 发布。
2020 年,AlphaFold 2 面世,已经可以在几分钟内大规模地准确预测蛋白质的形状,并精确到原子级别。
现在,我们迎来了 AlphaFold 3,一个野心更大的 AI:超越蛋白质,探索所有的生物分子。
生物分子,即构成生物体的分子,包括蛋白质、DNA、RNA 等。
DeepMind 认为,只有了解生物分子如何在数百万种组合中相互作用,才能开始真正理解生命的过程。
一言以蔽之,AlphaFold 3 比起前代,覆盖的范围更广了,可以准确预测蛋白质、DNA、RNA、配体等生物分子的结构,以及它们如何相互作用。
先来看一些 AlphaFold 3 的预测结果。
7PNM,是一种普通感冒病毒的刺突蛋白。
如图所示,AlphaFold 3 对 7PNM(蓝色部分)与抗体(绿色部分)、单糖(黄色部分)相互作用时的结构预测,与真实结构(灰色部分)吻合。
预测背后有其意义,把这类蛋白质研究清楚,科学家便能更了解免疫系统和包括新冠在内的冠状病毒,甚至提出更好的治疗方案。
除了蛋白质的结构,AlphaFold 还能预测分子复合物,即多个分子组成的复杂结构。
下图的酶,来自一种对植物有害的土壤真菌。
AlphaFold 的预测结果,包含一个酶蛋白(蓝色部分)、一个离子(黄色球体)和一些单糖(黄色部分),契合了真实结构(灰色部分)。
深入了解这种酶与植物细胞如何相互作用,可以帮助研究人员开发更健康、抵抗力更强的作物,给农业生产带来实际的好处。
类似地,AlphaFold 3 预测了一个由蛋白质(蓝色部分)、RNA 链(紫色部分)和两个离子(黄色部分)组成的分子复合物,同样和真实结构(灰色部分)高度匹配。
这种复合物参与蛋白质的合成,即细胞生命活动和健康的基本过程之一,研究意义同样深远。
展现预测结果的准确性,再强调相关的用途,DeepMind 想要告诉世界,AlphaFold 3 是一种「革命性的模型」。
一方面,研究范围更广了。把视野扩充到蛋白质之外,特别是配体等小分子,可以涵盖更多的药物。
另一方面,准确度也提高了。对于蛋白质与其他分子类型的相互作用,与现有的预测方法相比,AlphaFold 3 的精度至少进步了 50%。其中一些重要的相互作用,提升甚至达到了 100%。
这样一来,AlphaFold 3 可以造福更多的研究,加速药物设计、推动基因组学、研发更健康的作物、开发生物可再生材料……
说到技术原理,AlphaFold 3 基于 AlphaFold 2 改进,核心是 Evoformer 深度学习架构,并使用了类似 Midjourney 的扩散网络。
使用 AlphaFold 3 的过程,有些像我们和大语言模型聊天。输入对生物分子的描述,AlphaFold 3 生成这些分子的三维结构,并研究它们如何相互作用。
AlphaFold 3 给出预测结果的过程,类似逐步去噪的 AI 文生图扩散模型,从模糊的原子云开始,逐步汇聚成准确的分子结构。
讲人话的生成式 AI,增强了格子间打工人的生产力。AlphaFold 对科学家们的意义,也不外如是。
在实验室进行蛋白质结构预测,可能要花掉攻读一个博士学位的时间,以及数十万美元。上亿个预测,怕是穷尽几百万人的一生也无法完成。
但有了 AlphaFold,科学家们可以提出大胆的问题、创新的假设,然后在实验室进行测试,加速研究的进程。
DeepMind 的一句话,足以向普通人概括 AlphaFold 3 的意义:
AlphaFold 3 将生物世界带入高清。
将 AlphaFold 交给世界,等待科学发现的新文艺复兴
之前为了嘲讽 OpenAI 的闭源,马斯克给它起了个绰号:CloseAI。
投喂了 OpenAI 好几篇论文的 Google,在某些方面更有开源的精神。
2021 年 7 月,AlphaFold 2 在 Nature 发布了论文,也开源了代码。
截至目前,AlphaFold 2 已用于预测数亿个结构。全球数百万研究人员,将 AlphaFold 2 用于疟疾疫苗、癌症治疗和酶设计等领域。
也是在 2021 年 7 月,DeepMind 和欧洲生物信息研究所(EMBL-EBI)合作,发布了 AlphaFold 蛋白结构数据库,提供了迄今为止最完整、最准确的人类蛋白质组图景。
DeepMind 在官宣的博客里提到,这是自人类基因组绘图以来最重要的数据集之一,现在他们将 AlphaFold 的力量,免费交到全世界科研人员的手中。
一年之内,超过 50 万研究人员使用了 AlphaFold 数据库,查看了超过 200 万个结构,加速解决塑料污染、抗生素耐药性等现实问题。
自那以后,数据库还在不断地扩充。
2022 年 7 月,DeepMind 发布了几乎所有科学已知的蛋白质预测结构,总共超过 2 亿个,除了人类,其中还包括了植物、细菌、动物和其他生物体的预测结构。
AlphaFold 数据库,就像蛋白质结构的「Google 搜索」,也像一个繁星闪烁的蛋白质宇宙。蛋白质的三维结构是生命的基石,看起来又精致美观,让人感叹大自然造物的神奇。
不过,这次发布的 AlphaFold 3,相比 AlphaFold 2,态度稍微显得保守,招致了一些批评的声音。
AlphaFold 3 目前没有开源,不能在本地部署,研究人员只能通过 DeepMind 最新推出的研究平台 AlphaFold Server,免费访问大部分功能,且用途是非商业的。
最阻碍科学进步的是服务的访问次数:每天只能进行 10 次预测。
抠门行为的背后,DeepMind 可能有自己的商业考量——子公司 Isomorphic Labs 已经与制药公司合作,将 AlphaFold 3 应用于药物设计。
Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 乐观地表示,首批 AI 设计的药物可能会在未来几年内准备好进行测试。