新智元报道
编辑:乔杨好困
除了蛋白质设计和药物发现,Nature 上最近刊登的一篇论文又解锁了 AlphaFold 这类生物大模型的新用途——揭示生物的亲缘关系和进化史。
今年 7 月,被 Meta 解散的 ESMFold 团队成功另起炉灶,,打出的 slogan 正是「用语言模型模拟 5 亿年进化。」
论文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
这个用途,很快就被生物学家们敏锐地捕捉到了。
最近发表的很多工作中,科学家们正在用 AlphaFold 和 ESMFold 等模型,重新绘制病毒谱系,探索到了一些令人惊讶的「亲缘关系」。
这些成果,不仅可以揭秘病毒家族的进化史,还能让我们更好地应对未来的生化风险。
如果用传统方法,科学家们需要根据基因组比较的结果来理解病毒进化。
但是和哺乳动物比起来,病毒的进化速度可以说是快如闪电,尤其是基因由 RNA 组成的病毒,需要比对的基因组数量和复杂度就会急遽增加。
此外,病毒的进化不仅来源于基因突变,它们还可以从其他生物体获取遗传物质,这就辨识病毒「亲缘关系」的工作更加困难。看起来大不相同的基因序列,可能隐藏着病毒之间非常深层而遥远的关系。
相比病毒的基因,它们编码的蛋白质的形状或结构变化往往比较缓慢,然而英国格拉斯哥大学的分子病毒学家 Joe Grove 表示,在 AlphaFold 等工具出现之前,即使是整个病毒家族的蛋白质结构,也很难靠传统方法完成研究和比较。
Grove 和他的团队最近在 Nature 上发表的一篇论文,正是借助了大模型的力量,通过糖蛋白的结构揭示了黄病毒科的进化史。
论文地址:https://www.nature.com/articles/s41586-024-07899-8
黄病毒包括丙型肝炎病毒、登革热病毒和寨卡病毒,以及一些主要的动物病原体,还有一些可能对人类健康构成新威胁的物种。
病毒如何进入细胞
自从疫苗大范围接种后,丙肝成为了我们不太熟悉的一种传染病,但这个病毒每年依旧造成了数十万人的死亡。
如果要开发更为有效的丙肝疫苗,我们就需要理解黄病毒是凭借哪个蛋白质进入细胞的(其中就包含糖蛋白),这些蛋白质也同样决定了病毒能够感染哪些宿主。
如果仅在序列层面研究、比对,你会发现各个病毒的蛋白质差异如此之大,很难找到有意义的联系。但如果借助生物大模型的蛋白质结构预测功能,这个难题将迎刃而解。
研究人员使用 DeepMind 的 AlphaFold 2 模型,和 Meta 开发的结构预测工具 ESMFold,为 458 种黄病毒的蛋白质生成了超过 3.3 万个预测结构。
丙型肝炎病毒糖蛋白结构预测
之所以同时使用 AlphaFold 和 ESMFold 两种模型,是由于二者之间的一个本质差异。
AlphaFold 的输入需要依赖于相似蛋白质的多个序列,但 ESMFold 不同,它是在数千万个蛋白质序列上训练的「蛋白质语言模型」,可以只接受耽搁序列作为输入,因而非常适合深入分析那些最「神秘」的病毒。
这些结构的预测结果让研究人员们发现了一些意想不到的联系,有些和黄病毒看似八竿子打不着的亲戚,也能用类似蛋白作为「钥匙」来进入细胞。
比如,丙肝使用的细胞感染系统和瘟病毒就非常类似,包括比较经典的猪瘟,以及其他的动物病原体。
AI 辅助工具还能告诉我们,丙肝和瘟病毒所用的「进入系统」和其他病毒非常不同。对此,Grove 也很难做出解释:「对于丙型肝炎和它的亲戚们,我们不知道它们的进入系统来自哪里,可能是那些病毒很久以前发明的。」
从细菌中得到「盗版」蛋白
除了瘟病毒,预测的结构还帮黄病毒找到了两个「亲戚」——寨卡病毒和登革热病毒,它们的进入蛋白似乎有相同的起源;此外,黄病毒似乎还从细菌那里「窃取」了一种酶并据为己有。
使用 ColabFold–AlpahFold2 预测登革热病毒蛋白的结构
此前,悉尼大学病毒学家 Mary Petrone 的团队也曾在一种奇怪的黄病毒中发现了类似的「盗窃」行为。
她表示,「在黄病毒的进化过程中,『基因盗取』可能发挥了比我们之前认为的更大的塑造作用。」
瑞士洛桑大学的计算生物学家 David Moi 还指出,考虑到 AI 辅助工具未被发掘的潜力,黄病毒研究只是冰山一角。
借助人工智能,其他病毒,甚至很多细胞生物的进化历史都很可能被重写。
「我们将用新一代工具重新讲述它们的故事。既然我们现在能看得更远,所有这些生物的进化历史都需要更新。」
在生命科学的很多未解之谜中,AI 所迸发出的巨大能量让我们看到了答案的曙光,也让我们期待着故事被改写的那一天。
参考资料: