AI蛋白质设计前沿教程,AAAI'25三大机构携手4小时全面剖析

  加拿大魁北克省人工智能研究所 Mila 投稿

  量子位公众号 QbitAI

  精准预测和设计蛋白质的序列、结构及模拟其动态变化,一直是科学界的重大挑战。

  在即将举行的 AAAI 2025 会议上,加拿大魁北克省人工智能研究所 Mila、美国东北大学和 MIT 的学者将组织一场主题为“人工智能在蛋白质设计中的应用”的教程。

  综观当下,AI 与生命科学深度融合背景下,蛋白质研究正经历前所未有的 AI 驱动变革。

  作为生命活动的核心,蛋白质在细胞结构构建、物质运输和催化化学反应中扮演着关键角色。如今,AI 技术的介入,以前所未有的速度和力度,重塑了蛋白质研究的格局,带来了无限可能。

  这不仅加速了新药研发和生物技术创新,也为解决环境和工业领域的挑战提供了新的工具。

  本次教程将全面回顾 AI 在蛋白质预测与设计领域的最新进展,探讨当前的研究成果和未来的发展方向。

  同时,教程将展望 AI 在蛋白质设计中的未来趋势,讨论可能面临的挑战和机遇。

  无论是蛋白质序列表示学习,还是结构研究,AI 都展现出巨大潜力。

  本次教程中,主办方将详细介绍 AI 在蛋白质序列、结构和功能预测与设计中的应用方法。通过生成模型进行蛋白质设计,甚至可以创造具有特定功能的新型蛋白质。

  教程希望参与者具备机器学习的基础知识,但即使缺乏计算生物学或生物信息学经验也无妨,课程将提供入门介绍,帮助大家了解这一交叉学科领域。

  教程定于美东时间 2 月 26 日上午8:30 至中午 12:30 在宾夕法尼亚州费城会议中心 117 号房间举行。

  教程大纲:多维度解锁蛋白质设计奥秘

  本次教程将从多个维度深入解析 AI 蛋白质设计领域的关键问题、前沿方法和研究趋势,具体内容如下:

  (一)序章:前沿洞察与基础知识

  本部分将重点介绍 AI 在蛋白质研究领域取得的重大突破。

  从早期探索到最新成果,AI 在蛋白质研究中的每一步进展都意义深远。

  同时,将对蛋白质的基本结构、功能及其在生命活动中的重要角色进行科普讲解。

  最后,讨论如何对蛋白质数据进行学习,为后续深入研究奠定坚实基础。

  (二)蛋白质表示学习:挖掘数据的潜在价值

  本部分是教程的核心之一,将详细介绍多种蛋白质表示学习的方法。

  在序列表示学习中,将深入探讨自回归语言模型、掩码语言模型和扩散语言模型,这些模型以不同方式对蛋白质序列进行编码,提取关键信息。

  结构表示学习方面,几何深度学习为研究蛋白质的几何结构提供了新视角;GVP、GearNet 等蛋白质结构编码器,以及多种结构预训练算法,从不同角度对蛋白质结构进行学习和优化。

  多模态表示学习结合了序列、结构、功能和文本等多种信息,模型如 ESM-GearNet、SaProt、DPLM-2、ESM3、ProtST 等,展示了多模态融合在蛋白质研究中的强大能力。

  最后,将介绍这些方法在蛋白质理解任务、蛋白质适应性预测和抗体亲和力优化等方面的应用。

  (三)蛋白质结构和动力学预测,探索分子动态奥秘

  蛋白质结构和动态预测是研究中的核心问题之一。

  本部分将介绍单链折叠(如 AlphaFold2、ESMFold)、侧链预测(如 AttnPacker、DiffPack)和复合物预测(如 AlphaFold-Multimer、AlphaFold3)等前沿方法。

  在蛋白质构象采样方面,与会人员将探讨玻尔兹曼生成器、基于粗粒度的方法、基于刚性框架的方法以及蛋白质结构语言模型。

  在分子动力学(MD)轨迹模拟中,将介绍神经模拟器、条件转移算子和轨迹生成器等前沿方法。

  (四) 蛋白质设计:开启新型蛋白质创造之门

  在序列设计方面,主办方将介绍无条件序列生成(如 ProGen)和逆折叠(如 ESM-IF、ProteinMPNN)的方法。

  结构设计中,FrameDiff、FrameFlow、Genie2、Chroma、RFDiffusion、FoldFlow、FoldFlow-2 等模型将是讨论的重点。

  序列-结构协同设计部分,ProtSeed、ProteinGenerator、MultiFlow、Protpardelle、DPLM-2 等模型将展示如何同时优化蛋白质的序列和结构。

  抗体设计将聚焦于 RefineGNN、AbX 等方法。

  (五)总结与展望:共绘蛋白质设计的未来蓝图

  这一部分将系统回顾整个教程的核心内容,梳理人工智能在蛋白质设计领域的最新进展与取得的成果。

  此外,主办方还将对该领域未来可能的发展趋势进行展望,深入探讨前沿研究中可能遇到的挑战及潜在的机遇。

  最后,教程特别设置了互动问答环节,以进一步增进交流、启发思考,共同探索蛋白质设计研究的新方向。

  教程背后组织团队

  本次教程由加拿大 Mila 教授唐建,和美国东北大学教授金汶功团队联合组织。

  唐建博士是加拿大魁北克省人工智能研究中心 Mila 副教授,该中心由图灵奖获得者、“AI 之父” Yoshua Bengio 创立。

  他还是加拿大 CIFAR AI 讲席教授、北京百奥几何公司创始人兼首席执行官。

  此外,唐建是图表示学习领域的知名学者,在深度生成模型、图机器学习及其药物发现应用方面成果显著。

  他曾发表图表示学习领域的经典论文 LINE(单篇引用次数超过 6000 次),并将这些技术开创性地应用于药物发现领域,发表了一系列极具影响力的代表作,包括最早用于分子图的预训练算法 InfoGraph、第一个用于分子三维结构生成的扩散生成模型 ConfGF 和 GeoDiff,以及最早基于蛋白质三维结构的预训练模型之一 GearNet。

  他还与英伟达、Intel、IBM 等机构共同开发了业内首个专门针对药物与蛋白质的开源机器学习平台 TorchDrug 和 TorchProtein。相关研究发表于 Nature、PNAS、Nature Communications、Nature Machine Intelligence、NeurIPS、ICML、ICLR 等顶级会议与期刊。

  同时,唐建还担任 NeurIPS 和 ICML 的领域主席,以及机器学习领域著名期刊 Journal of Machine Learning Research (JMLR)的执行编辑。

  金汶功博士是美国东北大学 Khoury 计算机科学学院助理教授,同时担任 Broad Institute Eric and Wendy Schmidt 中心的访问研究科学家。

  他于 MIT CSAIL 获得博士学位,导师为 Regina Barzilay 和 Tommi Jaakkola。

  在 AI 药物发现领域的算法创新方面,金汶功团队等变神经网络、扩散模型等多个方向有所建树,开发出 RefineGNN、Mol2Image 等模型与算法,成果发表于 NeurIPS、ICLR 等顶会。

  在药物发现方面,团队成功发现了新型抗生素,成果发表在 Cell 和 Nature 等。

  在化学工程领域,团队还助力实现自动化化学合成实验室,其开发的化学反应结果预测算法精度达到化学家级别,相关成果发表于 NeurIPS 和 Chemical Science 等期刊。

  教程链接:

  https://deepgraphlearning.github.io/ProteinTutorial_AAAI2025/