生物版ChatGPT来了!可“一键生成”蛋白质 应用多以开源为主

  在需求栏中输入对目标蛋白质的描述参数,比如序列长度、结构对称性、目标功能、结合配体结构、化学计量等;点击“运行任务”键;很快,电脑屏幕上就显示出了符合参数要求的蛋白质三维结构。

image

  这是记者在天壤 XLab 看到的相关应用。

  2022 年 10 月,天壤 XLab 上线了蛋白质自由设计平台 xCREATOR,面向高校师生免费开放,不足半年,该平台已累积有五六百用户。日前,《科创板日报》记者从天壤 XLab 处进一步了解到,今年 2 月下旬,团队自主研发的蛋白质扩散模型也已正式上线。

  支撑这些平台的技术就是蛋白质结构的自动生成技术,后者也是 ChatGPT 的核心技术之一。另有迹象表明,自动生成技术在生命科学领域的应用正在逐渐增多:

  今年 2 月,科创板合成生物学上市公司凯赛生物宣布领投 AI 蛋白质设计平台公司分子之心的新一轮战略投资;同在 2 月,初创企业赛得康宣布完成了数千万元的种子轮融资,AI 设计+蛋白模块是企业的关键词。

  “其实,ChatGPT 所依托的 AI 生成技术并非新技术,很多公司都已经有所积累并陆续开始应用了。之前有个语言模型 BERT 就被用于蛋白质生成了,取得了不错的成果。”一家行业企业对记者表示,只不过,当 ChatGPT 走热之后,AI 生成技术在生命科学领域的应用也逐渐走进了公众的视野。

  记者注意到,当互联网科技向 AI 迭代升级后,很快,AI 的应用就从 TMT 涌向了生物医药,AI+ 药物发现一度成为一级市场的投资热词;类似的情况,会不会也发生在 ChatGPT+ 药物发现上呢?

  ▌氨基酸恰类似于大数据

  记者了解到,自动生成技术之所以可应用到蛋白质的发现上,有这样的科学逻辑支撑:

  蛋白质是由氨基酸通过不同的排列组合聚合而成,每个蛋白质的三维结构又决定了它的功能作用。在算法人的眼中,氨基酸就类似于数据、蛋白质的三维结构类似于图像,通过数据及图像的不同排列组合训练,AI 就能实现自生成。

  在业内,这一逻辑也被称为 AIGP,即 AI Generated Protein(AI 生成蛋白质)。

  在天壤 XLab,记者看到了相关应用:

  在需求栏中输入对目标蛋白质的描述参数,比如序列长度、结构对称性、目标功能、结合配体结构、化学计量等;点击“运行任务”键;很快,电脑屏幕上就显示出了符合参数要求的蛋白质三维结构。

  去年 10 月,具备该功能的 xCREATOR 工作台正式上线,面向高校师生免费开放;今年 2 月下旬,团队自主研发的蛋白质扩散模型也正式上线。

  “我们还附加了一系列设计蛋白质的分析功能,可以对各类由算法自动生成的蛋白质结构进行打分,分数越高表示该自动生成的蛋白质结构的可实现性越高。”天壤 XLab 实验室负责人苗洪江博士介绍称。

  在 ChatGPT 中,需要人工对数据进行标注、打分,以此来训练算法更会聊天;AIGP 也是类似的逻辑,但不同的是,如果科研人员要想知道某一由算法自动生成的蛋白质,其可实现性到底高不高,还需要通过进一步的湿实验来验证,因此,AIGP 的技术壁垒也就更高。

  为了降低这一技术门槛,引入打分模型算法是很多企业的选择。

  前述行业企业对《科创板日报》记者进一步解释了生成算法与打分算法的工作逻辑:首先,由生成模型算法生成蛋白质;其次,由人工对经打分模型筛选出的、得分较高的蛋白质,再进行实验验证,并反馈给打分模型算法。“二者就像老顽童的左右两手互搏,通过不断增强学习,来提高算法的质量。”

  ▌探索大分子宇宙

  有了 AIGP,对于科研人员来说,最大的获益无疑是加速了研发的进展。

  “以 100 个氨基酸长度的蛋白质为例,其序列的排列组合有高达 20^100=1.3×10^130 种可能!相比之下,人类可观测宇宙总原子数量仅有 10^82,以人力来测试、构想这样庞大的蛋白质空间可以说是不可能完成的任务。”苗洪江称,如今 AI 模型能够精准定位到符合要求的蛋白质再由研发人员进行实验检验,蛋白质设计效率前所未有的提升使其终于可以走进产业应用中去。

  更重要的是,过去基于偶然性的开发工作也极大限制了人类对于蛋白质的开发,人类已知的天然蛋白质数量为 10^15,而潜在的从头设计蛋白质数量远超于已知天然蛋白质。

  以人体内的蛋白质来说,“目前大多数人类蛋白质功能研究都聚焦于约 5000 种研究较多的人类蛋白质,而人体内还存在着一个巨大的蛋白质世界。事实上,这些功能未知的蛋白质可能掌握着打开解决人类重大疾病的钥匙,如癌症、阿尔兹海默症以及多种罕见病。”苗博士解释称。

  除生命科学外,新材料、新能源和食品等领域对功能蛋白质也存有巨大的需求。“整个蛋白质世界还拥有巨大的潜在探索空间,蕴藏着无穷无尽的资源,具有极大应用价值!”天壤 CEO 薛贵荣博士表示,蛋白质领域的 ChatGPT 会成为像水、电、煤一样成为工业发展支撑,开辟出全新的科学时代。

  《科创板日报》记者进一步了解到,如何获取行业数据、如何通过实验验证来对数据进行标注进而得到高质量的反馈数据仍然是限制 AIGP 大爆发的主要拦路虎。基于此,开源共享仍是目前行业企业们的主要选择。