阿里M6大模型前带头人杨红霞加盟字节跳动,参与语言生成大模型研发

  文周鑫雨邓咏仪

  编辑杨轩苏建勋

  36 氪从多处独立信源获悉,阿里 M6 大模型的前带头人杨红霞已加入字节 AI Lab(人工智能实验室),参与语言生成大模型的研发。

  一名知情人士对 36 氪表示,杨红霞在语言生成大模型团队中处于领导地位,直接向字节跳动副总裁杨震原汇报。36 氪就上述消息向字节跳动求证,截至发稿前暂未收到回复。

  杨红霞曾是阿里达摩院超大规模多模态预训练模型 M6 的技术负责人,毕业于南开大学、杜克大学统计科学系,师从著名统计学家 David Dunson。她在人工智能领域国际会议、顶级期刊有近百篇顶级论文。

  2022 年 9 月初,杨红霞因个人家庭原因从阿里巴巴达摩院离职。

  M6 是阿里巴巴达摩院研发的超大规模多模态预训练模型,而大模型是本轮 AI 浪潮中的竞争核心。

  杨红霞曾带领 M6 大模型从百亿级进化到千亿、再到万亿的参数量,并且主导认知智能技术的发展和场景落地。2021 年 3 月,M6 大模型首次发布,到 2021 年底,阿里云发布 M6 最新进展时,其参数已至 10 万亿,成为当时全球最大的 AI 预训练模型。

  而达摩院在大模型的落地上,也走在业界前列。2022 年底,阿里云魔搭社区开源超过 300 个 AI 大模型,包括 M6、通义大模型等等,为开发者提供基础 AI 模型资源。

  不过,由于达摩院 AI 大模型离实际业务落地还是较远,加上大厂降本增效的背景,业务无法落地也无法得到更多支持,这也导致包括杨红霞在内的多位顶级人才离职,如智能研究领域负责人金榕、城市大脑实验室负责人华先胜。

  从前美团联合创始人王慧文、出门问问 CEO 李志飞、前京东技术掌门人周伯文相继发布英雄帖寻找研发人才,再到“投人”的逻辑将不少技术大拿的 AI 创业项目估值拉上亿元美金,国内 AI 界的人才大战已经爆发。

  对大模型的研发而言,人才在一定程度上决定了算法能力的上限。不少从业者都表示,资金、数据、算力等难题至少有解法可循,但算法这一必定需要人参与的环节,对人的能力提出了很高的要求。“好的算法能够在提高执行效果和效率同时,还能尽量缩减存储量。”一名 AI 从业者告诉 36 氪。

  杨红霞的加盟,也意味着字节在大模型上发力的决心。此前,36 氪独家报道了字节跳动大模型的研发进展:语言大模型团队由字节搜索部门牵头,目前团队规模在十数人左右;图片大模型团队则由产品研发与工程架构部下属的智能创作团队牵头。

  多名知情者告诉 36 氪,目前图像生成大模型的进展较为顺利,将与抖音、剪映等产品进行结合。但语言生成大模型由于起步晚、基础薄弱等原因,目前效果尚未达到团队预期。字节跳动相关技术负责人也对此做出了回应:技术中台在这些领域有探索,还很初期,不成熟。

  百度已用文心一言在大模型角逐中棋先一招,逐渐组建人才团队的字节跳动能否后来居上,还有待时间验证。