
近日,一个名为 DAPO,字节、清华 AIR 联合实验室 SIA Lab 出品的算法引发热议,业内人士评价其为超越 DeepSeek GRPO 的关键 RL 算法,现已开源。
值得注意的是,论文通讯作者和开源项目负责人都是一个叫 Qiying Yu 的人。禹棋赢,01 年生,本科毕业于哈工大,直博进入清华 AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed 人才计划」。
在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中,禹棋赢是唯一的实习生。虽然是实习生,但在这个大神云集的小组里,禹棋赢被委以重任,直接负责 RL 方向的研究。
此外,据媒体报道,今年字节还会继续 Top Seed 项目。将由原谷歌 DeepMind 副总裁、现字节跳动豆包大模型团队负责 AI 基础研究探索工作的吴永辉亲自带队。(量子位)