国思软件 - 01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

　　近日，一个名为 DAPO，字节、清华 AIR 联合实验室 SIA Lab 出品的算法引发热议，业内人士评价其为超越 DeepSeek GRPO 的关键 RL 算法，现已开源。

　　值得注意的是，论文通讯作者和开源项目负责人都是一个叫 Qiying Yu 的人。禹棋赢，01 年生，本科毕业于哈工大，直博进入清华 AIR，目前博士三年级在读。去年年中，他以研究实习生的身份加入字节首次推出的「Top Seed 人才计划」。

　　在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中，禹棋赢是唯一的实习生。虽然是实习生，但在这个大神云集的小组里，禹棋赢被委以重任，直接负责 RL 方向的研究。

　　此外，据媒体报道，今年字节还会继续 Top Seed 项目。将由原谷歌 DeepMind 副总裁、现字节跳动豆包大模型团队负责 AI 基础研究探索工作的吴永辉亲自带队。（量子位）

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员