杨植麟:Kimi月活已超3600万,全新数学推理模型对标o1

(图片来源:钛媒体 App 编辑林志佳拍摄)

(图片来源:钛媒体 App 编辑林志佳拍摄)

  自 2023 年 11 月 16 日起,一款名为 Kimi 的 AI 应用产品在中国横空出世、瞬间爆红,在苹果 App Store 应用商店的下载排名中,一度超越微信、抖音,冲到榜首。

  被称为“中国版 ChatGPT”的免费 AI 应用 Kimi,能一口气直接进行 200 万字长文本处理,文笔比百度“文小言”(文心一言)更加流畅自然,引发社交平台讨论。

  截至今年 10 月,每月有超过 3600 万人在使用 Kimi 智能助手。

  Kimi 智能助手背后的“缔造者”,来自一家创立约 579 天的 AI 公司“月之暗面”(Moonshot AI),公司创始人、CEO 是一位 31 岁的连续创业者杨植麟。

  杨植麟于清华大学计算机系毕业、美国卡内基美隆大学计算机博士,曾在 Meta AI 和 Google AI 研发团队工作过,同时他也是 Transformer-XL 与 XLNet 两篇重要论文的第一作者,两者均涉及大语言模型领域的核心技术,并且是中国 35 岁以下 NLP(自然语言处理)领域引用量最高的研究者。回国后,他曾带领团队参与盘古大模型的核心技术研发,还带领其联合创立的 NLP 公司循环智能的产品研发。

  随着 Kimi 智能助手爆火,过去 1 年多,无论是月之暗面,还是杨植麟本人,都面临着巨大的争议与热度。

  首先,融资层面,月之暗面优异的 AI 技术、产品、应用和市场销售能力,让阿里巴巴、腾讯、红杉中国、美团、小红书、招商局中国基金等机构一窝蜂抢投,数月前满周岁时融资总额就已达数十亿元人民币,公司估值已超过 200 亿元。

  其次,AI 大模型市场持续“狂飙”,从“百模大战”到“价格战”、落地应用竞争、“百变 AI 应用”等,大模型领域竞争加剧,MoE(混合专家)、AI 视频、实时语音对话、多模态、开源闭源、端侧模型等新技术新模式不断涌现,而在此之前,Kimi 在部分产品功能层面是有所缺失的,而且在 Kimi 免费下,月之暗面每月大量投流和研发投入,导致市场开始怀疑其商业盈利能力和长期行业竞争力。

  最后,杨植麟近期“被仲裁风波”引发关注,金沙江创投等 5 家前投资人向媒体透露仲裁消息,让更多人担忧接下来公司的发展情况。

  围绕“昨天、今天和明天”这些话题,11 月 16 日下午,北京海淀京东科技大厦,闭关技术研发数月的杨植麟,在 Kimi Chat 全面开放一周年日,不仅发布了对标 o1 的全新 kimi 数学模型——k0-math(未来一两周内上线 kimi 探索版),而且还与钛媒体 App 等对诸多话题进行沟通与回应。

  无论大众是否完全满意,但我们相信,杨植麟已经在尽最大努力“回应一切”。

  谈投放和成本:Kimi 留存率很重要,这与 AGI 有正相关作用

  当问及最近出现 AI 创业公司被收购、人才回流的现象,kimi 怎么看待当前 AI 发展现状?

  对此,杨植麟表示,“我们没有遇到。我觉得也很正常,行业发展进入新的阶段,之前有很多公司在做(大模型),现在有一些小公司在做,行业发展规律。”

  他谈到,今年2、3 月份开始,月之暗面开始聚焦和缩减(出海业务)。

  “我认为应该做减法,不是疯狂的做加法,更加应该聚焦业务。”杨植麟强调,提升留存率是很重要的,留存率和 AGI 是正相关过程,现在与 AGI 还有一定的距离,今天做的交互能力还很有限。

  随后,杨植麟补充称,“这也是我们过去一年比较大的 lesson(教训),我们一开始尝试过几个产品一块做,这在一定时期内奏效,但后来发现,这样就活生生把自己变成大厂了,没有任何优势。”

  “砍业务本质上也是在控制人数。这几个大模型创业公司里,我们始终保持人数最少,始终保持(算力)卡和人的比例最高,我们主动选择做了业务的减法,应该聚焦把一个业务产品做好。我们不希望团队扩那么大,(扩大)对创新有致命性伤害。另外,我们也会根据美国市场的情况,判断哪个业务做大的概率更高。你看,ChatGPT 有 5 亿人次月活,已经是超级应用,当然也有其他应用很难‘破圈’,我们看到了美国市场的情况,选择聚焦,聚焦在我们认为上限最高的事情上,而且这跟我们的 AGI misson(使命)也最相关。”杨植麟称,kimi 需要聚焦能产生用户价值的层面。

  据悉,此次公布的全新一代数学推理模型 k0-math。基准测试显示,Kimi k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型:o1-mini 和 o1-preview。在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

  同时,Kimi 探索版也通过运用强化学习技术创新了搜索体验,在意图增强、信源分析和链式思考三大推理能力上实现突破。

  杨植麟介绍,k0-math 模型和更强大的 Kimi 探索版,未来几周将会分批陆续上线 Kimi 网页版和 Kimi 智能助手 APP,帮助大家解决更有挑战的数学和搜索调研类任务。

  最后,被问及前段时间据估算 Kimi 今年投放的金额有4、5 亿,大部分是竖屏视频广告,那么 Kimi 的投流策略是什么?

  杨植麟回应称,首先数据不准确,其次,“对我们来讲,最核心的还是把留存和增长做好。适当的投放是需要的,但需要平衡好这几个东西之间的关系。”

  谈与豆包竞争:不应该关注竞争本身

  当被问及如何看待 kimi 跟豆包的竞争,杨植麟对钛媒体 App 等表示,不应该关注竞争本身。

  “我们还是觉得更希望关注在怎么能给用户真正价值上,我不希望我们过多的去关注竞争本身,因为竞争本身并不产生价值,我觉得我们只有 diliver 更好的技术和产品,给用户创造更大的价值,所以这是我们现在最核心的问题。我们会更聚焦在你怎么提升模型的思考推理能力,通过这个东西给用户带来更大的价值,就是做正确的事情,而不专门去做不一样的事情。因为我觉得只要能有人实现 AGI 它都是非常好的结果。”杨植麟称。

  在杨植麟看来,投流不是当下 kimi 考虑的重要问题,更重要的是留存是否有增长。

  那么对于 ROI 是否为正,杨植麟表示,“对我们来说现在最关键的还是留存,我觉得这个还是需要看的再长远一些。看你怎么衡量(ROI)吧,肯定这个东西需要去算,我们也会持续的提升,我们的好处是跟技术的进展是高度正相关的。”

  对于成本,大模式推理成本问题也很重要。因此,杨植麟透露,Kimi 未来会考虑次数限制,但无论是探索还是数学模型版,本大概率会让用户自己去选择。

  “长期来讲,成本也是不断下降的过程。比如说今年你如果达到去年 GPT-4 模型的水平,你可能只需要十几B(数百亿规模)的参数就能做到,此前可能需要 100B(1000 亿)以上参数大模型。”在杨植麟看来,算力成本在不断下降,先把行业做大更为中药。

  谈多模态:我们在内测中,交互能力是必要条件

  钛媒体 App 问杨植麟,Sora 即将发布,但 Kimi 很少看到多模态层面的产品更迭,原因是什么?

  对此,杨植麟表示,“我们也做,我们几个多模态的能力在内测。我是这样看的,多模态,我觉得 AI 接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,我觉得思考会决定上限,交互我觉得是一个必要条件,比如说 vision 的能力,如果没有 vision(视觉)的能力没法做交互。所以我觉得它两个不太一样。”

  杨植麟强调,多模态肯定是要做的,“但是我觉得是思考决定它的上限。”

  谈算力和 Scaling Law 瓶颈:训练明年会到天花板,但 Scaling 还有更多空间

  当前,Scaling Law 被质疑存在瓶颈,OpenAI 前首席科学家、SSI 创始人伊利亚(Ilya Sutskever)表示,扩大预训练的结果已经达到了平台期。所谓预训练,即使用大量未标记数据来训练人工智能模型以理解语言模式和结构的阶段。

  对于这个相关话题,杨植麟表示,模型预训练已经有一定的“天花板”,半代到一代的模型空间会在明年释放出来,所以这种模型会做到一个比较“极致的阶段”。但 Scaling Law 依然有很多空间,他对此依然很乐观。

  ”明年我觉得领先的模型会把预训练做到一个比较极致的阶段,今天比如说,我们去看最好的模型,它大概有医学空间可以去压榨。但是我们判断,接下来最重点的东西会在强化学习上,就是‘范式’上会产生一些变化。但是它还是 Scaling,并不是它不用 Scale,只是说你会通过不同的方式去 Scale,这是我们的判断。”杨植麟称。

  对于 Scaling law 天花板,杨植麟表示乐观,他认为核心原因在于用“静态数据集”,这其实是比较简单粗暴的使用方式,现在用强化学习的方式,可能会产生更多的作用。“我现在觉得相对来说,具体从做法上来,我觉得确定性是比较高的,很多时候是真正把它调出来的过程,所以我觉得大概率可以通过这种方式去做出来,所以我觉得它上限是很高的。”

  谈数据泛滥和错误率优化:整个行业会变好

  谈及数据错误和数据价值话题,杨植麟重点谈了一些,他认为训练更多数据,做好奖励模型,减少尽可能错误数据等,这些都极为重要。

“确实,对于强化学习来讲是一个核心的问题,比如说如果它是像以前做 Next—Token  prediction(下一步 Token 预测)它是一个静态的数据的话,相对来讲技术会更成熟一些。但是对强化学习来讲,所有的学习数据都可能是自己生成的,想了半天你也不知道这个想法是对还是错,就会对你奖励模型的效果提出挑战。不光是奖励模型的效果,还包括你怎么把奖励模型很有效的利用到学习的过程中,这样你就能够让它尽可能减少学习错误的东西。包括我刚刚讲的,可能有一些局限性在于,比如它猜出来了一个答案,这种 patten(图案)也是训练过程中去抑制的,因此解决这个问题的核心,是怎么更好的训练奖励模型,设置奖励机制,有点像以前(GPT 预训练 pretraining)你还要做很多的对齐的工作,我觉得其实对强化学习来说也是一样的。”杨植麟认为,减少尽可能错误的东西,因此需要训练更多的数据,设置奖励机制,才可能解决数据泛滥等问题。

  杨植麟强调,接下来,团队将开始考虑改变奖励结构,“一定程度也会抑制这样的问题,这是我们接下来想去解决的问题”。

  关于数据、算力和算法平衡问题,杨植麟对钛媒体 App 表示,需要做更多的数据清洗,做更好质量的数据,需要不断 Scaling,这是整个行业的问题,他相信“强化学习”会让这种平衡持续变好。

“我觉得 AI 的发展就是一个‘荡秋千’的过程。你会在两种状态之间来回切换,一种状态就是你算力不够,比如说你算法数据是非常 ready,但是你的算力不够,所以你要再的事情就是做更多的工程,把 infra(基础设施)做得更好。它就能够持续的提升。我觉得其实从 Transformer 诞生到 GPT4,其实更多的矛盾就是我怎么能够 Scale,但是你可能在算法和数据上可能没有本质的问题。

今天当你这个 Scale 差不多的时候,你会发现,我再加更多的算力,并不一定能直接解决这个问题,核心是因为没有高质量的数据,几十亿 token 是人类互联网积累了 20 多年的上限。这个时候要做的事情,就是我通过算法的改变,让这个东西不会成为瓶颈。现在可以理解成,我们遇到的问题或者整个行业遇到的问题,也许你直接加更多的卡,它不一定能看到直接的提升,所以你要通过这个方式的改变让它把这个东西释放出来。所有的好算法,就是跟 Scaling 做朋友,如果你的算法能够释放 Scaling 的潜力,它就会持续变得更好。我们从很早就开始做强化学习相关的东西,我觉得这个也是接下来很重要的一个趋势,通过这种方式去改变你的目标函数,改变你的学习的方式,让它能持续的 Scale。”杨植麟称。

  中美大模型差距:我觉得创新能力更重要

  其中谈到了中美大模型差距话题。

  对此,杨植麟认为,这种(放缓)速度对于 kimi是一件好事。中美没有什么变化或者说差距,相对是一个常数,一段时间内算力不是瓶颈,创新能力更加重要。

  “差距我一直觉得相对是一个长处,对我们来说它有可能是一个好事。假设你一直 pre-train,你的预算今年 1B、明年 10B 或者 100B,它不一定可持续。当然你执着也要 Scaling,只是说你 Scaling 的起点很低。你可能 Scale 很长一段时间,在一段时间内你的算力就不会是瓶颈,这个时候你的创新能力是更重要的,在这种情况下我觉得对我们反而是一个优势。”杨植麟表示。

  杨植麟强调,此次 kimi 发布的数学模型已经证明,一是它可以在教育等领域产生更大价值,也起到很重要的作用,二则是 Kimi 在技术上的不断迭代和验证。

  “我们可以把这个技术去放在更多的场景里,比如探索版可以去做很多的 AI 搜索,我觉得它会有两层这样的含义。”杨植麟称。

  (本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)