李沐老师回归B站!带着大模型创业成果填坑来了

  西风发自凹非寺

  量子位公众号 QbitAI

  终于,AI 大神李沐回来了!带着他的大模型创业最新成果——

  一个专门为复杂场景角色扮演设计的大模型,名为Higgs-Llama-3-70B

  得知消息的不少网友已激动在评论区催更,李沐老师也回应,视频坑还是会填的:

想你的 365 天。

终于回来了,视频都盘包浆了。

  那沐神到底干啥去了?这就透过 Higgs-Llama-3-70B 瞧一瞧。

  定睛一看,Higgs-Llama-3-70B 是沐神去年联合创立的公司Boson AI,推出的Higgs 开源系列大模型中的第一个,基于 Llama 3 打造,做了完整的 SFT、RLHF。

  它不仅能在角色扮演任务上表现优异,在通用领域上的指令遵循和推理方面也很有竞争力。

  左击 Claude3,右打 Gemini

  团队在两个新基准测试 MMLU-Pro 和 Arena-hard 上展示了 Higgs-Llama-3-70B 的能力。

  他们还特地强调所有基准测试终将导致过拟合,已尽量从微调数据中排除了基准测试数据及其训练示例。

  具体来说,MMLU-Pro是 MMLU 的扩展,团队认为 MMLU-Pro 是在模型完成训练之后发布,较少受到其他已发布模型的过拟合影响。

  拿来做比较的模型也都一水的很强。

  而 Higgs-Llama-3-70B 的表现优于谷歌在 5 月I/O大会上最新推出的模型 Gemini-1.5-Flash、Claude3 家族“中杯”Claude-3-Sonnet 以及 Llama3-70B-instruct。

  再来看Arena-hard,该基准包含了来自 Chatbot 竞技场的 500 个具有挑战性的真实用户查询。

  Higgs-Llama-3-70B 的表现排名第四:

  除此之外,使用相同的 base model,Higgs-Llama-3-70B 在 6 个基准测试中均优于 LLama-3-70B-Instruct。

  虽然距离 GPT-4o 还有不小的差距,但值得注意的是沐神团队放出的只是通用能力的基准测试,并且强调并未针对性刷榜。

  而且 Higgs-Llama-3-70B 毕竟是为角色扮演专门设计的,相关效果展示团队未具体给出。

  团队表示 Higgs-Llama-3-70B 只是个开胃菜,将进一步探讨角色扮演性能、训练后的处理流程、零基础建立数据中心、在云端使用 GPU 以及未来整合多个服务提供商的策略。

  之后也会发布更多 Higgs 系列模型。

  开发角色扮演 Agent

  这次李沐大模型创业方向终于浮出水面,倒是一定程度印证了之前关于沐神创业方向的猜想。

  此前有消息爆料,从亚马逊首席科学家的职务上离职后,李沐联手其导师、另一位亚马逊出身 AI 大牛 Alex Smola 创办了创业公司 Boson AI。而公司方向是利用大模型能力,做和游戏娱乐有关的项目。

  这回官方终于给出了个准信儿,确实跟游戏沾边:

自 2023 年成立 Boson AI 以来,我们一直致力于利用 AI 技术为企业赋能,旨在革新故事讲述、知识学习和信息洞察的方式。我们协助客户开发 Agent,使其能够扮演多种角色,如游戏角色、语言教师、保险代理和金融顾问。

  目前官网主页也已更新 Higgs-Llama-3-70B 模型。

  还晒出了团队创始成员,除李沐和 Alex Smola 外,还有四位成员。

  李沐和 Alex Smola,量子位此前也有介绍过。

  李沐,是二者之间大家比较熟悉的那一位。自己有很厉害的经历,加上在小破站传道授业,打下了响当当的知名度。

  而Alex Smola,更是一个 AI 届的神级大牛。

  直接上数据:Smola 在 Google Scholar 上的被引用次数,超过 17 万次。其中,被引次数前三的所著论文,被引数统统破万。

  除了是 ML 著作《动手学深度学习》的主要作者外,Smola 这些年的履历也很值得好好了解一番——

  1996 年,Smola 在慕尼黑工业大学完成硕士学业,而后又在柏林工业大学拿下计算机科学博士学位。博士毕业后,他先后去往柏林 GMD 软件工程和计算机体系结构研究所、NICTA(澳大利亚信息与通信技术研究中心)工作。

  2004 年起,Smola 在 NICTA 的统计机器学习项目中,担任高级首席研究员和项目负责人;到了 2008 年,Smola 选择入职雅虎研究院

  2012 年春天到 2014 年年底,2 年多的时间里,Smola 的工作地点是谷歌研究院

  期间,他开始担任 CMU 的教授。也是这个时候,他成为了李沐的博士导师,二人结缘。

  2016 年 7 月,Smola 成为了亚马逊的一员,致力于构建 AI 和机器学习工具。首要任务之一,是让 AWS 和开发者社区建立和保持联系,让更多的开发者共同建设亚马逊深度学习库 MXNet。

  离职创业前,Smola 在亚马逊担任的职位是杰出科学家和副总裁。

  值得一提的是,由于 Smola 在分布式深度学习框架领域曾提出并行 LDA(Latent Dirichlet Allocation)的框架——这是参数服务器概念的最早来源,因此,Smola 也被业界称为参数服务器之父

  其他四位成员如下。

  Shuai Zheng,2019 年从香港科技大学获得计算机科学博士学位。

  之后就职亚马逊,领导亚马逊的分布式系统和 LLM 训练工作,包括开发可扩展的分布式训练和推理架构、具有数千亿参数的更智能模型,以及更快的分布式优化算法。

  施行健,2014 年本科毕业于上海交通大学,2018 年获香港科技大学博士学位。

  曾担任亚马逊担任高级应用科学家,领导过两个项目:AutoGluon Multimodal 和 DeepEarth。

  其中 AutoGluon Multimodal 通过应用基础模型,突破了传统自动机器学习工具的限制。DeepEarth 致力于为地球科学领域构建基础模型。之前他还参与了如 Apache/MXNet 等开源项目。

  Yi Zhu,加州大学默塞德分校博士学位。

  同样曾在亚马逊 AI 团队,担任高级应用科学家。研究主要关注大语言模型、多模态学习、自监督学习和视频理解,曾参与 AutoGluon、GluonCV 等开源项目。

  Yizhi Liu,2012 年毕业于浙江大学计算机系。

  曾先后在百度实习,担任聚胜万合首席软件工程师、奇虎 360 技术部经理,之后成为亚马逊高级软件开发工程师。

  △领英主页尚未更新

  最后,量子位认识的一位团队成员推荐大家用不同的人设、persona 来测试 Higgs-Llama-3-70B,“可能有惊喜哦”

  以及 One more thing …

  大神李沐创业,肯定是不缺投资的,量子位听闻,张一鸣已经打钱支持了。

  不过一切以官方信息为准吧。祝福李沐老师一切顺利~

  参考链接:

  [1]https://boson.ai/about/

  [2]https://szhengac.github.io/

  [3]https://sxjscience.github.io/

  [4]https://bryanyzhu.github.io/

  [5]https://www.linkedin.com/in/yizhi-liu-20810558?original_referer=https%3A%2F%2Fwww.google.com%2F