西风发自凹非寺
量子位公众号 QbitAI
“欧洲 OpenAI”和“Transformer 挑战者”强强联合了!
Mistral AI 刚刚推出了其第一个基于 Mamba2 架构的开源模型——Codestral Mamba(7B),专搞代码生成。
与 Transformer 架构不同,Mamba 架构可进行“线性时间推理”,理论上能够支持无限长度输入。
Mistral AI:这也就是为啥我们用 Mamba 架构推出的代码推理模型抗打。
Mistral AI 表示已经在最多 256k token 上下文中测试了 Codestral Mamba。
基准测试中,Codestral Mamba 总体性能超越 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
有网友表示,这一波是 Mistral AI 要带飞 Mamba 架构的节奏。
Mamba 架构作者之一、CMU 助理教授 Albert Gu 表示:
具有较弱“tokenizations”的不同模态或数据格式(例如代码、byte 级建模)会越来越多地从压缩模型(如 SSM)中受益。
除了 Codestral Mamba,Mistral AI 这次还同时发布了一个新的数学模型——Mathstral(7B)。
有意思的是,网友让它做这几天大模型频频翻车的“9. 11 和 9.9 哪个大”的问题,Mathstral 先比较整数,然后再比较小数部分,最后成功做对。
7B 性能接近 22BTransformer
Codestral Mamba 完整基准测试结果如下:
在 HumanEval C++/Java/JavaScript/Bash 等所有基准上,Codestral Mamba 全面超越 CodeGemma-1.1 7B、CodeLlama 7B,且超越比它更大的 CodeLlama 34B。
Mistral AI 此前自家的最强开源编程模型 Codestral 22B 也没有和 Codestral Mamba 拉开太大差距。
除此外,DeepSeek v1.5 7B 在基准中也比较突出,和 Codestral Mamba 打得有来有回。
DeepSeek v1.5 7B 在 Spider(复杂跨域语义分析和文本到 SQL 任务)、HumanEval Java、HumanEval Bash、MBPP 等方面优于 Codestral Mamba。
除了基准测试结果,Codestral Mamba 最令人关注的当属它是首批 Mamba2 架构模型。
Mamba 架构由 FlashAttention 作者 Tri Dao 和 CMU 助理教授、Cartesia AI 联合创始人及首席科学家 Albert Gu 在去年年底提出。
此前,ChatGPT 等 Transformer 架构大模型有一大痛点:处理长文本算力消耗巨大。其背后也是因为 Transformer 架构中注意力机制的二次复杂度。
而 Mamba 是第一个真正实现匹配 Transformer 性能的线性时间序列模型,也是一种状态空间模型(SSM,State Space Model)。
Mamba 建立在更现代的适用于深度学习的结构化 SSM(S4, Structured SSM)基础上,与经典架构 RNN 有相似之处。
主要有三点创新:对输入信息有选择性处理、硬件感知的算法、更简单的架构。
Mamba 架构一问世就引起了圈内广泛关注。Stability AI 创始人、英伟达科学家 Jim Fan 等都对它的出现感到兴奋。
Mamba 初代论文年初被 ICLR 拒稿,当时在圈内引起热议。
不过,最近已经被新生代顶流会议 CoLM2024 接收了。
Mamba2 是其二代,状态空间扩大 8 倍,训练速度提高 50%。
Mamba2 论文中更是发现,Transformer 中的注意力机制与 SSM 存在着非常紧密的数学联系,论文成功入选 ICML 2024。
还发布了一个数学模型
除了 Codestral Mamba,Mistral AI 还同时推出了一个开源数学模型——Mathstral(7B),作为对阿基米德诞生 2311 周年的纪念。
Mathstral 在 Mistral 7B 基础之上,专注于 STEM(科学、技术、工程、数学),上下文窗口 32k。
在基准测试中,Mathstral MATH 得分 56.6%,MMLU 达到了 63.47%。
重点是,Mathstral 还可以通过更多的推理时间计算获得更好的结果:
使用多数投票机制时,Mathstral 7B 在 MATH 测试中的得分为 68.37%,而在 64 个候选模型中应用一个强效奖励模型时,得分能够提升到 74.59%。
以下是 Mathstral 7B 和 Mistral 7B 在 MMLU 各科目中的表现差异:
参考链接:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569