国思软件 - 速度秒杀GPT-4o！Mistral开源首个22B代码模型破记录，支持80+编程语言

　　新智元报道

　　编辑：乔杨好困

　　就在刚刚，法国 AI 初创公司 Mistral 发布了自家首款代码生成模型 Codestral。不仅支持 32K 长上下文窗口以及 80 多种编程语言，而且还用 22B 的参数量取得了与 70B 的 Llama 3 相近的性能。目前，已经开放 API 与 IDE 插件供用户使用。

　　真正 Open 的 AI 公司 Mistral 又低调上新了。

　　这次，他们发布了首款代码生成模型 Codestral，支持 80 多种编程语言以及 32K 长上下文窗口。

　　不仅在基准测试上取得了惊艳的表现，而且代码生成的速度也让试用的网友非常满意。

　　目前，Codestral 提供了多种 API，而且模型权重也公开在 HuggingFace 上。

　　代码生成新 SOTA

　　Codestral 的训练数据包含 80 多种编程语言，包括最流行的 Python、Java、C、C++和 Bash，以及 HTML、JavaScript 等前端语言，在 Swift 和 Fortran 上也有良好表现。

　　模型可以完成的任务包括编写特定功能的函数、编写测试，以及代码填充。

　　此外，由于 Codestral 同时精通英语，也可以与开发人员进行交互，有助于提高工程师的编码水平并减少错误和漏洞。

　　可以通过 Le Chat 对话界面免费使用模型的交互功能。

　　作为一个参数量只有 22B 的模型，Codestral 实现了 32K 的长上下文窗口，是 Llama 3 70B 的四倍。

　　Codestral 使用了 Llama 架构，但在 7 种语言的 HumanEval 均分超过了 CodeLlama，可以和 Llama 3 打个平手。

　　RepoBench 是一个用于评估存储库级代码补全任务的新基准，考验模型的跨文件检索和理解长上下文能力。在 RepoBench 上，Codestral 使用 Python 语言达到了 SOTA 成绩。

　　此外，在其他语言的评估中，包括C++、bash、Java、PHP、Typescript 和C#，Codestral 也取得了不错的成绩。

　　FIM 基准可以评估模型在中间填充任务上的性能，但 CodeLlama 和 Llama 不直接支持这个功能。

　　在 FIM 任务中，Codestral 用更少的参数量，在 Pyhon、JavaScript 和 Java 三种语言上的分数全面超过 DeepSeek Coder 33B。

　　目前，Mistral 开放了两个 API 供开发者调用 Codestral，分别是 codestral.mistral.ai 和 api.mistral.ai，前者有 8 周的免费测试期，后者按 token 收费。

　　此外，还可以通过 Continue.dev 或者 Tabnine 插件在 VSCode 或 JetBrains 的 IDE 中使用 Codestral 的功能。

　　开发者们已经用上了

　　基准测试毕竟只是参考，代码工具好不好用，只有试过才知道。

　　有网友感叹「80 种语言太疯狂了」「终于有人想起来 Swift 了」。

　　而且实测中可以看到，Codestral 的代码生成速度非常快，而且响应延迟也很短。

　　有人给了 GPT-4o 和 Codestral 相同的任务，让它们用 Go 语言实现基本的发布/订阅系统。

　　虽然两个模型的响应延迟都很短，但 Codestral 写完的时候，GPT-4o 刚写到一半，生成速度高下立现。

　　有开发者分析，虽然 Codestral 不是最大、最好的代码模型，但自己还是会从 Claude Opus 爬墙，改用 Codestral。

　　因为模型确实包含了更多前沿知识，可以帮助编写最新的 AI 代码，但 ChatGPT 和 Opus 都做不到。

　　但也有 Python 工程师吐槽：「没有一个 LLM 明白，在 Python 3.9 之后的版本中，就不再需要使用 from typing import List 了。」

　　「GPT-4、GPT-4o、Claude Opus、Gemini 和 Codestral 都无法理解这一点。即使明确说明，它们仍然无法理解。」

　　看来人类程序员剩下的为数不多的优势还有「知错就改」。

　　参考资料：

速度秒杀GPT-4o！Mistral开源首个22B代码模型破记录，支持80+编程语言