速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言

  新智元报道

  编辑:乔杨好困

  就在刚刚,法国 AI 初创公司 Mistral 发布了自家首款代码生成模型 Codestral。不仅支持 32K 长上下文窗口以及 80 多种编程语言,而且还用 22B 的参数量取得了与 70B 的 Llama 3 相近的性能。目前,已经开放 API 与 IDE 插件供用户使用。

  真正 Open 的 AI 公司 Mistral 又低调上新了。

  这次,他们发布了首款代码生成模型 Codestral,支持 80 多种编程语言以及 32K 长上下文窗口。

  不仅在基准测试上取得了惊艳的表现,而且代码生成的速度也让试用的网友非常满意。

  目前,Codestral 提供了多种 API,而且模型权重也公开在 HuggingFace 上。

  项目地址:https://huggingface.co/mistralai/Codestral-22B-v0.1/tree/main

  代码生成新 SOTA

  Codestral 的训练数据包含 80 多种编程语言,包括最流行的 Python、Java、C、C++和 Bash,以及 HTML、JavaScript 等前端语言,在 Swift 和 Fortran 上也有良好表现。

  模型可以完成的任务包括编写特定功能的函数、编写测试,以及代码填充。

  此外,由于 Codestral 同时精通英语,也可以与开发人员进行交互,有助于提高工程师的编码水平并减少错误和漏洞。

  可以通过 Le Chat 对话界面免费使用模型的交互功能。

  在线地址:https://chat.mistral.ai/chat

  作为一个参数量只有 22B 的模型,Codestral 实现了 32K 的长上下文窗口,是 Llama 3 70B 的四倍。

  Codestral 使用了 Llama 架构,但在 7 种语言的 HumanEval 均分超过了 CodeLlama,可以和 Llama 3 打个平手。

  RepoBench 是一个用于评估存储库级代码补全任务的新基准,考验模型的跨文件检索和理解长上下文能力。在 RepoBench 上,Codestral 使用 Python 语言达到了 SOTA 成绩。

  此外,在其他语言的评估中,包括C++、bash、Java、PHP、Typescript 和C#,Codestral 也取得了不错的成绩。

  FIM 基准可以评估模型在中间填充任务上的性能,但 CodeLlama 和 Llama 不直接支持这个功能。

  在 FIM 任务中,Codestral 用更少的参数量,在 Pyhon、JavaScript 和 Java 三种语言上的分数全面超过 DeepSeek Coder 33B。

  目前,Mistral 开放了两个 API 供开发者调用 Codestral,分别是 codestral.mistral.ai 和 api.mistral.ai,前者有 8 周的免费测试期,后者按 token 收费。

  此外,还可以通过 Continue.dev 或者 Tabnine 插件在 VSCode 或 JetBrains 的 IDE 中使用 Codestral 的功能。

  开发者们已经用上了

  基准测试毕竟只是参考,代码工具好不好用,只有试过才知道。

  有网友感叹「80 种语言太疯狂了」「终于有人想起来 Swift 了」。

  而且实测中可以看到,Codestral 的代码生成速度非常快,而且响应延迟也很短。

  有人给了 GPT-4o 和 Codestral 相同的任务,让它们用 Go 语言实现基本的发布/订阅系统。

  虽然两个模型的响应延迟都很短,但 Codestral 写完的时候,GPT-4o 刚写到一半,生成速度高下立现。

  有开发者分析,虽然 Codestral 不是最大、最好的代码模型,但自己还是会从 Claude Opus 爬墙,改用 Codestral。

  因为模型确实包含了更多前沿知识,可以帮助编写最新的 AI 代码,但 ChatGPT 和 Opus 都做不到。

  但也有 Python 工程师吐槽:「没有一个 LLM 明白,在 Python 3.9 之后的版本中,就不再需要使用 from typing import List 了。」

  「GPT-4、GPT-4o、Claude Opus、Gemini 和 Codestral 都无法理解这一点。即使明确说明,它们仍然无法理解。」

  看来人类程序员剩下的为数不多的优势还有「知错就改」。

  参考资料:

  https://mistral.ai/news/codestral/