Claude 3.7登顶编程竞技场,大幅领先100分!

  西风发自凹非寺

  量子位公众号 QbitAI

  公认的编程开发能力第一!Claude 3.7 Sonnet 刚刚登顶 WebDev 竞技场榜首

  大幅甩第二名 100 多分,在榜单前十的其它相邻模型分差仅为几分、几十分的情况下。

  那第二名是谁呢?还是 Claude 自己——Claude 3.5 Sonnet。

  WebDev 榜单与我们所熟知 Chatbot Arena 榜单“同宗同源”,也是由 LMArena(LMSYS Org)打造,不过更专注于 AI 编程、网页应用开发能力。

  值得一提的是,DeepSeek R1 作为榜单前十唯一的开源模型排名第三,超越 early-grok-3、o3-mini-high、Claude 3.5 Haiku 等。

  对于 Claude 3.7 Sonnet 高分登顶,有网友表示并不惊讶。

  毕竟,这两天网友们疯狂实测 Claude 3.7,一次又一次被惊艳到,最新实测更是再次刷新网友对 Claude 3.7 的认知。

  Claude 3.7 最新实测

  比如前两天下面这个 Claude 3.7 Sonnet 用 p5js 编写布料模拟效果在网上疯传:

  有位学者看到后,还晒出了自己 1986 年在 MIT 的硕士论文,主题正是“布料外观建模”。他提到,过去完成这项工作需要数天时间,而现在 AI 只需几分钟就能超越他,不禁感叹:

虽然他们现在还付我薪水,但这样的日子还能持续多久呢?

  现在,更扎心了老铁。

  网友又做出了另一版,还是带有明暗关系的那种:

  网友表示“这种效果即使是在高级图形学课中,也很少有教怎么做的”。

  除此之外,Reddit 上一位老哥的最新分享也引发网友热议。

  他表示突然想起一个自己在 1997 年用 Visual Basic 4 编写的古老应用程序,于是将这个 27 年前的 EXE 文件上传到了 Claude 3.7 并请求转换为 Python 代码,结果 Claude 不仅分析了文件组件,还在 5 分钟内用 Pygame 写出完美转换且可运行的 Python 代码。

  这位老哥还晒出了自己与 Claude 3.7 的聊天记录:

  网友 get 新玩法后纷纷开始效仿。

  另外,有网友体验了 Claude 3.7 的新GitHub 集成功能后表示“它改变了工程师理解软件的方式”:

  可以 Frok 一个代码库选择一个特定的文件夹,然后向它提问关于代码的任何问题,Claude 还会显示每个文件夹在上下文窗口中所占的百分比,帮助你更好地理解代码结构和内容。

  比如,Claude 3.7 可视化了 yt-dlp(一个 YouTube 下载器)的工作流程:

  沃顿商学院教授 Ethan Mollick 也放出了最新实测。

  可以用 Claude 3.7 制作一个互动式的“时光机道具,能够穿越回过去”:

  Ethan Mollick 特意写了一篇 Blog 介绍 Claude 3.7。

  有意思的是,这篇 Blog 被 Anthropic 官方注意到了,官方表示Claude 3.7 没有那么大(花几千万美元训练的那种)。但之后的模型规模会增长。

  [1]https://x.com/lmarena_ai/status/1894840263379689490

  [2]https://x.com/deedydas/status/1894871849269633162

  [3]https://x.com/deedydas/status/1894841573311197239

  [4]https://x.com/deedydas/status/1894576702749381082

  [5]https://x.com/emollick/status/1894258450852401243