6 月 14 日消息,图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构推出全新的大模型测评基准 LiveBench AI,并公布首个测评榜单。阿里云通义千问刚刚开源的大模型 Qwen2-72B 成为排名最高的开源大模型,是前十榜单中唯一的开源大模型、唯一的中国大模型,成绩超过 Meta 的 Llama3-70B 模型。
LiveBench AI 的首次测评针对 34 个全球领先的开闭源大模型进行,结果显示,GPT-4o 排名第一,紧随其后的有 Cluade-3、Gemini-1.5 和 Qwen2-72B,其中 Qwen2-72B 是排名最高的开源大模型,也是唯一进入前十的中国大模型。
LiveBench AI 的完整榜单显示,通义千问 Qwen 系列共有 7 款模型进入榜单,分别是 Qwen2-72B、Qwen1.5-72B、Qwen1.5-110B、Qwen1.5-7B、Qwen1.5-4B、Qwen1.5-1.8B、Qwen1.5-0.5B,是除 GPT 之外入选最多的大模型团队。目前,Qwen 系列开源模型目前下载量已经突破 1600 万。