苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

  苹果最新杀入开源大模型战场,而且比其他公司更开放。

  推出 7B 模型,不仅效果与 Llama 3 8B 相当,而且一次性开源了全部训练过程和资源。

  要知道,不久前 Nature 杂志编辑 Elizabeth Gibney 还撰文批评

  • 许多声称开源的 AI 模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。

  而苹果这次竟然来真的!!

  就连 NLP 科学家、AutoAWQ 创建者也发出惊叹:

  • Apple 发布了一个击败 Mistral 7B 的模型,但更棒的是他们完全开源了所有内容,包括预训练数据集

  也引来网友在线调侃:

  至于这次开源的意义,有热心网友也帮忙总结了:

  • 对于任何想要从头开始训练模型或微调现有模型的人来说,数据管理过程是必须研究的。

  当然,除了 OpenAI 和苹果,上周 Mistral AI 联合英伟达也发布了一个 12B 参数小模型。

  HuggingFace 创始人表示,「小模型周」来了!

  卷!继续卷!所以苹果这次发布的小模型究竟有多能打?

  效果直逼 Llama 3 8B

  有多能打先不说,先来看 Hugging Face 技术主管刚“拆箱”的模型基础配置。

  总结下来就是:

  • 7B 基础模型,在开放数据集上使用 2. 5T tokens 进行训练
  • 主要是英文数据,拥有 2048tokens 上下文窗口
  • 数据集包括 DCLM-BASELINE、StarCoder 和 ProofPile2
  • MMLU 得分接近 Llama 3 8B
  • 使用 PyTorch 和 OpenLM 框架进行训练

  具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。

  之所以提出这一基准,是因为团队发现:由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据,可能是构建高质量训练集的关键。

  因此,团队使用 DCLM 来设计高质量数据集从而提高模型性能,尤其是在多模态领域。

  其思路很简单:使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。

  基于上述思路,团队构建了一个高质量数据集 DCLM-BASELINE,并用它从头训练了一个 7B 参数模型——DCLM-7B。

  DCLM-7B 具体表现如何呢?

  结果显示,它在 MMLU 基准上5-shot 准确率达 64%,可与 Mistral-7B-v0.3(63%)和 Llama 3 8B(66%)相媲美;并且在 53 个自然语言理解任务上的平均表现也可与 Llama 3 8B 相媲美,而所需计算量仅为后者的1/6。

  与其他同等大小模型相比,DCLM-7B 的 MMLU 得分超越 Mistral-7B,接近 Llama 3 8B。

  最后,为了测试新数据集效果,有业内人士用卡帕西的 llm.c 训练了 GPT-2 1.5B,来比较 DCLM-Baseline 与 FineWeb-Edu 这两个数据集。

  结果显示 DCLM-Baseline 取得了更高的平均分,且在 ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU 等任务上表现更好。

  “小”模型成新趋势

  回到开头,“小”模型最近已成新趋势。

  先是 HuggingFace 推出了小模型家族“SmolLM”,其中包含 135M、360M 和 1.7B 型号模型。

  它们在广泛的推理和常识基准上优于类似大小的模型。

  然后 OpenAI 突然发布了GPT-4o mini,不仅能力接近 GPT-4,而且价格大幅下降。

  就在 GPT-4o mini发布同日,Mistral AI 联合英伟达发布了 12B 参数小模型——Mistral NeMo

  从整体性能上看,Mistral NeMo 在多项基准测试中,击败了 Gemma 2 9B 和 Llama 3 8B。

  所以,为啥大家都开始卷小模型了?

  原因嘛可能正如 smol AI 创始人提醒的,虽然模型变小了,但在能力相近的情况下,小模型大大降低了成本

  就像他提供的这张图,以 GPT-4o mini 为代表的小模型整体比右侧价格更低。

  对此,我等吃瓜群众 be like:

  所以,你更看好哪家呢?