苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹果

　　苹果最新杀入开源大模型战场，而且比其他公司更开放。

　　推出 7B 模型，不仅效果与 Llama 3 8B 相当，而且一次性开源了全部训练过程和资源。

　　要知道，不久前 Nature 杂志编辑 Elizabeth Gibney 还撰文批评：

许多声称开源的 AI 模型，实际上在数据和训练方法上并不透明，无法满足真正的科学研究需求。

　　而苹果这次竟然来真的！！

　　就连 NLP 科学家、AutoAWQ 创建者也发出惊叹：

Apple 发布了一个击败 Mistral 7B 的模型，但更棒的是他们完全开源了所有内容，包括预训练数据集

　　也引来网友在线调侃：

　　至于这次开源的意义，有热心网友也帮忙总结了：

对于任何想要从头开始训练模型或微调现有模型的人来说，数据管理过程是必须研究的。

　　当然，除了 OpenAI 和苹果，上周 Mistral AI 联合英伟达也发布了一个 12B 参数小模型。

　　HuggingFace 创始人表示，「小模型周」来了！

　　卷！继续卷！所以苹果这次发布的小模型究竟有多能打？

　　效果直逼 Llama 3 8B

　　有多能打先不说，先来看 Hugging Face 技术主管刚“拆箱”的模型基础配置。

　　总结下来就是：

7B 基础模型，在开放数据集上使用 2. 5T tokens 进行训练
主要是英文数据，拥有 2048tokens 上下文窗口
数据集包括 DCLM-BASELINE、StarCoder 和 ProofPile2
MMLU 得分接近 Llama 3 8B
使用 PyTorch 和 OpenLM 框架进行训练

　　具体而言，研究团队先是提出了一个语言模型数据比较新基准——DCLM。

　　之所以提出这一基准，是因为团队发现：由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据，可能是构建高质量训练集的关键。

　　因此，团队使用 DCLM 来设计高质量数据集从而提高模型性能，尤其是在多模态领域。

　　其思路很简单：使用一个标准化的框架来进行实验，包括固定的模型架构、训练代码、超参数和评估，最终找出哪种数据整理策略最适合训练出高性能的模型。

　　基于上述思路，团队构建了一个高质量数据集 DCLM-BASELINE，并用它从头训练了一个 7B 参数模型——DCLM-7B。

　　DCLM-7B 具体表现如何呢？

　　结果显示，它在 MMLU 基准上5-shot 准确率达 64%，可与 Mistral-7B-v0.3（63%）和 Llama 3 8B（66%）相媲美；并且在 53 个自然语言理解任务上的平均表现也可与 Llama 3 8B 相媲美，而所需计算量仅为后者的1/6。

　　与其他同等大小模型相比，DCLM-7B 的 MMLU 得分超越 Mistral-7B，接近 Llama 3 8B。

　　最后，为了测试新数据集效果，有业内人士用卡帕西的 llm.c 训练了 GPT-2 1.5B，来比较 DCLM-Baseline 与 FineWeb-Edu 这两个数据集。

　　结果显示 DCLM-Baseline 取得了更高的平均分，且在 ARC（小学生科学问题推理）、HellaSwag（常识推理）、MMLU 等任务上表现更好。

　　“小”模型成新趋势

　　回到开头，“小”模型最近已成新趋势。

　　先是 HuggingFace 推出了小模型家族“SmolLM”，其中包含 135M、360M 和 1.7B 型号模型。

　　它们在广泛的推理和常识基准上优于类似大小的模型。

　　然后 OpenAI 突然发布了GPT-4o mini，不仅能力接近 GPT-4，而且价格大幅下降。

　　就在 GPT-4o mini发布同日，Mistral AI 联合英伟达发布了 12B 参数小模型——Mistral NeMo。

　　从整体性能上看，Mistral NeMo 在多项基准测试中，击败了 Gemma 2 9B 和 Llama 3 8B。

　　所以，为啥大家都开始卷小模型了？

　　原因嘛可能正如 smol AI 创始人提醒的，虽然模型变小了，但在能力相近的情况下，小模型大大降低了成本。

　　就像他提供的这张图，以 GPT-4o mini 为代表的小模型整体比右侧价格更低。

　　对此，我等吃瓜群众 be like:

　　所以，你更看好哪家呢？

作者：itwriter
来源：互联网
日期：2024-07-23
浏览 (4081)