Apple Intelligence研究团队发布了两个新的高性能语言模型

  苹果的 Apple Intelligence 研究团队发布了两个新的小型但高性能语言模型,用于训练人工智能生成器。

  苹果的机器学习团队正在与业内其他团队一起参与一个开源的语言模型数据包项目。苹果最近生产的两款模型被认为可以与其他领先的训练模型相媲美,例如 Llama 3 和 Gemma。

  通过提供标准框架,此类语言模型用于训练 ChatGPT 等人工智能引擎。这包括架构、参数和数据集过滤,以便为人工智能引擎提供更高质量的数据。

  苹果向该项目提交的文件包括两种模型:一种较大的模型,具有 70 亿个参数,另一种较小的模型,具有 14 亿个参数。

  苹果团队表示,在基准测试中,较大模型的表现比之前的顶级模型 MAP-Neo 高出 6.6%。更值得注意的是,苹果团队的 DataComp-LM 模型使用的计算能力减少了 40%。

  苹果团队发布的这些模型无意用于未来的任何苹果产品。它们是社区研究项目,旨在展示在策划用于训练人工智能模型的小型或大型数据集方面提高的有效性。