智东西(公众号:zhidxcom)
编译孟强
编辑云鹏
智东西 7 月 22 日消息,据 Venture Beat 报道,上周,Hugging Face、Mistral AI 和 OpenAI 于 7 月 16 日和 18 日相继推出各自研发的小模型(SLM),承诺将先进的自然语言处理能力普及化。在过去,科技公司竞相在大语言模型赛道上追求规模更大、更复杂的神经网络,Venture Beat 认为,这些小模型开辟了新的赛道,还可能影响企业使用 AI 解决方案的方式。
小模型,顾名思义,是相对于大语言模型(LLM)而言的,它们一般来说具有较少的参数和较低的计算资源需求。与参数量动辄上千亿甚至万亿规模的大语言模型相比,三个新的小模型:SmolLM、Mistral NeMo 和 GPT-4o mini 的参数量可以在几亿到百亿不等,从训练量到能耗都低于大语言模型。三个模型虽然使用不同的方式实现 AI 普及化,但它们都有一个共同目标:将强大的语言处理能力带给更多设备和应用。
一、小模型如何改变边缘计算
Venture Beat 认为,Hugging Face 的 SmolLM 是三者中最具革新性的。它专为在移动设备上运行设计,拥有三种规格:1.35 亿、3.6 亿和 17 亿参数量,方便边缘设备进行 AI 处理,解决了数据隐私和延迟的关键问题。
SmolLM 的意义远远不只是提升效率。让边缘设备也能用上 AI 处理,能够让设备应用在低延迟和高隐私保护的基础上运行。在过去,很多复杂的 AI 功能因隐私或连接问题无法实现,有了 SmolLM,这些功能或能走进现实。
此外,Mistral AI 推出了 Mistral NeMo 模型,拥有 120 亿参数量,上下文窗口可长达 128k。Mistral NeMo 面向台式电脑,定位介于云端大模型和超紧凑型移动 AI 之间,前者是在云计算平台上训练和运行的大规模 AI 模型,后者是在资源受限的移动设备(如手机和可穿戴设备)上运行的高效、紧凑的 AI 系统。
Venture Beat 称,Mistral NeMo 的计算方法可能会给企业领域带来不小的改变。该模型有潜力利用消费级硬件将复杂的 AI 功能普及化,这些功能曾经只是科技巨头和资金充足的研究机构的专属研究对象。这可能能帮助各行业普及 AI 驱动应用,比如优化客户服务、提供更复杂的数据分析工具。
二、OpenAI 的高效小模型 GPT-4o mini 价格美丽
OpenAI 也推出 GPT-4o mini,加入了小模型的竞争,该模型被称为市场上最具成本效益的小模型。输入每百万 token 仅需 15 美分,输出每百万 token 仅需 60 美分,Venture Beat 称 GPT-4o mini 大大降低了 AI 集成资金准入。
除此之外,GPT-4o mini 的定价策略可能会催生出一波新的 AI 驱动创新,尤其是在初创企业和小型企业中。通过显著降低 AI 集成的成本,该模型有效地降低了采用 AI 驱动解决方案的准入门槛。Ventrue Beat 认为,这可能会加速多行业的技术创新和改革。另外,这一向小模型的转变反映了 AI 社区的新趋势:研究人员和开发人员越来越关注效率、可及性和细分应用。这一趋势可能会催生更有针对性和更高效的 AI 解决方案,优化特定任务和行业。
三、小模型推动绿色科技创新,减少技术碳足迹
向小模型转变的趋势也与对 AI 环境影响的日益关注相一致。小模型训练和运行耗能更小,可能会减少 AI 技术的碳足迹。随着各科技公司在可持续方面面临越来越大的压力,Venture Beat 认为,小模型的低能耗和低排放可能成为一个重要的卖点。
这种向小模型的转变的环境影响可能是深远的。随着 AI 变得越来越普及,更高效模型的普及所带来的节能效益可能是巨大的。这或许能让 AI 在绿色创新方面起到领导作用,而不是继续加剧全球变暖。
然而,小模型的崛起也并非没有挑战。随着 AI 变得越来越普及,偏见、问责制和伦理使用的问题变得更加紧迫。如果不加以监管,通过小模型普及 AI 可能会放大现有的偏见或产生新的伦理困境。对于小模型的开发者和用户来说,除了技术能力之外,还必须优先考虑伦理问题。
结语:AI 发展的未来指向多元化、专业化
虽然小模型在效率和普及性方面具有优势,但由于参数量限制,它们在许多的任务上的处理能力可能无法与大语言模型匹敌。Venture Beat 表示,这表明未来的 AI 发展格局中,将有各种规模的语言模型,而规模较小的模型将有自己所擅长的具体方面。
展望未来,我们期待看到 AI 模型的发展百花齐放,无论是大语言模型还是小模型,一刀切的方法都不可取,关键在于找到模型规模、性能和具体应用要求之间的平衡。对于企业和技术决策者来说,这三款小模型代表了向更高效、更专业、可部署的 AI 解决方案的转变,为 AI 在企业环境的整合提供了新的可能性。至于小模型是否能取代云端大模型目前的主导地位,现在下结论还为时尚早。
来源:VentureBeat