本科生已不够,AI公司雇佣各领域专家训练大模型

  9 月 29 日消息,人工智能模型的性能在很大程度上依赖于其训练数据的质量。传统方法通常是雇用大量低成本劳动力对图像、文本等数据进行标注,以满足模型训练的基本需求。然而,这种方式容易导致模型在理解和生成信息时出现“幻觉”现象,即生成不准确或误导性的信息。为了解决这一问题,许多初创公司如今更倾向于聘请拥有高学历和专业背景的专家来参与模型训练,确保训练数据的准确性和深度,从而提升模型的整体表现。

  以下为翻译全文:

  早年,像 ChatGPT 及其竞争对手 Cohere 等人工智能模型要生成类似人类的反应,需要依赖大量低成本的人力团队,帮助模型区分基本事实,比如一张图像是汽车还是胡萝卜。

  然而,随着竞争愈发激烈,对人工智能模型的升级已转变为一项高复杂度的专业任务,如今需要一个快速扩展的专业训练师网络。这些训练师涵盖从历史学家到科学家等专业人才,有些甚至拥有博士学位。

  Cohere 联合创始人 Ivan Zhang 在谈到其内部训练师队伍的变化时表示:“一年前,我们还可以雇佣本科生来大致教 AI 如何改进。而现在,我们有执业医师教模型如何在医疗环境中工作,还有金融分析师和会计师帮助模型在特定领域表现更好。”

  为提升培训能力,估值已超 50 亿美元的 Cohere 与一家名为 Invisible Tech 的初创公司合作。Cohere 是 OpenAI 的主要竞争对手之一,专注于为企业提供 AI 服务。

  初创公司 Invisible Tech 雇佣了数千名远程培训师,并已成为 AI 行业的主要合作伙伴之一,为包括 AI21 和微软在内的多家人工智能公司提供训练服务,帮助减少被称为“幻觉”的 AI 错误现象。Invisible 创始人弗朗西斯·佩德拉萨(Francis Pedraza)表示:“我们在全球 100 多个国家拥有 5000 多名具有博士、硕士学位及深厚专业知识的专家。”

  根据任务的复杂程度和工作地点,Invisible 的时薪最高可达 40 美元。其他公司如 Outlier 支付的时薪高达 50 美元,而 Labelbox 则为像量子物理这样的“高专业性”科目提供高达 200 美元的时薪,基础类任务起步价为 15 美元。

  Invisible 成立于 2015 年,最初主要为 DoorDash 等公司提供工作流程自动化服务,比如将外卖菜单数字化。然而,转折点出现在 2022 年春季,在 ChatGPT 公开发布前,OpenAI 主动寻求与 Invisible 合作。

  佩德拉萨回忆道:“OpenAI 遇到了一个问题,早期版本的 ChatGPT 在回答问题时容易陷入‘幻觉’,其答案不可靠。为此,他们需要一个能够通过人类反馈来强化 AI 学习的先进训练伙伴。”

  生成式人工智能依赖过去用于训练的数据生成新内容。然而,有时它无法区分真假信息,产生所谓的“幻觉”。一个例子发生在 2023 年,当时谷歌的聊天机器人在宣传视频中分享了关于哪个望远镜首次拍摄到太阳系外行星的不准确信息。

  AI 公司意识到,“幻觉”现象可能会影响生成式人工智能在商业领域的吸引力,因此他们正在尝试各种方法减少这种现象,其中包括利用人类训练师来教导 AI 区分事实与虚构。

  自与 OpenAI 合作以来,Invisible 迅速成为众多生成式 AI 公司的首选培训伙伴,其客户包括 Cohere、AI21 和微软等。尽管微软尚未正式确认合作关系,但 Cohere 和 AI21 已承认是 Invisible 的大客户。

  佩德拉萨指出:“在人工智能行业,培训成本是企业的第二大支出,仅次于算力。而高质量的培训对于确保模型的准确性和可靠性至关重要。”

  它是如何工作的?

  OpenAI 的生成式人工智能热潮背后有一个名为“人类数据团队”的团队支持。该团队与 AI 训练师合作,收集专业数据以训练 ChatGPT 等模型。

  熟悉该公司流程的知情人士透露,OpenAI 的研究人员设计了一系列实验,旨在解决诸如减少“幻觉”、优化写作风格等问题。他们与 Invisible 等供应商的 AI 训练师合作,根据需求收集和处理数据。

  上述知情人士说,在任何时候,同时进行的实验项目都可能多达数十项,这些项目有的可以采用 OpenAI 的自研工具,也可以使用供应商提供的解决方案。

  Invisible 会根据 AI 公司的需求,雇佣具有相关学科背景的专家,无论是研究瑞典历史的学者还是金融建模专家,都可以为这些 AI 项目贡献力量,帮助减少 AI 公司管理大量训练师的负担。

  佩德拉萨表示:“OpenAI 拥有世界顶尖的计算机科学家,但他们不一定精通瑞典历史、化学或生物等专业领域的问题。”他补充说,仅 OpenAI 就有超过 1000 名合同工为其提供数据标注服务。

  Cohere 的 Ivan Zhang 亲自体验了 Invisible 训练师的能力,并成功教会 Cohere 的生成式 AI 模型如何从大数据集中提取相关信息。

  竞争加剧

  在 AI 训练数据集领域,Scale AI 是 Invisible 的主要竞争对手。这家私营初创公司估值达 140 亿美元,不仅提供数据集服务,还开始为 AI 公司提供培训服务,并将 OpenAI 列为其客户之一。Scale AI 没有回应置评请求。

  相比之下,Invisible 的资金募集显得更为保守,自 2021 年起开始盈利,仅获得了 800 万美元的主要资本。佩德拉萨表示:“我们 70% 的股权归团队所有,30% 的股权归投资者。”他还透露,最近的公司估值已达 5 亿美元。

  最早进入 AI 训练领域的培训师主要通过从事数据标注工作,要求相对较低,因此报酬也较低,有时每小时薪酬低至 2 美元,主要由非洲和亚洲国家的劳动者完成。

  然而,随着 AI 技术的快速发展,对专业培训师的需求急剧上升,涵盖数十种语言和领域,创造了一个高薪利基市场。如今,来自各个学科的专家无需编程技能,也有机会成为 AI 培训师。

  AI 公司的需求正催生出更多提供类似服务的企业。Ivan Zhang 说:“我的收件箱几乎被不断涌现的新公司所淹没,这些公司纷纷涌入人工智能训练服务市场。这的确是一个全新的领域,公司雇佣人类只是为了给我们这样的人工智能实验室创造数据。”(小小)