涉17万个视频!英伟达等巨头被曝违规使用YouTube数据训练模型

  科技巨头被曝使用未经授权的 YouTube 内容训练 AI(人工智能)模型。

  当地时间 7 月 16 日,据外媒报道,包括苹果、英伟达、Salesforce 和 Anthrophic 在内的一些大型科技公司,被曝在训练 AI 模型时使用了来自谷歌旗下视频网站 YouTube 的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从 YouTube 上抓取的大量视频字幕文本,违反了 YouTube 禁止从平台上未经许可抓取内容的规定。

  报道指出,这些科技公司在训练 AI 模型时都使用了一个名为“YouTube Subtitles(YouTube 字幕)”的数据集,大小为 5.7GB,包含 4.89 亿个单词,来自 Youtube 上超过 4.8 万个频道中的 17.35 万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和 Youtube 自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。

  非营利性组织 EleutherAI 是争议数据集的创作者,公司尚未对此事作出回应。根据官网介绍,EleutherAI 的目标是“降低 AI 开发的门槛,通过训练和发布模型,让大家接触到尖端的 AI 技术”。此前,EleutherAI 发布了名为“Pile”的数据汇编,其中的大部分数据集都是对公众开放的,包括 YouTube Subtitles。

  资料显示,在苹果于今年 4 月发布端侧小模型 OpenELM 模型的几周之前,公司就使用了 Pile 进行训练。不过,值得注意的是,苹果自己并没有下载这些数据。因此,从技术层面来说,是 EleutherAI 违反了 YouTube 的使用条款。

  AI 初创公司 Anthropic 的一位发言人证实,Pile 数据集已被用于训练公司的生成式 AI 助手 Claude,而 YouTube 的相关条款仅涉及“直接使用其平台”,建议与 Pile 的原作者讨论任何违反 YouTube 服务条款的行为。苹果、英伟达、Salesforce 等其他公司尚未对此事作出回应。

  此次事件影响到的创作者包括 Marques Brownlee、MrBeast 和 PewDiePie 等知名博主,以及《纽约时报》、英国广播公司(BBC)和美国 ABC News 等大型新闻出版商。另外,数据集中的一些材料宣传了“地平说”等阴谋论,甚至还包含了已被删除的视频的内容。现在,Pile 已从官方下载网站上下架,但仍可通过文件共享服务访问。

  对此,知名科技博主 Marques Brownlee 在X(原推特)平台上表示:“苹果从几家公司获取了他们 AI 所需的数据,其中一家从 YouTube 视频中抓取了大量数据/转录文本,包括我的视频。从技术上来说苹果没有‘犯错’,他们没有主动抓取数据。但这将是一个长期存在的问题。”

  Marques Brownlee 的推文。来源:X平台

  虽然苹果和其他公司或许是使用了公开的数据集,并没有违规行为,但此次事件让人们又一次关注到 AI 训练背后的数据问题。今年年初,YouTube 的母公司谷歌被曝利用该平台的视频来训练旗下模型,谷歌当时回应称,这种行为没有违反平台与创作者的协议。

  今年 3 月,OpenAI 首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时还曾对文生视频模型 Sora 的训练数据来源含糊其词。4 月,YouTube 首席执行官尼尔·莫汉(Neal Mohan)在采访中表示,他并没有直接证据能够证明 OpenAI 确实使用了 YouTube 的视频来完善其文生视频 AI 工具 Sora,如果真的使用了,那就“明显违反”了 YouTube 平台的使用条款。