新智元报道
编辑:编辑部
Nature 的一篇文章透露:你发过的 paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?
全球数据告急,怎么办?
论文来凑!
最近,Nature 的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训 AI 了……
据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练 AI 模型。
一篇论文从酝酿 idea 到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训 AI 的数据。
这合理吗?
更可气的是,自己的论文还被出版商拿来牟利了。
根据 Nature 报告,上个月英国的学术出版商 Taylor & Francis 已经和微软签署了一项价值 1000 万美元的协议,允许微软获取它的数据,来改进 AI 系统。
而 6 月的一次投资者更新显示,美国出版商 Wiley 允许某家公司使用其内容训模型后,直接一举豪赚 2300 万美元!
但这个钱,跟广大论文的作者是半毛钱关系都没有的。
而且,华盛顿大学 AI 研究员 Lucy Lu Wang 还表示,即使不在可开放获取的存储库内,任何可在线阅读的内容,都很可能已经被输入 LLM 中。
更可怕的是,如果一篇论文已经被用作模型的训练数据,在模型训练完成后,它是无法删除的。
如果现在,你的论文还尚未被用于训练 AI,那也不用担心——它应该很快就会了!
数据集如黄金,各大公司纷纷出价
我们都知道,LLM 需要在海量数据上进行训练的,而这些数据通常是从互联网上抓取的。
正是从这些训练数据中数十亿的 token 中,LLM 推导出模式,从而生成文本、图像、代码。
而学术论文篇幅又长,信息密度又高,显然就是能喂给 LLM 的最有价值的数据之一。
而且,在大量科学信息上训练 LLM,也能让它们在科学主题上的推理能力大大提高。
Wang 已经共同创建了基于 8110 万篇学术论文的数据集 S2ORC。起初,S2ORC 数据集是为了文本挖掘而开发的,但后来,它被用于训练 LLM。
2020 年非营利组织 Eleuther AI 构建的 Pile,是 NLP 研究中应用最广泛的大型开源数据集之一,总量达到 800GB。其中就包含了大量学术来源的文本,arXiv 论文比例为 8.96%,此外还涵盖了 PubMed、FreeLaw、NIH 等其他学术网站。
前段时间开源的 1T token 数据集 MINT 也挖掘到了 arXiv 这个宝藏,共提取到了 87 万篇文档、9B token。
从下面这张数据处理流程图中,我们就能发现论文数据的质量有多高——几乎不需要太多的过滤和去重,使用率极高。
而现在,为了应对版权争议,各大模型公司也开始真金白银地出价,购买高质量数据集了。
今年,「金融时报」已经把自己的内容以相当可观的价格,卖给了 OpenAI;Reddit 也和谷歌达成了类似的协议。
而以后,这样的交易也少不了。
证明论文曾被 LLM 使用,难度极高
有些 AI 开发者会开放自己的数据集,但很多开发 AI 模型的公司,会对大部分训练数据保密。
Mozilla 基金会的 AI 训练数据分析员 Stefan Baack 表示,对于这些公司的训练数据,谁都不知道有什么。
而最受业内人士欢迎的数据来源,无疑就是开源存储库 arXiv 和学术数据库 PubMed 的摘要了。
目前,arXiv 已经托管了超过 250 万篇论文的全文,PubMed 包含的引用数量更是惊人,超过 3700 万。
虽然 PubMed 等网站的一些论文全文有付费墙,但论文摘要是免费浏览的,这部分可能早就被大科技公司抓取干净了。
所以,有没有技术方法,能识别自己的论文是否被使用了呢?
目前来说,还很难。
伦敦帝国理工学院的计算机科学家 Yves-Alexandre de Montjoye 介绍道:要证明 LLM 使用了某篇确定的论文,是很困难的。
有一个办法,是使用论文文本中非常罕见的句子来提示模型,看看它的输出是否就是原文中的下一个词。
有学者曾以「哈利·波特与魔法石」第三章的开头提示 GPT-3,模型很快正确地吐出了大约一整页书中的内容
如果是的话,那就没跑了——论文就在模型的训练集中。
如果不是呢?这也未必是有效证据,能证明论文未被使用。
因为开发者可以对 LLM 进行编码,让它们过滤响应,从而不和训练数据过于匹配。
可能的情况是,我们费了老大劲,依然无法明确地证明。
另一种方法,就是「成员推理攻击」。
这种方法的原理,就是当模型看到以前见过的东西时,会对输出更有信心,
论文地址:https://arxiv.org/abs/2112.03570
为此,De Montjoye 的团队专门开发了一种「版权陷阱」。
论文地址:https://arxiv.org/abs/2402.09363
为了设置陷阱,团队会生成看似合理却无意义的句子,并将其隐藏在作品中,比如白色背景上的白色文本或网页上显示为零宽度的字段。
如果模型对未使用的控制句的困惑度,比对隐藏在文本中的控制句的困惑度更高,这就可以作为陷阱曾被看到的统计证据。
版权争议
然而,即使能证明 LLM 是在某篇论文上训练的,又能怎么办呢?
这里,就存在一个由来已久的争议。
在出版商看来,如果开发者在训练中使用了受版权保护的文本,且没有获得许可,那铁定就是侵权。
但另一方却可以这样反驳:大模型并没有抄袭啊,所以何来侵权之说?
的确,LLM 并没有复制任何东西,它只是从训练数据中获取信息,拆解这些内容,然后利用它们学习生成新的文本。
其中更加复杂的问题,是如何划清商用和学术研究用途。
根据目前 arXiv 网站上的使用条款,如果是个人或研究用途,抓取、存储、使用所有的电子预印本论文和网站元数据都是合规且被支持的。
然而,arXiv 对商业方面的使用是严令禁止的。
那么问题来了,如果某个商业公司使用了学术机构发布的开源数据集训练自己的商业模型,且数据来源含有 arXiv 或类似学术出版机构,这怎么算?
此外,出版商在用户的订阅条款中往往也没有明确规定,能否将论文用作模型的训练数据。
比如,一个付费购买 Wiley 论文库阅读全文资格的用户,是否被允许将这些文本拷贝下来喂给模型?
现在的问题是,有人想让自己的作品纳入 LLM 的训练数据中,有人不想。
有人已经做出来一个[haveibeentrained」的同名网站,用来检测自己的内容是否被用于训练 AI 模型
比如 Mozilla 基金会的 Baack 就表示,非常乐于看到自己的作品让 LLM 变得更准确,「我并不介意有一个以我的风格写作的聊天机器人」。
但是,他只能代表自己,依然有其他很多艺术家和作家,会受到 LLM 的威胁。
如果提交论文后,这篇论文的出版商决定出售对版权作品的访问权限,那个别的论文作者是根本没有权力干涉的。
整个圈子也是鱼龙混杂,公开发表的文章既没有既定的方法来分配来源,也无法确定文本是否已被使用。
包括 de Montjoye 在内的一些研究者对此感到沮丧。
「我们需要 LLM,但我们仍然希望有公平可言,但目前我们还没有发明出理想的公平是什么样子。」
多模态数据不够,arXiv 来凑
事实上,庞大的 arXiv 论文库中,可以利用的不止文本数据。
ACL 2024 接收了一篇来自北大和港大学者的论文,他们尝试利用这些论文中的图文构建高质量多模态数据集,取得了非常不错的效果。
项目主页:https://mm-arxiv.github.io/
之所以要用 arXiv 论文中的图片,主要还是由于科学领域训练数据集的稀缺。
GPT-4V 等视觉语言模型虽然在自然场景的图像中有出色的表现,但在解释抽象图片方面,比如几何形状和科学图表,依旧能力有限,也无法理解学术图片中细微的语义差别。
这篇论文构建的多模态 arXiv 数据集总共用到了各个 STEM 领域的 57.2 万篇论文,超过 arXiv 论文总数(2.5M)的五分之一,包含两部分:问答数据集 ArXivQA 和图片标注数据集 ArXivCap。
依托 arXiv 大量且多样的论文收录,与之前的科学图片数据集相比,ArXivCap 的数据量是第二名 SciCap 的 3 倍,ArXivQA 也是唯一涵盖广泛领域内真实论文的问答数据集。
通过使用这些领域特定数据进行训练,VLM 的的数学推理能力有了显著增强,在多模态数学推理基准上实现了 10.4% 的准确率提升。
比如,在 ArXivQA 上训练过的 Qwen 7B 模型能够正确理解条形图并回答相关问题(左图),数学能力也有所提高(右图)。不仅答案正确,给出的推理过程也更加完整充分。
数据集构建
数据集的构建流水线如下图所示。由于 arXiv 是预印本平台,所以需要先通过发表记录筛选出被期刊或会议接收的论文,以保证数据质量。
提取论文中的图片-文字对并进行基于规则的清理后,组成 ArXivCap;ArXivQA 则由 GPT-4V 生成,但使用了精心设计过的 prompt 模板。
ArXivCap 中的一个单图标注对:
2019 年论文「Semigroup models for biochemical reaction networks」
ArXivCap 数据集中的一个多图标注对:
2018 年论文「Low-Power Wide-Area Networks for Sustainable IoT」
ArXivQA 数据集示例:
2020 年论文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」
评估
根据在 MathVista 数据集上的结果,ArXivCap 和 ArXivQA 共同提升了 Qwen-VL-Chat 的整体性能,超越了 Bard 的表现。
最佳结果以粗体显示,次佳结果以下划线标记
在为单张图片生成图注的任务中,提升效果更加显著,经过 ArXivCap 训练的 Qwen 7B 模型可以匹配甚至超过 GPT-4V。
灰色结果由数据集中 500 个样本的测试得到
论文提出了三个新定义任务:多图的图注生成、上下文中的图注生成以及标题生成。经过 ArXivCap 训练的 Qwen 8B 的所有分数都超过了 GPT-4V,且多数情况下是最佳结果。
最佳结果以粗体显示
按照研究领域划分,ArXivQA 数据集上的训练在天体物理、凝聚态物理、数学、计算机科学这些领域都能带来相当显著的提升,超过 60%,准确率变化比例超过 60%。
人工评估
前面所述的文本生成质量和准确率都是基于算法的自动评估,研究团队还对单图的图注生成任务进行了人工评估,但只专注于计算机科学领域的论文。
与前面的基准测试结果相比,人工评估的结果并不理想,100 个案例中只有 16% 被认为是「可接受的」,「上下文误读」的问题相对严重,也有一定比例的「过度简化」和「识别错误」。
参考资料: