开发者火冒三丈炮轰GenAI:垃圾语料太多,模型正在变得越来越笨

  新智元报道

  编辑:Lumina

  人工智能是否早已达到顶峰,正在变得越来越愚蠢?

  生成式 AI(GenAI),尤其是以 OpenAI 的 ChatGPT 为代表,人们发现,这些大模型在一年多后的性能表现远不及刚发布时那样令人惊艳了。

  AI 似乎正在变得越来越笨。

  这种声音逐渐出现在各个社交网络的平台上,并有许多拥趸。

  在 OpenAI 开发者论坛上,有用户发帖表示:自从去年最新版本的 GPT 发布后,模型的准确性就显著下降了。

  同样的,一位 ChatGPT 的用户在今年 6 月写道,「经历了这么多的 AI 炒作之后,这些模型如今的表现让我非常失望。」

  Steven Vaughan-Nichols 是一位自由撰稿人和技术分析师,在多家科技媒体中担任高级特约编辑。他拥有自己的个人博客,在X上拥有数万名订阅者。

  今年 8 月下旬,史蒂文在《Computerworld》的一篇言辞激烈的评论文章《I’ve got the genAI blues》中表示:

  所有主要的公众可访问的 AI 模型,像 ChatGPT 和 Claude 这样的品牌旗舰产品——其性能都不如以前的版本。

  文章地址:https://www.computerworld.com/article/3488589/ive-got-the-genai-blues.html

  他在文章中写道,「这些由 AI 生成的结果常常令人恼火。它们有许多荒谬的错误,更糟糕的是,这些错误的出现总是反反复复,没完没了。」

  「如果只是答案平庸但相对准确,我还可以想办法应对。但它生成的内容让我无能为力。」

  以下是这篇评论文章的内容。

  I’ve got the genAI blues

  ChatGPT 之类的工具远没有你想象的那么好,而且随着时间的推移,它们的表现越来越糟。

  我也希望生成式 AI 真的有用,但事实并非如此。我一直在不断尝试使用各种 AI——如 ChatGPT、Meta AI 以及 Gemini 等。

  这些模型在你不太了解相关领域的情况时,看起来似乎是有用的,它们生成的回答也很合理。

  但只要你仔细考察一番,就会发现这些答案是错误的。

  如果你对内容的需求仅在高中水平,模型生成的答案还算过得去。但当你需要深入挖掘或研究某个主题时,那就另当别论了。

  以我日常的工作内容为例,在 Linux 和开源软件等主题上,我比一般的大语言模型(LLM)了解得更深入。

  在我使用生成式 AI 对这些主题进行研究时,AI 能给出的回答乍一眼看上去可能不错,但你越深入的去讨论一些细节时,它能给出的信息就越贫乏。

  这些由 AI 生成的结果常常令人恼火。它们有许多荒谬的错误,更糟糕的是,这些错误的出现总是反反复复,没完没了。

  如果只是答案平庸但相对准确,我还可以想办法应对。但它生成的内容让我无能为力。

  这并非仅是我一个人的看法。

  《商业周刊》报道,许多 GPT-4 的用户发现它变得越来越「懒」和「愚蠢」。

  其他人也对此表示认同。

  正如最近在 Reddit 上的用户所说的那样,「现在 ChatGPT 3 和 4 的效果远不如我一年前订阅专业版时那么有效和有帮助。」

  在我看来,即使是最好的生成式 AI 聊天机器人 Perplexity 也在走下坡路。

  以前我喜欢 Perplexity 的一个原因是它会为其观点提供来源。在我把它看作是一个超级增强的搜索引擎时,这个功能很有用。

  然而,最近它的表现也越来越不稳定,我再也无法指望它能够准确地给出它是在哪里找到、并重新整合出的这些信息。

  为什么会这样?

  虽然我并不是 AI 开发者,但我密切关注这个领域很久了。

  以下是我看到的导致模型开始失效至少两个主要原因:

  首先是用于创建主要大语言模型的内容质量问题。

  许多模型的训练集中包含了来自诸如 Twitter、Reddit 以及 4Chan 等「优质」网站的数据。

  正如谷歌在今年早些时候发布的 AI 概述所显示的那样,采用这些数据集对 AI 进行训练的结果可能会非常糟糕。

  《麻省理工科技评论》同样指出,现在的 AI 会生成一些质量极差的答案。

  如建议用户「往披萨上加胶水」或「每天至少吃一块小石头」,以及「前美国总统安德鲁·约翰逊在 1947 年至 2012 年间获得了大学学位,尽管他于 1875 年去世。」

  这类回答都是些无伤大雅的蠢例子,但如果你需要一个正确答案,那就完全是另一回事了。

  以一位律师为例,他的法律文件中包含了由 AI 虚构的案例信息,法官们发现这一事实后并不会被逗笑。

  如果你只是想用生成式 AI 闲聊(这似乎是 ChatGPT 最流行的用途之一),那么准确性可能对你并不重要。

  但对于我,以及所有希望将 AI 用于商业的人来说,正确答案才是最重要的。

  随着生成式 AI 巨头继续寻找更多数据,这个问题只会变得更糟。

  来自 Epoch AI 的一项研究发现,我们最早将在 2026 年耗尽高质量数据。

  这就引出了第二个问题。

  如今,生成式 AI 生成的内容正在取代专家级人类内容。

  结果不仅仅是劣质数据排挤了优质数据,情况还要更为糟糕:

  《自然(Nature)》的最近的一篇论文发现,「不加区分地从其他模型生成的数据中学习会导致‘模型崩溃’。这是一种退化过程,随着时间的推移,即使分布没有随时间变化,模型也会忘记真正的底层数据分布。」

  我愿将其称为「垃圾进,垃圾出(Garbage In, Garbage Out)」。

  但由于我看不到公司会停止使用生成式 AI 以更低的成本来生成文档,因此未来充斥在互联网中的内容质量只会继续下降。

  不管你信不信,就质量而言,我们可能已经处于人工智能的顶峰。

  这难道不是一个可怕的想法吗?

  当然,我不是一个极端的 AI 反对者。

  基于专用大语言模型的特定用途的生成式 AI 聊天机器人,在作为排查程序故障或发现潜在癌症的工具时,已经非常有用。

  其他的一些用途中,如在线游戏中由 AI 驱动的非玩家角色,将提高游戏体验,而像 ElliQ 这样的 AI 朋友可以帮助很多孤独的人。

  但作为大多数公司热衷的替代知识型员工的方式,还是算了吧。

  除了 CEO——他们倒是可以被 AI 聊天机器人取代。

  我怀疑很多人不会注意到 AI CEO 与人类 CEO 的区别——除了它会为公司节省一大笔钱。

  生成式 AI 的未来

  这不应该是事情发展的方向。

  通常来说,新的版本软件应该比它们所取代的版本更好。

  但由于生成式 AI 需要通过大量数据进行训练,而随着人类世界的高质量内容日益枯竭、互联网越来越多地充斥着 AI 生成的劣质内容,模型未来的性能表现将会成为一个越来越严重的问题。

  当然,我们也有可能会重新发现由人类完成的那些极其珍贵且不可替代的工作的价值。

  但最好也别对此抱有太大的希望。

  参考资料:

  https://futurism.com/the-byte/ai-dumber