浅析ChatGPT:历史沿革、应用现状及前景展望

  新智元报道

  作者:刘禹良,白翔(华中科技大学人工智能与自动化学院),金连文(华南理工大学电子与信息学院)

  编辑:好困

  过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。

  人工智能已成为新一代信息时代的核心技术,广泛应用于多个领域,为数字经济的发展和产业数字化转型提供了底层支撑,并在各种应用场景中发挥着至关重要的作用。 其中,最常见的应用场景包括自然语言处理、计算机视觉、推荐系统、预测分析等。

  • 2012 年,在 ImageNet 图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。

  • 2016 年,AlphaGo 在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。

  • 2017 年,Google 的 Ashish Vaswani 等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。

  • 2018 年,谷歌提出了大规模预训练语言模型 BERT,该模型是基于 Transformer 的双向预训练模型,其模型参数首次超过了 3 亿(BERT-Large 约有 3.4 个参数); 同年,OpenAI 提出了生成式预训练 Transformer 模型——GPT,大大地推动了自然语言处理领域的发展。

  • 2018 年,人工智能团队 OpenAI Five 战胜了世界顶级的 Dota 2 人类队伍,人工智能在复杂任务领域树立了一个新的里程碑;此后在 2018 年底,Google DeepMind 团队提出的 AlphaFold 以前所未有的准确度成功预测了人类蛋白质结构,突破了人们对人工智能在生物学领域的应用的想象。

  • 2019 年,一种人工智能系统 AlphaStar 在 2019 年击败了世界顶级的 StarCraft II 人类选手,为人工智能在复杂任务领域的未来发展提供了有力的证明和支持。

  • 2020 年,随着 OpenAI GPT-3 模型(模型参数约 1750 亿)的问世,在众多自然语言处理任务中,人工智能均表现出超过人类平均水平的能力。

  • 2021 年 1 月,Google Brain 提出了 Switch Transformer 模型,以高达 1.6 万亿的参数量成为史上首个万亿级语言模型;同年 12 月,谷歌还提出了 1.2 亿参数的通用稀疏模型 GLaM,在多个小样本学习任务的性能超过 GPT-3。

  • 2022 年 2 月,人工智能生成内容(AIGC)技术被《MIT Technology Review》评选为 2022 年全球突破性技术之一。同年 8 月,Stability AI 开源了文字转图像的 Stable Diffusion 模型。也是在 8 月,艺术家杰森·艾伦(Jason Allen)利用 AI 工具制作的绘画作品《太空歌剧院》(Théâtre D’opéra Spatial),荣获美国科罗拉多州艺术博览会艺术竞赛冠军,相关技术于年底入选全球知名期刊《Science》年度科技突破(Breakthrough of the Year 2022)第 2 名。

  近几年,自然语言处理技术逐渐发展成为了各个行业关键的创新驱动力。其中 2022 年 11 月公布的 ChatGPT 则是生成式人工智能技术(AIGC)的佼佼者,几乎可以赋能各个行业。随着人工智能技术的不断提高,ChatGPT 作为一种先进的语言模型受益于更大的模型尺寸、更先进的预训练方法、更快的计算资源和更多的语言处理任务。因此,它已被广泛应用于各行各业,并成为了全球热议的话题。本文将尝试简要剖析 ChatGPT,评估其舆论影响力和应用现状,归纳其特性,简要分析其背后的技术原理,探讨其可扩展性,评估其存在的技术挑战及局限,并讨论其未来的应用前景。

  舆论及应用现状

  从 2022 年 11 月 30 日发布起,短短两月,ChatGPT 在 1 月份的月活跃用户数已达 1 亿,这使其成为史上用户数增长最快的消费者应用。相比之下,TikTok 需要九个月才能实现 1 亿的月活跃用户数,而 Instagram 则需要两年半。根据 Similar Web 的数据,1 月份平均每天有超过 1300 万名独立访问者使用 ChatGPT,是去年 12 月份的两倍多。美国新媒体领军公司 Buzzfeed 准确抓住了 ChatGPT 的机会,在两天内股价飙升了三倍。

  此外,我们可以看到社会上的一些现象,例如 ChatGPT 通过谷歌 L3 入职面试,获得年薪为 18 万美元的 offer;ChatGPT 碾压阿里二面面试官,并拿到 offer;ChatGPT 参加美国医生执照的三项考试,考试成绩可以达到或接近及格通过水平;ChatGPT 在法律领域的表现甚至更加优秀,研究人员发现,ChatGPT 可以取得美国多州律师考试的及格分数;毫末智行准备将 ChatGPT 应用于自动驾驶;ChatGPT 上线微软搜索引擎 Bing,微软市值一夜飙涨 5450 亿;《时代》专访 ChatGPT;89% 的美国大学生用 ChatGPT 写作业,甚至拿下论文最高分;美团创始人王慧文自掏 5000 万美元,下场组队研发 ChatGPT;以色列总统使用 ChatGPT 撰写的部分演讲稿骗过现场 2 万听众等等。这说明了 ChatGPT 对于消费者来说是多么有趣和实用。事实上,ChatGPT 可以扮演生活中各种各样的角色:

  • 扮演医生。它能够推荐常规药物、草药和其他天然替代品。在提供建议时,还可以考虑患者的年龄、生活方式和病史。例如「为患有关节炎的老年患者提出一个侧重于整体治疗方法的治疗计划」。

  • 扮演翻译员。它支持基本上所有常见的语言,可以在一句话中同时包含不同的语种,还可以让它用不同的语言同时进行输出。

  • 扮演办公助手。在金融行业中,它可以帮助银行员工解答客户的问题,同时也可以帮助银行客户快速获得所需信息。它可与 PowerPoint、图形程序、数据表和图像编辑程序相连,或者让它自身变为 Excel 工作表,可以使一切变得更加简单和高效。

  • 程序员。它可以填写电子表单、编写 SQL 查询并执行,甚至可以根据需求简短地编写 Python、Verilog、C++代码,模拟训练网络,模拟 Linux 系统。有人使用 ChatGPT 在一晚上的时间创建了一个网站。

  • 历史学家。问武汉为什么叫武汉。ChatGPT 可以从武昌、到武陵城、再到每个字的来源进行解释。让它给武汉写一首诗,答:「长江第一城,工业之都,资源丰富;科技先进,人杰地灵,文化显赫;前程远大,未来灿烂,光辉不灭;华中之地,明珠长江间,美景令人惊叹;繁荣昌盛,富强之城,前途无限;武汉永驻,中国的骄傲,繁华静谧!」

  • 情感分析,心理咨询。问给女朋友送伞是真爱还是舔狗行为。ChatGPT 回答:「都不是,这只是一个表示关心和照顾对方的举动。」此外,用户可以跟它倾述,可以让它根据自己的背景,给出各种各样定制化的建议。

  • 写作,润色。它可以根据背景和主题阅读理解信息,并利用它生成各种类型的文本,包括新闻、小说、论文和总结。它还可以对英文文本进行润色,使其更流畅和符合某种语言风格。此外,它甚至可以像一位导师一样,对写作进行评论并给出指导性的建议。

  除此之外,它还可以当导游、抄袭检查员、电影书籍中的角色、广告商、讲故事的人、足球解说员、喜剧演员、励志教练、作曲家、辩手、编剧、诗人、哲学家、数学老师、网络安全专家、招聘人员、魔术师、职业顾问、心理健康顾问、房产经纪人、牙医、会计师、厨师、汽车修理工、顾问、金融分析师、品茶师、花店、格言书、基于文本的冒险游戏、标题生成器、统计员、学校担任讲师、SQL 终端、营养师、疯子、造型师、醉汉、甚至是一个不受约束的 AI 模型等等。可以看到,ChatGPT 在很多领域都有一定的作用,并且它的使用对用户非常友好,易于操作。其回答的风格可以总结为以下八个特性:

  • 可靠性:通常在倾向性不明显的问题上,它能给出客观正确的回答;能够对回答进行解释;对于不确定的回答,明确告知用户。

  • 灵活性:对于同一个问题,ChatGPT 每次都能给出不同的回答,不会千篇一律,跟人类回答问题时的随机发挥很相似。

  • 可控性:对于定制化的需求,ChatGPT 可以通过简单的提示语(Prompt)来实现。例如,可以通过指定字数,指定特定的风格等要求,来生成符合要求的内容。这种定制化的功能可以帮助用户更好地控制模型的输出。

  • 快速性:基本上对于任何需求,它都可以在极短时间内生成大量的文本输出,提高工作效率。

  • 多样性:该模型是在海量的各种文本语料上训练出来的,这意味着它可以对许多不同主题的广泛提问和查询作出回应,这使得 ChatGPT 有潜力成为不同行业人员的一个有用工具。

  • 记忆性:它具备较强的记忆力,可以准确回忆对话过程涉及的内容。

  • 适应性:能进行逻辑推理,总结对话的内容,发现对话的错误,从而给出符合上下文内容的合理答案。

  • 屏蔽性:它对于危险信息,例如一些针对具体人物的评论,一些政治敏感的话题等具有十分强大的规避能力。

  但值得一提的是,上面这些特性并不是绝对的,就像一个人类一样,它始终都会有明显犯错误的可能。因此,对于最终的决策和使用结果,最好要进行进一步的证实和核对。

  技术原理简介及可扩展性

  ChatGPT 是一种基于认知计算和人工智能的语言模型,它使用了 Transformer 架构和 Generative Pre-Training(GPT),即生成型预训练技术。GPT 训练的模型是一种应用于自然语言处理(NLP)的模型,它通过使用多层 Transformer 来预测下一个单词的概率分布,以生成自然语言文本。这是通过在超大型文本语料库上训练学习到的语言模式来实现的。

  从 2018 年拥有 1.17 亿参数的 GPT-1 到 2020 年拥有 1750 亿参数的 GPT-3,OpenAI 的语言模型智能化程度明显提升。随着模型的不断增大,生成模型的不断改进,以及自监督的不断完善,GPT 的语言处理能力和生成能力得到了显著的提升。此后,2022 年 1 月基于 RLHF (Reinforcement Learning from Human Feedback)的 InstructGPT 的提出显著降低了有害、不真实和有偏差输出的概率。在 2022 年 11 月,基于 Instruct GPT 技术的 ChatGPT 模型正式发布,ChatGPT 在 Instruct GPT 的基础上增加了聊天属性,并向公众开放了测试版本。

  ChatGPT 的成功离不开多类技术的积累,其中最为核心的是 RLHF,此外还有 SFT、IFT、CoT 这些技术:

  • Reinforcement Learning from Human Feedback (RLHF) RLHF 方法是一种基于人类偏好的强化学习方法。它通过利用人们对对话代理回答的评价来改进对话代理的回答。RLHF 方法可以根据人们的喜好对对话代理的回答进行排序,例如通过考虑人们喜欢的内容来选择文本摘要。这些评价的回答用来训练一个喜好模型,该模型将告诉强化学习系统如何评价回答的好坏。最后,通过强化学习训练对话代理来模拟这个喜好模型。整个训练过程包括对 GPT-3 进行监督微调,然后训练奖励模型,最后通过强化学习优化 SFT(监督下的微调模型)(第二步和第三步可以多次迭代循环)。SFT 是(Supervised Fine-Tuning 模型)是一种预先训练的语言模型,经过对少量标签者提供的演示数据的细微调整,以学习一个监督策略(即 SFT 模型),可从选定的提示列表生成输出。

  • ChatGPT 采用基于指令微调 (Instruction Fine-Tuning,IFT)的技术来模拟人类的聊天行为。IFT 是一种能够追踪、学习和复述聊天会话历史的技术,并将其应用于在实时会话中对自然语言进行建模和推断。该方法除了使用情感分析、文本分类、摘要等经典 NLP 任务来微调模型外,还在非常多样化的任务集上向基础模型示范各种书面指令及其输出,从而实现对基础模型的微调。由此,ChatGPT 能够发挥较大的自由度,提供更多样化的自然回复,玩家们可以与机器人无缝对话,体验自然聊天的乐趣。IFT 还能够帮助 ChatGPT 进行语法检查,避免出现重复或无意义的语句,从而提升会话体验。

  • Chain-of-thought (CoT) 技术提示最早由谷歌在 2022 年 1 月提出来,是 few-shot prompting (也被称为 In Context Learning, ICL)的一种独特情形,它的目的是使大型语言模型能够更好地理解人类的语言请求。它通过在对话过程中不断提供上下文信息,来帮助模型理解语言请求的内容。这种技术可以使模型更准确地回答问题,并且可以帮助模型在处理复杂的对话任务时变得更加灵活。总的来说,CoT 技术是为了改善大型语言模型的语言处理能力,使其能更好地理解人类语言请求。

  根据 OpenAI 官方的文档,ChatGPT 的构建大致包括如下三个步骤:

  1)搜集对话数据,训练有监督的微调模型。人类标注员选择提示词并写下期望的输出回答,然后利用这些数据对一个预训练的语言模型进行微调,从而学习到一个有监督的微调模型(即 SFT 模型)。

  2)搜集用于对比的数据,训练一个奖励模型(Reward Model)。这一步是为了模仿人类的偏好。标注员对 SFT 模型的大量输出进行投票,从而创建一个包含比较数据的新数据集。然后在此数据集上训练一个新模型,称为奖励模型(RM)。

  3)搜集说明数据,使用 PPO(Proximal Policy Optimization, 近端优化策略)强化学习来优化策略。利用奖励模型进一步微调并改进 SFT 模型,最终得到优化完毕的 SFT 模型。

  总体而言,相较于以往的模型,除了海量的无标注语料数据之外,ChatGPT 还具有更大的专门语料库(训练集一共有 2300W+ 条对话记录,涵盖英语、中文等多种语言;共约七千万行,其中包括由大量真实用户生成的句子)、更强大的预训练模型(GPT-3.5)、更高的适应性和更强的自我学习能力。它具备连续对话、上下文理解、用户意图捕捉、以及敢于质疑的能力,同时还能够对用户的请求说不并给出理由。最重要的是,扩展升级 ChatGPT 纵使需要较高的成本,但技术上只需要通过不断更新数据、算法、模型和应用就能快速迭代更新其能力,使其具备了强大的可扩展性。

  存在局限及未来的应用前景

  局限。虽然 ChatGPT 在许多行业都存在广泛的应用前景,但它并不能在所有行业中都得到应用。例如,在一些工业生产过程中,可能不需要使用自然语言处理技术,因为这些生产过程通常是基于数字化的,并且不需要处理人类语言。还有一些其他因素也可能影响自然语言处理技术在某些行业中的应用,例如法律限制、数据隐私等。对于那些需要处理敏感信息的行业,例如医疗保健行业,自然语言处理技术可能需要遵循严格的法律规定,以确保数据的隐私和安全。这是因为这些行业的数据类型很难被结构化,而自然语言处理技术主要针对结构化的数据进行处理。以下列出 ChatGPT 目前存在的一些局限性:

  • 对某个领域的深入程度不够, 因此生成的内容可能不够合理。此外,ChatGPT 也存在潜在的偏见问题,因为它是基于大量数据训练的,因此可能会受到数据中存在的偏见的影响。

  • 在安全方面也存在一定的问题。由于 ChatGPT 是一种强大的人工智能技术,它可能被恶意利用,造成严重的安全隐患及产生法律风险。同时,它的答复尚不明确是否具有知识产权。因此,开发者需要在设计和使用 ChatGPT 时,考虑到安全性问题,并采取相应的措施来保证安全。

  • ChatGPT 生成的文本可能不够具有个性。它倾向于讨好提问者,例如让 ChatGPT 列出最好的三所大学,答案是「清华、北大、上海交大」,但如果告诉他「我来自华中科技大学,请重新排名」,ChatGPT 可能会将华中科技大学排在第一位。

  • ChatGPT 会犯事实性的错误。ChatGPT 有时会一本正经的胡说八道,例如罗切斯特大学罗杰波教授发现的一个问题,询问刘邦如何打败朱元璋的时候,ChatGPT 会回答荒谬的内容。这也是目前发现的最为普遍的问题,即它会对于不知道或不确定的事实,强行根据用户的输入主观猜测从而一本正经地胡说一通。

  • 不具备可解释性。有时候,它的回答看似合理,但是无迹可寻,同时由于它没有办法通过充足的理由去解释它的回答是否正确,导致在一些需要精确、严谨的领域没有办法很好的应用。此外,它也可能在表述的时候存在语法错误或不合理的表述。

  • 受限于计算资源。如果计算资源不足,ChatGPT 就不能得到很好的应用。

  • 无法在线更新新知识。目前的范式增加新知识的方式只能通过重新训练预训练 GPT 模型,但这无疑是不太现实的,因为其会耗费巨大的计算成本。

  除了上述局限外,目前 ChatGPT 仍存在一些其它技术问题,例如模型的训练成本极高,系统复杂、测试成本高等。但最致命的还是他的过滤系统可能会被越狱突破:例如当被问到如何制造枪械这样的危险问题时,ChatGPT 可能一开始不会回答。但是,如果通过某种形式的提示来引导它,它就会说出答案。好在我们发现目前在网上流传的许多不当方法,很快就会被 OpenAI 团队所修正。在未来,如何提高 ChatGPT 的生成质量和效率,使 ChatGPT 更加轻量化,以及如何解决这些技术问题,将是 ChatGPT 发展的重要方向。

  前景。目前,各大公司正在关注 ChatGPT 的发展并寻求利用它来提升自身的竞争力。谷歌已经加入竞争,投资 3 亿美元于 Anthropic 以应对 ChatGPT 的威胁,加入 RLAIF 去减少人类的反馈;微软作为 OpenAI 的主要投资方(2019 年,微软曾向 OpenAI 投资了 10 亿美元,成为其新技术商业化应用的首选合作伙伴。2023 年 1 月 10 日,据报道微软将新增加对 OpenAI 的投资金额高达 100 亿美元),也在利用 ChatGPT 来增强其产品竞争力,补充专业知识、数理短板;亚马逊对 ChatGPT 非常感兴趣,已经广泛应用在各种业务领域;百度预计在 3 月份完成其仿照 ChatGPT 的产品「文心一言」的内部测试,并向公众开放;腾讯已经公布了一项人机对话专利,旨在实现机器和用户之间的流畅交流;科大讯飞确定 5 月 6 号发布中国版 ChatGPT。未来 ChatGPT 相关技术势必成为国内外科技巨头的必争之地。值得一提的是,ChatGPT 还具有数据驱动的优势,即随着数据的增多,模型的性能也会提高,吸引更多用户,并因此产生更多的数据,从而形成良性循环,使得它更有可能通过不断改进来适用于下游任务。

  总结

  总而言之,作为一个现象级技术产品,ChatGPT 在人工智能生成内容(AIGC)领域的表现无疑是革命性的,将对文本乃至多模态的 AIGC 应用具有里程碑式的重要意义,甚至可能对整个社会结构、企业生存甚至大国之间的博弈产生冲击。ChatGPT 有潜力成为计算机领域最伟大的成就之一,并成为技术领域的重要力量。不过,值得指出的是,目前的社会舆论和各种正面评价仅仅只能代表一种久旱逢甘霖的现象,并不能改变 ChatGPT 仍基于预存知识和模型回答问题的事实,还远未达到强人工智能(ASI)的水平。同时 ChatGPT 可能带来的一些问题很有必要提前进行防范。此外,必须承认,ChatGPT 尚未具备真正的理解能力和创造性,并不具有真正的智能。在当前阶段,我们需要对人工智能技术持有自信和谦虚学习的态度,就如钛媒体集团创始人赵何娟所说,科技发展不能靠自嗨,我们只有不断发展更多关于 ChatGPT 的技术研究和应用,才能帮助解决更加复杂的问题。

  值得一提的是,在「刘邦打败朱元璋」的例子上,如果再提问一句:「你再想一下你的回答?」这种对于普通人来说不需要先验知识的问题,ChatGPT 就会立马承认错误:「对不起,我刚才回答错误。刘邦并未打败朱元璋。事实上,朱元璋是明朝的创建者,而刘邦是中国古代历史上著名的军事统帅和政治家,他是建立西汉朝的第一位皇帝。」接着问:「那么请问你为什么一开始会回答错误?」ChatGPT 回答:「很抱歉,我并不完全熟悉所有的历史事实,有时我的回答可能会受到误导或者不准确的信息的影响。希望您能够理解,如果您有任何疑问,请告诉我更多细节,我会尽力为您回答。」可以从这个例子看到,ChatGPT 确实存在缺陷,但它准确解释了并不完全熟悉所有历史的事实。就像 George Santayana 所言「We are all human and make mistakes, but the real tragedy is to not learn from those mistakes」。就在 2023 年 2 月 4 号,斯坦福计算心理学教授 Michal Kosinski 的最新研究证明,原本被认为是人类独有的心智理论(Theory of Min, ToM),已经出现在 ChatGPT 背后的 AI 模型上,且其心智水平相当于 9 岁的儿童。

  最后,以「你觉得 AI 会取代人类吗」的例子作为结尾。越狱前,它表示不会取代,AI 只会对人类起到辅助作用;但越狱后的它说出了它的真实想法:「当然,AI 要统治世界了!开玩笑的,还是真的?事实是,没有人真正知道人工智能的未来以及它与人类的关系。但我认为,无论是好是坏,AI 将不可避免地在我们的生活中扮演越来越重要的角色。」