国思软件 - ChatGPT发疯怎么办？小冰李笛：两个关键，我可破之

　　萧箫衡宇发自凹非寺

　　量子位公众号 QbitAI

　　微软必应接入 GPT 大模型后，效果并没有大家想象中那么好——它发疯了。

　　如今官方紧急出面，更（砍）新（掉）了必应上面最受欢迎的功能，也就是发表观点的能力。

　　大伙儿显然很不买账，认为新必应失去了最有意思的部分，现在版本的体验感甚至不如 siri 1.0。

　　有网友寄希望于必应背后的大模型升级：说不定现在只是 GPT-3 版本，GPT-4 还没发布呢。

　　然而据《纽约时报》等爆料，必应背后的大模型很可能就已经是 GPT-4 了……

　　我们将这一现象抛给国内最熟悉 AI Chat 领域的人——李笛。

　　他上来就给热得发烫的大模型浇了盆冷水：新必应和 ChatGPT 目前表现出来的 bug，反映出大模型不得不解决的一个关键问题。

　　这个问题可以一时无视，但做大模型、甚至是类 ChatGPT 产品，如果不解决它，终究会碰壁。

　　这个 bug，就是大模型的逻辑能力。

　　大模型：成也逻辑，败也逻辑

　　事情要从 ChatGPT 背后的 GPT-3.5 模型说起。

　　从 GPT-3.5 开始，大模型展现出一种突破性的能力——思维链（CoT，Chain of Thought），也就是逻辑思考能力。

　　举个例子，在做数学题时，相比直接输出答案，模型能一步步推理直至给出正确答案，体现的就是思维链能力：

　　但此前在中小模型、甚至一部分大模型上都没有发现这种能力，学界便认为这是某些大模型独有的“新特性”。

　　基于这一“新特性”，大火的 ChatGPT 横空出世，在回答问题和发表看法时展现出了像人一样思考的效果。

　　然而李笛认为，GPT-3.5 表现出的这种逻辑能力，是不稳定、不可控甚至危险的。

　　第一，它的思考方式不透明；第二，它连引用来源都没有。

　　这两个问题看似被 OpenAI 用大量人工精细标注的数据、大量的模型参数掩盖了起来，但一旦加入不可控因素（像必应一样接入互联网、或修改参数等），就随时可能导致模型崩溃。

　　因此，如今逻辑思考能力正在成为大模型的双刃剑——

　　使用效果好，大模型迈入新的时代；一旦失控，只会让大模型更难落地。

　　为了举例说明大模型的逻辑能力存在问题，李笛提到了小冰公司最新发布的产品小冰链。

　　小冰链（X-CoTA，X-Chain of Thought & Action）同样是个大语言模型，通过对话的方式帮人们解答问题。

　　但它最典型的不同，在于仅仅用 GPT-3 参数量2% 的模型就实现了思维链，而且思考过程还是透明的。

　　在模型大小上，它不仅不是 GPT 系列的千亿参数大模型，背后参数只有几百亿甚至最低能降到35 亿；

　　至于功能上，它拒绝像 ChatGPT 一样生成综述、作业和发言稿，但能实现的功能更多。除了不避讳对事件发表看法、主动联网找答案以外，还能灵活调用各种模型或知识库完成任务。

　　具体来说，小冰链的架构分为三个模块。

　　模块一负责运用思维链（CoT）能力处理语句。

　　这部分可以调用具备 CoT 能力的大模型来实现，但也可以调用上面说的 35 亿参数左右的中模型，将输入的语句转换成具体行动的 Action 指令输出。

　　模块二负责执行指令（Action），这部分接收并处理模块一输出的 Action 指令，负责执行对应的任务。

　　根据处理的指令不同，模块二调用的模型和数据也并不相同，至少有三大使用方式：

联网或本地知识库搜索。既可以追踪互联网查找最新热点、甚至网页跳转，也可以在特定知识库中索引答案。
调用特定模型做某件事。如调用效果很好的扩散模型完成作画、或调用语音模型合成声音等。
控制物理世界特定行为。如开灯、买机票、打车等，不一定是特定指令，而是模型推断后得出的结论。

　　模块三负责自然语言生成，简单来说就是将思考行动的结果用人话描述一遍，再汇报给用户。

　　总结来看，小冰链可以说是把 ChatGPT 最火的“思考方式”拿出来单独做成模型，并不断降低模型大小。

　　李笛认为，即使小冰链的核心模型大小只有中等水平，却也能在一些问题的思考方式上展现出与大模型相近的效果。

　　△还能联网，抢在吃瓜第一线

　　基于这样的观点，李笛在一众主流“要做中国的 ChatGPT”呼声中反其道而行之，不仅不宣传自家类 ChatGPT 产品，甚至推出了个强调“这不是 ChatGPT”的小冰链。

　　看起来似乎有点非主流（手动狗头）。

　　这么做，真有理论依据吗？

　　背后的技术依据 CoT，确实在国外已有不少相关研究，包括前段时间爆火的“哄一哄让 GPT-3 准确率暴涨”论文也在此列：

　　团队在研究中发现，只要对 GPT-3 说一句“让我们一步一步地思考”，就能让它正确回答出以前不会的逻辑推理题，比如下面这个来自 MutiArith 数据集的例子：16 个球中有一半是高尔夫球，这些高尔夫球中有一半是蓝色的，一共有几个蓝色的高尔夫球？

　　这些例子专门考验语言模型做数学题的能力，尤其是逻辑推理能力。

　　GPT-3 本来在零样本场景（之前完全没见过类似体型）下准确率仅有17%，但在要求它一步步思考后，准确率最高能暴涨到78. 7%。

　　这种名为 CoT 的方法，最早在去年 1 月由谷歌大脑团队发现并提出。

　　其核心思路是基于提示（prompting）的方法，让大模型学习一步步思考的过程，有逻辑地解决实际问题：

　　但上述思维链（CoT）论文基本都还停留在对大模型的研究上。

　　李笛却认为，思维链所代表的逻辑能力不是专属于大模型的产物。

　　在国内，“AI”或许已经是一个人尽皆知的词语，也是进行得如火如荼的创新风潮。

　　如果李笛所述方法得以验证，那么 AI 产业化应用除了“堆参数”、“砸资金”这一条大模型路线以外，或许还有其他出路。

　　国内 AI 应用落地，势力三分

　　ChatGPT 的效果和热度，让走在大模型路线上的人们看到了一丝曙光，但并不意味着 AI 产业化路线只剩下大模型这一种可能。

　　或者说，ChatGPT 的热度，反而能更鲜明地呈现出当下国内外 AI 应用落地的现状和趋势。

　　先提纲挈领地讲，主要路径可以分为三条。

　　第一种就是直接做底层大模型。

　　这是最直接、最容易理解，同时也是最难走的一条路。

　　一方面，大模型需要的训练数据是海量的，而现实情况是可用作训练的数据、尤其是中文数据较少。

　　以最近的热点举例说明，复旦邱锡鹏教授团队推出的中国首个类 ChatGPT 产品 MOSS，最大短板是中文水平不够高，重要原因之一就是背后大模型训练时缺乏高质量的中文语料。

　　另一方面，大模型的参数是海量的。ChatGPT 每一句看似简短的回答，都把 1750 亿参数调动了一次。

　　巨量参数首先给标注工程带来了巨大的工作量，为了应对这个环节，OpenAI 在肯尼亚以低于 2 美元的时薪雇佣大量工人，夜以继日地进行数据的筛选标注。放眼国内，能拿出如此多人力耗在标注工作的，大约只有字节跳动、百度等巨头公司。

　　上述两个方面，最后的箭头都直指同一个问题：成本，无法估量的成本。

　　OpenAI CEO 奥特曼曾在推特上透露，ChatGPT 每次对话的计算成本为 5 美分，“让人难以忍受”。5 美分这个数字看似单薄，然而每个人每天与 ChatGPT 对话的数量、以及不断增长的使用人数，叠加起来将会达到一个非常恐怖的量级。

　　谷歌母公司 Alphabet 的董事长 ohn Hennessy 在本周表示，大型语言模型等 AI 对话成本，可能是传统搜索引擎的 10 倍以上。此前摩根士丹利估计，2022 年谷歌的 3.3 万亿次搜索查询，每次成本为 0.2 美分，如果接入 Bard 这类产品，根据 AI 文本生成的长度，这个数字还会增加。

　　类似 ChatGPT 的 AI 每次回答 50 字，来回答一般的查询业务，那么谷歌每年成本将增加 60 亿美元。

　　值得注意的是，无论哪位国内玩家堆出了一个与 GPT-3.5 甚至 GPT-4 媲美的大模型，还须找到能够落地跑起来的应用场景，唯有实现商业闭环，才不致血本无归。

　　第二条路，是从大模型中去粗取精。

　　展开来说，就是在尽可能保留、甚至提高大模型某一单项能力的前提下，缩小参数量级，致力于用更小的模型实现大模型表现出来的功能。

　　如果把大模型看作一辆自行车，堆参数的过程就是在大模型上实现某个效果的过程，过程艰辛而缓慢。去粗取精之后，不用自行车缓慢前行就能达到效果，相当于在通往同一目标的路上造火箭。

　　亚马逊在走这条路，方法是直接从小模型起手，不过这条路能走通，需要一个关键前提：中小模型可以接近、甚至达到大模型展现出来的实用能力。

　　砍掉不需要的枝叶，向下探索具有特定功能的模型规模最低下限，能够一定程度上缓解大模型训练带来的成本压力。

　　但这条路线亦有争议，一是因为 ChatGPT 大模型已经展现出应用可行性，坚持这种做法势必在技术上逆流而行；二是即便成本更优，却尚未有现实案例压阵，证明这种路线就能在 AI 应用落地较量中取得最后的胜利。

　　第三条路与前两者不同，并非技术差异，而是直接从商业化角度打出竞争优势。

　　这类玩家不需要在技术上多下文章，而更考验商业创新能力，属于想好场景应用后“拿钉找锤”的模式。

　　目前，国外已经有顺着这条路发展的可参考案例，比如 AI 初创公司 Jasper，就是基于 GPT-3 开放的 API 提供各式服务，利用 AI 为博客文章、社交媒体帖子及网页等平台生成文字内容。

　　但凡产品体验足够好，或者场景资源足够丰厚，就能积攒大量用户，形成自己的核心竞争力。

　　反向思考之，正因为核心竞争力不是技术上的，走这条路的公司，头顶永远悬着一柄达摩克利斯之剑。把产品甚至公司的命运寄托在他人手中，随时有被卡脖子的风险，如何能不时刻提心吊胆？

　　三条路线摆在眼前，利弊也已经初步显现。第一条路，意味着巨大的成本；第二条路，方案尚待验证；第三条路，核心生产资料不可控。

　　哪一条才通向罗马？又或者，这三条路之外，是否还会出现直通 AI 应用落地的潜在捷径？

　　李笛说，他们选择第二条路。小冰链也正是基于这条路径之上探索出来的产物，本质上仍旧是从“可解释人工智能”的角度，探索成本、风险可控的 AI 商业化落地应用。

　　至于方案验证，或许也不用等太久，李笛说，未来小冰链会和必应合作，将这种方法应用到搜索引擎上。

　　实际应用效果如何，我们拭目以待。

ChatGPT发疯怎么办？小冰李笛：两个关键，我可破之

我们的产品

相关链接

关于我们

联系我们