科大讯飞研究院万字解读ChatGPT,透露三大积累和产业机会

  智东西(公众号:zhidxcom)

  作者程茜

  编辑漠影

  当下,聊天机器人 ChatGPT 当之无愧已经成为科技圈“顶流”,国内各赛道龙头也已站在资本聚光灯下。

  海外前有微软新版 Bing,后有谷歌对话式 AI 服务 Bard,都助推着生成式 AI 发展走向高潮。反观国内,百度、腾讯、阿里、京东、科大讯飞等各赛道龙头积极下场,其中不少公司已经为自己划定了 ddl(最后期限)。

  上周,京东产业版 ChatGPT ChatJD 落地,百度生成式对话 AI 产品文心一言预告 3 月推出,科大讯飞类 ChatGPT 技术 5 月将率先落地 AI 学习机……其余几家也均透露,相关研发正在有序推进。

  短短两个半月时间,科技玩家争先恐后奔向这一场 AI 竞赛,而这也正是对其 AI 技术储备的“突击检查”。那么,在一众互联网大厂中,作为智能语音和人工智能赛道的头部玩家,科大讯飞如何看待自己在这波浪潮中的机会?它们能在百天内实现类 ChatGPT 技术应用落地的杀手锏是什么?

  近日,科大讯飞副总裁、研究院执行院长刘聪在一篇公开的万字分享中,深刻阐述了对类 ChatGPT 技术应用机会的思考,其中很坦诚务实地分析了当下 ChatGPT 热潮对国内科技界的深远影响,以及科大讯飞将如何依托过去的积累在这一波浪潮中赢得先机。

  ▲科大讯飞副总裁、研究院执行院长刘聪

  一、ChatGPT 成为顶流,主要靠这三件事

  很多人可能都有这样一个疑问,聊天机器人这样的产品其实并不少见,为何偏偏 ChatGPT 火了?与此同时,日前“靠 ChatGPT 在家赚钱”的视频一度成为国外社交平台上的流量密码,这都要得益于其强大的对话功能。

  ChatGPT 的“聪明”在于其能学习和理解人类的语言并进行对话,在互动过程中根据上下文互动,让你仿佛是和真人在面对面交流。除此以外,它还可以写邮件、写脚本、文案、代码,将你的意图尽可能精准地呈现出来。

  更让人惊叹的是,ChatGPT 还可以完成更为复杂的推理和学习任务,基于其对上下文内容的理解,它能在人类的适当引导下完成逻辑推理、新知识快速学习等。

  刘聪认为,总体而言,ChatGPT 呈现出的初步“智慧涌现”,至少可以总结为五个维度的能力,分别为海量高价值信息的全量在线记忆能力、自然语言输入的任意任务和多轮对话理解能力、复杂逻辑的思维链推理能力、多角色多风格的长文本生成表达能力、即时新知识学习应用于进化能力。

  为了更直观的说明 ChatGPT 的强大之处,刘聪谈道,他们挑选了一些 ChatGPT 的代表案例。如对于“摆龙门阵”这一名词,起初可能并没有在其语料库中出现或有准确定义,但经过用户的反馈与引导后,ChatGPT 能够快速理解并调整其回答。

  ▲ChatGPT 即时新知识学习与进化案例

  从更底层来看,刘聪谈道,ChatGPT 背后除了算法创新外,还需要高质量训练数据、创新模型训练算法以及 AI 工程化等多方面综合因素。

  具体而言,OpenAI 基于 Transformer 架构打造的 InstructGPT 模型,能够从原始 45TB 语料清洗得到 570GB 高质量训练语料,同时实现有效存储,并且该模型还引入了 830GB 代码文本数据,能够增强其逻辑推理能力。

  此外,该模型基于数万个 Prompt 任务的统一生成范式有监督训练,能够提高大模型对语义和知识表征的泛化及准确理解能力。

  在偏见性和基于人工反馈优化生成结果,主要针对的是无偏见和符合人类预期。

  这些综合因素的作用下,才使得 ChatGPT 的应用效果如此显著。这样看来,想要真正落地类 ChatGPT 技术需要考量的因素十分多。

  那么为何在这场抢滩 ChatGPT 的角逐中,科大讯飞只给自己留了三个月的落地时间?以该公司为代表的中国企业落地类 ChatGPT 技术的底气又是什么?

  二、AI 国家队的杀手锏:开源 40 个模型、50TB 语料、推理近千倍加速……

  我们可以一一对应来看。

  首先来看预训练基础大模型,这已经是国内研究的热门领域。

  目前国内已经诞生了多个基于文本或多模态的预训练基础大模型。刘聪说:“这些预训练基础大模型与国外基础大模型算法的差距不大,奠定了比较好的大模型训练的平台基础并进行了算法模型的框架积累。”

  所以,在大模型之上的创新才是关键。刘聪补充道,国内玩家想要打造类 ChatGPT 大模型,还需要在数据、算力和工程实现上下功夫。通俗而言,就是既要打造高质量的预训练模型,又能有足够的算力支撑。

  而这些,科大讯飞恰好都有。

  在核心算法上,ChatGPT 的主结构是当前业界主流的 Transformer 模型,目前科大讯飞已经将 Transformer 深度神经网络算法应用于其语音识别、图文识别、机器翻译中,而这些也已经从其面向消费者和行业的具体方案中充分体现出来。

  并且科大讯飞还开源了 6 大类、超 40 个通用领域的系列中文预训练语言模型,相关模型库月均调用量超 1000 万。

  第二个优势在于数据积累,行业认知大模型想达到人类专家水平,就需要大量行业文本语料和用户反馈数据做支撑。不过还有一大难关是,数据既要涵盖多行业、多领域,还需技术加人工实现双重筛选,进一步提高其模型生成结果的可靠性、合理性和可控性。

  刘聪透露,科大讯飞在多年积累和研发过程中,已经拥有超过 50TB 的行业语料和每天超过 10 亿人次用户交互的活跃应用。

  有了软件支撑,硬件也是极为重要的物质基础。刘聪谈道,超大模型由于参数规模大、数据体量大,因此需要更大的算力支持,带来过高的训练成本。在推理阶段也如此,“以对话交互为例,目前单次交互成本大致是主流方法的 1000 倍左右”。

  科大讯飞在总部合肥的数据中心,在工程技术方面能实现百亿参数大模型推理效率的近千倍加速。而这也是让其大模型能够真正落地,并实现规模化应用的基础。

  因此,在这些深厚技术积累的助推下,科大讯飞才能够迅速抓住 ChatGPT 爆发的风口。刘聪认为:“ChatGPT 的推出是深度学习提出后又一个里程碑式的技术革命,将为以自然语言处理为核心的认知智能技术发展提供新的‘历史机遇期’。”

  三、找准教育、医疗切入,“1+N”计划形成长期价值

  技术储备就绪后,下一个摆在科技企业面前的关键难题是:用到哪里?

  科大讯飞给出的答案十分明确,其中之一就是 AI 学习机。刘聪解释称,是因为他们需要选择一个社会刚需或有大量活跃用户的应用作为切入点。而教育行业完全符合其特点,教育乃国之根本,且有大量长期活跃用户。

  放到具体的应用场景中,用户在与相应设备进行交互体验时,会产生大量的数据并反馈给模型,数据与模型相结合能够进一步提高理解能力,使得模型能不断更新迭代。

  以科大讯飞最新的 AI 学习机 T20 Pro 为例,其科技属性已经不可同日而语,并且在学生中扮演着重要的角色,能够帮助学生查漏补缺,并且该设备在不断的学习与“进化”中,能针对不同学生的具体情况定制个性化的学习计划。

  ▲科大讯飞 AI 学习机 T20 Pro

  刘聪认为,这样就可以在数据和模型间形成正向反馈的“涟漪效应”,也决定了未来科大讯飞在该领域的产业落地、价值兑现之路能走到多元。在智慧教育领域,科大讯飞可谓佳绩满满,其全场景因材施教解决方案已经服务 5 万多所学校、1.3 亿多师生。

  除此以外,科大讯飞在医疗领域的积累同样丰富,科大讯飞的“智医助理”系统,可以作为全科医生助手诊断 1200 多种常见病,累计提供 5.5 亿次 AI 辅诊建议。人机交互领域,其智能语音开放平台 AI 服务日调用次数超过 50 亿,实现 60 个语种的语音识别、语音合成、机器翻译、图文识别等关键技术研发。

  ▲科大讯飞对话系统应用行业

  基于以上考虑,科大讯飞计划推出“1+N”架构,提高大模型在细分行业的实用性。“1”是指以通用认知智能大模型算法研发及高效训练底座平台,“N”则是针对于多个行业领域的专用大模型版本,其中,包含教育、医疗、汽车、人机交互、办公、翻译、工业等,均围绕着科大讯飞的核心技术展开布局。

  这也是科大讯飞对于 AI 领域研发、应用等更为宏观、长期价值的考量。刘聪提到,围绕 ChatGPT 众多行业都有了被深度重构的机会,资本市场的兴奋可以理解,但更关键是要把科研、产品、服务做好,经得起时间的考验。

  结语:国内类 ChatGPT 产品将落地,AI 竞赛进入新节点

  随着 ChatGPT 的爆红,生成式 AI 让一众玩家处于资本聚光灯下,且更容易被资本泡沫强推前行,失去理性判断。

  因此,ChatGPT 热潮涌起时,更需要置身于其中的玩家擦亮双眼,脚踏实地。作为人工智能国家队的科大讯飞,已经多次成为 ChatGPT 概念股的焦点。对此,刘聪坦言:“对于科大讯飞来说还是要本着‘实事求’的态度,紧跟国际最新发展,保持敬畏之心。”

  科大讯飞拥有相应技术实力积累的同时,与国际大厂的差距也无法忽略,因此,该公司将这一波浪潮与自身优势相结合,跑出一条自己的路,不被产业洪流完全左右。

  生成式 AI 的发展已经到达一个关键节点,待国内类 ChatGPT 产品真正落地,这场交锋将达到高潮。