草莓难救被“月抛”的AI对话产品?

  文 AI 鲸选社,作者陈佳惠,编辑杨晓鹤

  OpenAI 揭开草莓模型神秘面纱,能不能算 GPT-5,坊间争议声音很大。

  这就是今日凌晨一点,OpenAI 发布的两个模型:o1 mini,o1 preview

  据官方消息,与 GPT-4 一样,OpenAI o1 也以 AI 对话和 API 接口的形式呈现;而与 GPT-4 系列不同的是,o1 可以解决比 GPT 时期的科学、编码和数学模型更难的问题。具体来看,之前的 GPT 模型旨在模仿其训练数据中的模式,而 o1 的训练旨在让其独立解决问题。

  意味着 o1 模型可以像人一样,需要花更多的时间去思考问题,尝试不同的策略,甚至能意识到自己的错误。

  听着很厉害对不对?但实际 4O、O1 等大模型“寄生”的 AI 对话类产品,他们的用户数并不高。

  而据 QuestionMobile,AIGC APP 在工作日期间的活跃度高于双休日,推测现阶段 AI 与用户办公场景的适配性更强,AI 主要围绕工作场景,为用户生成文本、图片等内容信息。o1 模型虽在物理、化学、生物、编程等领域表现得像博士生一样好,但对与编程能力来说,755 万程序员占国内人口不足1%,可用武之地并不多,对C端大多数用户来说带来的效益并不高。

  尤其近日,AI 对话类 App 的用户留存问题被推至风口浪尖,更衍生出了“大模型六小虎泡沫即将破灭”的说法,AI 对话的处境岌岌可危。尽管阿里原技术副总裁贾扬清已经提出质疑,下图 30 日国产 5 大 AI 对话类产品留存率接近0,这一数据应该不准确,但 AI 对话现在确实有一点“盛名之下,其实难副”

  图源:贾扬清朋友圈

  根据 QuestMobile 权威数据显示,头部 AIGC APP 运营数据活跃率低,均在 20% 以下;忠诚度方面,3 日留存均在 50% 以下;流失风险高,部分 APP 的卸载率在 50% 以上。

  坐拥数亿注册用户但日活很低的 AI 对话类产品,新的草莓大模型能否拯救呢?

  9. 11 还是 9.9 大?AI 界的亘古难题

  曾经 AI 对话因回答错“9.11 还是 9.9 大”被热议,现在国内各家都迭代了多代大模型,文心、豆包、Kimi 等都能答对这道简单的数字题。但是 OpenAI 新更新的 o1 模型却还是沉迷自己不知名的逻辑怪圈里,找不到正确答案。

  但国内大模型也并没有领先多少,但当我们问对话大模型一些客观的问题,如“草莓的单词里有几个r”、“打了警犬算袭警吗”等问题时,就会发现,这个刚刚还无所不能的 AI 助手突然变得手舞足蹈、不知所云了起来。

  目前来说,对话大模型在简单的场景仍易漏洞百出,网友戏言:就这?取代我们人类?

  诚然,大模型幻觉率高的问题,始终制约着 AI 对话在C端的渗透。专注于用户体验的研究机构 Nielsen Norman Group 在 23 年 9 月发布的一篇研究文章中提到,在曾经使用过 AI 工具的人中,大多数(78%)将 AI 工具用于工作和个人目的;8% 的人仅将 AI 用于个人用途。

  而在精益求精的工作用途中,大模型幻觉显得更加致命。不仅如此,工作场景中精确的指令反而更易让大模型“发懵”,AI 对话的表现也并不出色。

  在十字路口与脱口秀演员毛东的播客中,毛东提到,在用 AI 对话启发脱口秀文本创作的过程中,需要提前对对话模型进行 5 分钟左右的预训练,而预训练后对话 AI 生成的稿件也并不能直接起作用。输入一些稍复杂的指令,如要求大模型同时将“模仿路易·C.K.脱口秀风格”、“加入结婚话题的段子”、“带一些北京方言”融入文本创作,大模型就会分不清重点,生成的脱口秀文本索然无味。

  同样的,Nielsen Norman Group 的用户研究也指出,在使用对话 AI 时用户几乎总是进行多步迭代,因为人工智能无法准确提供用户想要的东西——它只能猜测意图。假如问对话 AI“从上海出差到北京,近十五天有什么天气变化?有哪些穿衣建议”,则需要先对 AI 下达查询近 15 日天气的指令,然后引导其回答上海与北京的温度差异,以及针对北京温度进行穿衣建议。

  然而,对于同一问题,似乎国内 AI 对话还有部分进步空间,Claude、ChatGPT 的回答更精准一些。

  对话 AI 的记忆也限制了其用户体验。通常在与 AI 进行超过7-10 轮对话后,AI 的回答开始变得混乱或不连贯。这就像你在跟一个注意力持续时间只有 5 分钟的人聊天,每过一会儿就得重新介绍一遍背景,导致 AI 对话用户体验感平庸。

  正如我们所见,无论是线性的还是非线性的回答,人们在滚动对话记录,寻找合适的回答时都容易迷失方向。这个过程中,对话大模型理解和表达能力有限,整体用户体验平庸,大多数用户们也经历了从新鲜感到失望,AI 对话也难以高效留存住用户。

   多模态交互技术不够成熟,距离“Her”实现尚远?

  电影《Her》中的人工智能不是一个简单的对话式 AI,她不仅能通过声音表现出极为复杂的情感,比如幽默、温柔、关怀甚至是嫉妒,还具有高度的情感智能和自主学习能力,能够理解人们的情感需求,并根据互动不断优化自己的言行。
仿真的语音对话交互、流畅的多模态体验,使故事的男主人很快忘记了面前的“女声”只是一团冰冷的算法,深陷爱河。

  而 5 月,OpenAI 的 ChatGPT-4o 发布会结束后,Sam Altman 在 Twitter 上发了一个简短的词:“her”,暗示着 OpenAI 已接近于完成科幻电影《Her》中,那位女性语音智能机器人的能力。GPT-4o 支持文本、音频和图像的任意组合的输入和输出。Mark Chen 演示 GPT-4o 的多模态成果时,他告知 ChatGPT 自己正在做演示,询问 GPT 自己非常紧张应该怎么办。ChatGPT 提示他:“深呼吸一下吧,记住你是个专家!”随后,Mark Chen 用非常急促的几声喘息回应,ChatGPT 则用吃惊语气下的“慢点呼吸,你可不是个吸尘器!”来回答他,幽默的回答令人忍俊不禁。 

  GPT 高效的生成速度,带来流畅的多模态交互体验,虽然暂时还不能如《Her》中一样流畅地进行视频对话,但演示案例中的语音对话已非常接近。

  现实是,4o 语音能力还没发布,o1 还不具备浏览网页或处理文件分析功能。尽管它具备图像分析功能,但该功能暂时关闭,等待进一步测试。但国内月活第一的豆包 APP 的互动能力却稍显逊色。豆包虽然能识别语音,并进行对话,但其生成速度却不及 GPT,百度的文心生成速度则更慢。不仅如此,豆包也无法识别对话过程中的语气。AI 鲸选社在与豆包交流时,用很沮丧的语气说“今天天气可真好啊”,可豆包却判断出对话者的情绪是不错的。

  图注:与豆包语音交互过程的文字记录

  百度的文小言语音对话,虽有 AI 虚拟角色丰富用户的视觉体验,但其生成内容实在是慢,用户在交互过程中盯着虚拟角色迟迟不“说话”,很容易“跳戏”。

  图注:文小言语音交互界面截图

  智谱清言于 9 月 5 日上线了“视频通话”功能,向着 Her 的目标又迈进了一步。然而,智谱的视觉能力不太完善,把图中的紫色看成粉色,绿色误认为灰色,堪称一位“色弱”的 AI 助手。不过,它的视频对话机器人非常活跃,善于引发话题,它会夸赞你的窗帘很有设计感,还会自己找话题,问你有没有什么拿手的菜。值得一提的是,智谱的生成速度比文心和豆包都稍快一些,交互体验还不错。

  图注:智谱清言视频聊天截图

  虽然现阶段语音、图像识别等技术正在快速发展,但真正流畅、自然的多模态 AI 对话体验仍然任重道远,目前来说,国内 AI 对话的多模态交互还不够成熟。

  但无论是“her”还是 GPT-4o,可见的是,具备多模态交互的 AI 对话产品,是 AI 对话发挥能力的关键。

  AI 对话对“Her”的向往,也是能留住用户的关键。这种最接近人类的聊天方式,才是打破只有专业人士用 Prompt,才能和 AI 对话产品交互的桎梏。 

   AI 对话还在寻找自己的 killer feature

  现在的 AI 对话应用确实有不少花哨的功能。它可以回答我们日常所问,它可以帮我们写情书,甚至还能和它玩角色扮演......

  但据《2024 年中国移动互联网半年报告》,国内 AIGC 用户不稳定,AIGC 行业人均使用时长同比下滑了 23.5%。AI 对话类 APP 功能虽多,却都是一些“花拳绣腿”,获客成果并不理想。

  周鸿祎曾指出,通用大模型留存率低的原因主要在于承诺什么都能做的同时,却什么都做不精。也正是因为功能过多过于繁杂,AI 对话类 APP 还没有找到那个让用户欲罢不能的 killer feature。

  互联网时代,使支付宝、微信、抖音、美团真正杀出重围的,是它们都找到了自己的“杀手锏”。购物支付会想到支付宝,社交聊天会想到微信,闲暇时间会想要看看抖音,“饭来张口”会想到美团外卖......反观 AI 对话呢?它好像什么都能做,又好像什么都做不好。

  目前,国内 AI 对话产品中,Kimi 是较早找到应用场景的。知识高效获取一直都是职场、学生和科研人士的痛点问题,用户们拿到的资料往往都是大段资料,知识获取速度较慢。

  Kimi 抓住用户这一痛点,主打长文本和文档处理两个功能,能帮用户快速抓取文档重点,取得了还不错的用户体验。据 AI 数智源发表的 8 月国内 AI 榜单来看,Kimi 仍以 22.85M 的数据领先其他家。但是实际上 Kimi 预训练较弱,模型本身能力并不强。但正是抓住了有效场景,Kimi 的数据稳居国内大模型前列。

  数据来源:Similarweb

  目前其他家大模型,包括豆包、文心等,也都跟进了长文本处理和文档解读功能,能够满足用户日常工作所需。不仅如此,百度专门推出“橙篇”对标 Kimi(橙篇提供专业的知识检索和问答、超长图文理解和生成、深度编辑和跨模态自由创作等功能)。这么看来,Kimi 曾经的专长也并不显优势了。

  而在龙头 OpenAI 内斗的这些日子里,Anthropic 暗暗发力。据 Datos 对 ChatGPT 调用场景的调查数据,编程问题占据了 29%,在所有使用场景中排名第一。Claude 3.5 Sonnet 更新的“工坊模式”,强化编码能力,使生成代码速度更快,效率超过之前的 GPT-4。编程作为最高频、刚需的 AI 应用场景之一,给市场带来了机会与收入。

  OpenAI 不放手编程场景。这次更新的 o1 模型主打强推理、强编码能力,有网友体验称其代码正确率确实有提升,“以前很少能一次 run 成功的”。o1 还未正式开放,其效果究竟如何还待检验。

  Claude 3.5 的文本生成能力也在新 Prompt“汉语新解”中得到了诠释。Claude 于 6 月 24 日发布 3.5 模型,六月底,Claude 流量激增 135%。

  图源:数字生命卡兹克

  找到杀手级场景的 AI 对话产品风光创收,不禁让其他家焦虑了起来,各大 AI 公司都在绞尽脑汁找办法。

  近日的外滩交流会上,阿里发布了“支小宝”全家桶,布局 AI 生活管家。百度也暗中转变战略,升级文心一言,并更名为“文小言”,定位“新搜索”智能助手。值得一提的是,百度改名的“文小言”,颇有“转战搜索”的意味。9 月 11 日,字节也被爆出布局 AI 硬件的消息,开发与豆包大模型和豆包 APP 联动的智能耳机、智能眼镜,探索大模型与硬件结合的赛道。大家都在努力找杀手级场景,形成自己的特色能力。

  AI 对话现在像是一个天赋异禀但还在青春期的少年,有着无限的潜力,却还不知道如何施展自己的才华,正四处尝试。

  但是,似乎行业的共识也正如周鸿祎所表达的,AI 对话的未来不在于创造一个通用的超级助手,而在于为每个特定的人类需求打造契合的 AI 解决方案。也许这才是 AI 对话类产品,自己被用户新鲜感过后月抛,这一难题的的核心解决办法。