文丨科技新知,作者丨樟稻,编辑丨伊页
ChatGPT 继续如同黑洞一般,吸引着各大势力布局。
外界看来,这是人工智能领域中的里程碑事件,代表着 AI 技术发展到临界点,也同样预示着原有的商业模式都有机会重塑一遍。
正如英伟达创始人黄仁勋所述,由于 ChatGPT 可以借助 API 方式被外界调用,意味着它可以接入各类软件,它的出现也将像浏览器改变互联网、苹果应用商店改变软件行业一样,对行业产生巨大的冲击。
典型的如搜索引擎、云计算行业,由于 ChatGPT 的横空出世,原有的市场竞争态势被打破。譬如百度可以借着文心一言,售卖其智能云服务。这对于场上原有的玩家而言,机遇与挑战同在。
那么汽车行业呢?可以看到,近段时间内,车企们也频频在 ChatGPT 领域发声:
先是,集度、长城、东风日产、爱驰、零跑、吉利汽车、海马汽车等近 10 家车企加入文心一言的朋友圈;紧接着,毫末智行宣布,自动驾驶认知大模型正式升级为 DriveGPT,在自动驾驶模型算法方面,全面应用 ChatGPT 的模型和技术逻辑。
ChatGPT 之于汽车行业,乃至于更聚焦的自动驾驶领域,到底是放卫星还是起飞点?
止于语音交互“鸡肋”?
集度是最早公开打出“ChatGPT 上车”概念的车企。
2 月 14 日,集度 ROBOVERSE 三里屯体验中心启动会上,CEO 夏一平率先宣布,将融合百度“文心一言”的能力,打造针对智能汽车场景的人工智能交互体验,支持汽车实现自然交流的再进阶。
据了解,此次“文心一言”上车集度,是全球类 ChatGPT 技术首次应用于智能汽车产品。
对于合作的具体细节,现场并未公布。对此夏一平表示,“关于具体会有哪些功能,我只能说现在还在努力地去跟百度团队在对接,因为大家也知道文心一言将在三月份发布,之后才会去做我们的应用。”
不过,结合其他资料,可以大胆猜测出,ChatGPT 大概率率先应用在语音交互方面。
毕竟,除了 ChatGPT 本身就是凭借其出色的交互能力出圈外,同一时期,长安汽车官方公号发布了题为《假如把 ChatGPT 装进长安深蓝 SL03》的文章,让消费者自然而然联想到车载智能语音交互功能上。
现阶段,作为市场主流的交互方式,智能语音是智能座舱的标配功能。根据消费者调研数据,语音交互功能是座舱内体验比例和满意程度最高的交互方式。
一般而言,主机厂将语音交互功能作为其产品智能化与差异化的核心体现。比如,梅赛德斯-奔驰的用户体验团队为其车载语音体验的开发设定了三个目标:
1. 允许司机像对待另一个人一样自然地交谈。2. 支持比典型语音服务更多的查询类型。3. 将语音更自然地集成到整体车内体验中,以便用户可以在语音和触摸控制之间无缝切换。
然而,现实往往很残酷。由于车企对语音交互技术的掌握有所欠缺,导致车载语音系统的交互程度普遍较弱,体验一般,大多时候沦为“鸡肋”。
个中缘由,其实在于智能语音交互技术上,仍然存在难点。
智能语音交互的技术逻辑主要包括三大部分:识别、理解和执行。目前提供解决方案的厂商中,识别部分已经趋于成熟,识别率可以达到 90%。行业的痛点主要集中在“理解”部分,大部分的车载语音交互系统在“理解”上并不智能。
举个例子,此前传统主机厂提供的前端语音交互功能,大部分采用命令控制。用户需按照指定命令进行交互,机器不具备语义理解能力。交互机械化,导致整个系统功能单一、命令词单一。
那么,基于 AI 语言大模型,对任何领域的任何问题几乎都能进行整合回答的 ChatGPT,能否给车载语音交互系统带来新的可能?
答案是肯定的。“ChatGPT 在推理和学习能力上优势明显,不仅可以用于理解和对话,更可以通过上下文交流和自我学习,来实现辅助创作和知识进化。这些能力同样适用车载语音交互领域,融合对话智能技术、深度学习大模型技术、工程化能力、大数据的潜力,带来更流畅、更有效的响应……”思必驰汽车事业部产品总监葛付江如此认为。
从这点来看,如果汽车智能语音能够植入类 ChatGPT 技术,在高用户黏性之下,未来的商业化前景将更加广阔。
当然,考虑到成本层面,又往往会将相关厂商拉回冰冷的现实。
根据 Lambda 官网数据,微软为 OpenAI 设计了一个包含 10000 块 Nvidia V100 GPU 的分布式集群进行 GPT-3 的模型训练,由于模型参数量较大(共 1750 亿参数),训练完成共耗费 30 天,消耗总算力为 3640PF-days。以 Nvidia Tesla V100 的 Lambda GPU 实例定价为 1.50 美元/小时测算,GPT-3 的完整训练成本将达到 466 万美元/次。
自动驾驶的“突现”时刻
可以看出,ChatGPT 短期内更多是在智能化方面,赋能汽车行业发展,离完全意义上的自动驾驶还是有些距离。对此,ChatGPT 自身也给出了如下回答:
作为一个语言模型,ChatGPT 主要用于生成自然语言文本,如对话或文章等。自动驾驶技术需要处理的是感知、决策和控制等方面的问题,这些问题与 ChatGPT 所处理的文本生成任务并不相关。因此,在技术上,将自动驾驶技术与 ChatGPT 蹭热点并不可行。但是,自动驾驶公司可以利用 ChatGPT 等自然语言处理技术来提高其产品的人机交互能力,以更好地满足用户需求。
实际上,这也是业内主流的观点。此前,中国电动汽车百人会论坛(2023)专家媒体沟通会上,副理事长欧阳明高院士表示,ChatGPT 出来之后会引发人工智能新一轮的革命,对智能驾驶也会产生深远的影响。
“马斯克做的就是基于这条技术路线,就是所谓的大模型、大数据、大算力……为了获得大数据,必须要大量卖智能辅助驾驶电动汽车,尤其是城市辅助驾驶今年可能大家会争先恐后地上市,这也是很重要的技术趋势。”
如何理解这段话?需要知晓的是,如果细究的话,ChatGPT 成型背后有一个十分重要的基本原理能力—“突现能力(Emergent Ability)”,一般定义为“当系统中的量变导致其行为发生质变时出现的现象”。
简单来说,在某个规模阈值以下,大模型性能接近随机,而超过该阈值,其性能远高于随机。
各种测试表明,只有模型达到 GPT3 的规模,即参数大于 1000 亿,模型才有可能形成“突现能力”。而正是在“突现能力”的基础上,AI 模型展示了类似人类的复杂推理和知识推理能力,这就是所谓“思维链(Chain-of-Thought)”。
基于“思维链”的推理能力,不需要再进行复杂的训练,而只是在提问时附加给出提示,模型就能自动学习,并做出相应推理得到正确结果。彻底体现了 AI 模型对人类高级思维能力的模仿。
这个能力很可能是 ChatGPT 实现高度智能化的一个重要基础。而这对于自动驾驶的路径选择来说,无疑会起到决定性的作用。
一直以来,围绕自动驾驶技术的演进,业内也一直存在两大“流派”:其中,Waymo、小马智行等是“跃进式”的代表,策略是直接实现 L4/L5 级自动驾驶;特斯拉则是“渐进式”路线的代表,策略是先在量产车上优先搭载 L2/L3 级辅助驾驶,收集数据后再向 L4/L5 进发。
此前,双方阵营泾渭分明,近两年情况则有所改变。不少 L4 公司开始“降维”进入 L2 领域。例如,Robobus 领域的轻舟智航,推出了高阶自动驾驶解决方案;文远知行则是获得博世投资,将开展应用于乘用车的 L2-L3 级自动驾驶软件的开发。
作为对比的是,“渐进式”玩家中,特斯拉已经生产了数百万辆汽车,其搭载的辅助驾驶系统 Autopilot,将收集到数十亿英里的路况和驾驶数据。上述这些行业动向,似乎都在宣告,渐进式路线阶段性的胜利。
当然,业内也有不同的看法,认为当下只是 L2 领域的胜利,能否渐进到 L4 尚且未知。而眼下,ChatGPT 的横空出世则让行业认识到,不断去累积公里数,一直这么跑下去是可以获得更高级别的自动驾驶技术的跨越,量变能够引起质变,自动驾驶也有机会迎来“突现”时刻。
这才是 ChatGPT 对于自动驾驶的重要意义,某种程度上,算是为自动驾驶指了条明路。
参考资料:
- TechWeb《ChatGPT 上“车”?没那么简单》
- 盖世汽车社区《ChatGPT,打了人车交互的“脸”?》
- 钛媒体《爆火的 ChatGPT,能让自动驾驶更快实现吗?》