This is all nets baby. Nothing but nets.(它完全依靠神经网络,再无其他。)
去年 8 月,特斯拉 CEO 埃隆·马斯克在他的 Model S 上,亲自演示了当时尚未正式发布的 FSD Beta v12。
FSD Beta v12 的特别之处在于,它是世界范围内第一个完全基于神经网络的端到端自动驾驶系统,换句话说,这是真正意义上的「由 AI 来开车」。
以当下视频直播的标准来看,那场画质不如十年前的智能手机、画面频繁旋转抖动、主播专业素质堪忧的直播,显然算不上一场成功的直播。但「AI 开车带马斯克去扎克伯格家」这个话题实在太有看点,在线观看人数接近 1200 万人。
更重要的是,在这场长达 45 分钟的直播中,FSD Beta v12 只出现了一次人为接管,其他时候,它的驾驶风格基本无异于常人。
刚开始直播,马斯克就遇见了一个非常规的路面状况——因施工而临时改道。但 FSD 没有丝毫犹豫,以并不算低的速度轻松穿越,马斯克当时还称,这套系统「从未见过这样的路面」。
整场直播下来,FSD v12 似乎有着不错的表现,但还是有不少人发现了问题——加州硅谷帕罗阿尔托的路况实在是太过友好。
在帕洛阿尔托(Palo Alto),没有随处横穿马路的行人,也没有突然从盲区窜出的摩托车和自行车。就连见惯了宽阔路面的美国网友也表示,该给 FSD v12 上上强度了,这种路况,根本不够看。
但现在,随着 FSD Beta v12 正式向北美用户推送,我们已经可以从许多海外博主的视频里,窥探它的真实能力。
V12,劈开前后两个智驾时代
YouTube 用户 Whole Mars Catalog 是最先收到测试版本的博主之一,他从 2020 年起就在不断测试特斯拉 FSD 的能力。
从他的视频来看,FSD Beta v12 在雨夜等「老大难」的场景,有着极佳的表现。
▲雨夜窄路会车,视频未经加速处理
白天更是不在话下。拐进小路,到达目的后靠边把车停好,而不是像之前那样停在路中间。
与 FSD Beta v11 相比,v12 的绕行速度提升明显,面对停在路上的同一辆车,搭载 v12 的绕行动作完全可以媲美人类驾驶员,v11 则被「困」在马路中间,驾驶员不得不踩上一脚油门,帮助车辆通过。
▲升级了 FSD Beta V12 的 Model S
▲仍搭载 FSD Beta V11 的 Model Y
此外,Whole Mars Catalog 认为,FSD Beta v12 的无保护左转与之前的版本相比有了显著改善,识别交通信号灯的能力也更强了。
在 5 个月前的那场直播中,马斯克唯一一次对车辆进行接管,就是因为红绿灯的错误识别。在直播的中段,Model S 在一个十字路口错将左转绿灯看成了直行绿灯,随即起步行驶,被马斯克一脚拦下。
▲认错的红绿灯
马斯克尴尬笑笑,表示会给 FSD 看更多的「红绿灯视频」,来解决这个问题。没错,和以往的 FSD 不同,FSD Beta V12 的成长,靠的不是一行行代码,而是一条条视频。
特斯拉在 FSD Beta V12 的发布说明中指出,「FSD Beta V12 将城市街道的驾驶堆栈升级为单个端到端神经网络,经过数百万个视频剪辑的训练,取代了超过 30 万行显式 C++ 代码」。
所谓端到端(End-to-End)方案,指的是「感知-决策-控制」的整个流程都在一个统一的系统框架内,通过深度学习的方法完成训练,而不是按照传统的方式分解成感知、定位、路径规划、控制等多个模块,由上层模块输出结果,指导下层模块去运行。
模块化方案每个模块间串联的事高度抽象的结果,可能是错误的,下一个预测模块无法进行误差修复,或者需要大量后处理或判断来恢复误差,效果也不一定很好。同时,每个模块分别需要数据集,标注需求的金钱消耗非常大,分别部署对算力的要求也更高。
上海 AI Lab 浦驾 OpenDriveLab 团队研究员陈立此前在接受第一财经采访时表示,模块化方案在决策和控制部分目前仍以专家规则为主,通过专家系统进行人工调优,泛化能力弱。
这就像是一个认真听讲,但不太有发散思维的学生,老师教的全都会,一旦遇到老师没教过的,可就不好说了。可以说,这是两种不同的方法,一种是给到正确答案,照做就行,另一种则是给到解题思路,再举一反三。
FSD,必须是一位「好学生」
FSD Beta v12 之所以引发大量关注,马斯克之所以开直播宣传,归根到底,是因为改变了实现智驾的手段。
只要前面有红灯亮起,大家就都会在白线后停车。
于是 FSD 由此学习了「红灯停绿灯行」这一法则,这是 FSD 自我学习的成果,而非人类告诉它的标准答案,这便是神经网络,或者用一个更为通俗的词——AI。
通过学习大量真实驾驶员的驾驶行为,来习得自动驾驶,这是一个由新司机向老司机转变的过程,开得越多,见的世面当然也就越多,积累经验,成就大我。和人类不同的是,FSD 可以吞噬海量内容,再从中学习,这个效率和大多数只在上下班时才会开车的打工人相比,可要高得多了。
但神经网络也非十全十美。
回想一下,在你的成长过程中,是不是会碰到一些可能会将你「带偏了」的坏人——FSD 同样会看到一些不守规矩的人类驾驶员所「演示」的驾驶陋习。
在马斯克的直播过程中,坐在副驾的工程师提到,在美国,只有 0.5% 的驾驶员会在停止标识前完全停下车来进行观察,绝大多数人会选择慢速通过,然而,监管部门会要求智驾系统必须在标志前完全停住、为此,特斯拉需要专门「教导」FSD,提高正确操作「演示」的权重,让它「学」点好的。
在 FSD Beta v12 中,系统能够准确识别每个路口的停止标识,停车观察,在达到通行条件的情况下,响应也足够灵敏,此前的版本可能会因路边的行人或自行车而犹豫半天。
不过 Whole Mars Catalog 也表示,目前的 FSD 仍不完美,「还没准备好向所有人推出」。例如在一些分叉路口,方向盘会左右徘徊,拿不定主意;在一些比较空旷的路口,车辆偶尔还会停下许久,过于谨慎。
▲车辆在这个路口停了足足有 15 秒钟
马斯克此前曾表示,FSD v12 将摘掉测试版的帽子,不再带有「Beta」尾缀,可现如今推送给用户的版本中依旧带有「Beta」标识。只能说,FSD 要学的还有很多。
另一个值得考量的问题是成本。
马斯克提到,特斯拉每年在 FSD 上的投入高达 20 亿美元,这无疑是一个烧钱生意。对于其他仍挣扎于利润的车企来说,掏不掏得起这个钱,是摆在面前躲不掉的话题,光是模型的训练,就是一笔天文数字。
特斯拉 FSD Beta V12 的视频训练需要多达 1.5 万块英伟达 H100 GPU,这让特斯拉上到了英伟达 2023 年第三季度采购数量榜单的前 12 位。尽管特斯拉在 2021 年发布了自家的超算 Dojo,该超算也在 2023 年成功量产,但目前特斯拉仍旧需要英伟达,仅有很少一部分训练用到了 Dojo。
英伟达的「大客户榜单」上同样有着中国品牌的身影。为了应对特斯拉的挑战,国内自动驾驶产业链也已经在部署端到端方案,包括针对端到端模型训练中的仿真测试等。
在同一个榜单中,深耕智驾和 AI 许久的百度排名第 8,一共购入了 3 万块英伟达 H100。在百度之下的是阿里巴巴,共购入 2.5 万块 GPU。需要指出的是,小鹏曾在 2022 年 8 月宣布将于阿里巴巴共同打造一个算力为 600PFLOPs(每秒千万亿次浮点运算)的智算中心。
蔚来则更为关注车端算力。目前蔚来的智能驾驶系统采用 3 4 颗英伟达 Orin X 芯片,整体算力 1000TOPS,而 NIO Day 2023 中神玑 NX9031 可以实现超越 4 颗智驾芯片的性能。 也就是说,它的算力将会在 1000TOPS 以上。
随着大模型的不断发展,智驾对于算力的要求还将进一步提高,所谓的「算力无用论」,只能是一纸空谈。