百度开发者大会:技术信仰者的盛宴

  一年一度的百度 Create AI 开发者大会(以下简称 Create 大会)总是受人瞩目。去年百度第一次把 Create 大会放进元宇宙里,今年这场面向全球开发者、科技爱好者的技术盛会,主题从“人机共生”进展到了“人机共创”。

  百度创始人、董事长兼 CEO 李彦宏的观点并没未改变,他相信随着技术应用门槛不断降低,创造者们将迎来属于人工智能的黄金 10 年。而持续人工智能全栈布局多年的百度,正在形成一个多元的开发者生态。

  AICG 瞩目

 图源:百度
图源:百度

  大会开场,李彦宏展示了一幅以“危机”和“希望”两个关键词形成的 AI 画作,AICG 深入应用到了此次大会的每一个环节,包括大会歌曲、场景、演讲脑图等创作过程。

  “‘人机共创’背后,是能力超群的天才创造者——百度文心大模型”,百度技术委员会主席吴华在大会演讲中表示。

  如果把文心大模型理解成一位街头的肖像画家,它首先得是一个有着丰富阅历的观察者,可以快速的理解对方的构想并且形成一个蓝本;然后它也要是一个技艺扎实的画手,能够很好的实现这个蓝本。

  这个“观察者”就是文心 ERNIE 3.0 Zeus,而“画手”是文心 ERNIE-ViLG 2.0。

  百度研发的知识增强型预训练模型 ERNIE 3.0 在 2021 年问世,此次的 Zeus 版本则是 ERNIE 3.0 系列模型的最新升级。

  ERNIE 3.0 Zeus 的理解能力来自于足够丰富的无标注数据,其参数规模已经超过百亿。从 ERNIE 3.0 开始,模型中开始引入大规模知识图谱,这也是业界首次出现百亿级以上的预训练模型实现与知识图谱的融合。后者的引入也进一步提升了文心 ERNIE 3.0 Zeus 对于世界知识和语言知识的学习能力和效率。

  通过持续的从百余种通用知识与专业知识并行的任务中学习,也显著提升了模型的泛化能力,使得 ERNIE 3.0 Zeus 能够实现多种语言理解,并且生成任务。

  ERNIE 的数据题材则来自百科、小说、新闻甚至戏剧和诗歌。而为了进一步学习特定任务的相关知识,ERNIE 3.0 Zeus 提出了层次化提示(Prompt)学习技术。即在训练过程引入了层次化的 Soft Prompt 建模了不同任务之间的共性与特性,进一步提升了模型对于不同下游任务的建模能力。

  这意味着阅读理解、自由问答甚至写文章的事都可以交给文心 ERNIE 3.0 Zeus 来完成。

  比如今年高考作文“本手、妙手和俗手”引发热议,百度数字人度晓晓所“写”的文章背后就是 ERNIE 的能力体现。

  “很多电视剧剧本都是由一位总编剧制定总纲,再交给好几位编剧去写每一集的故事。所以如果你能编制一部电视剧的总纲,你就可以把每一集的要求交给 ERNIE 3.0 Zeus 大模型。你再经过合并整理,就可以成为天才大编剧了!”吴华在这次 Create 大会上表示。

 百度技术委员会主席吴华图源:百度
百度技术委员会主席吴华图源:百度

  而创作也不会只停留在文字层面,构想变成一幅画,剧本变成一场戏,都需要文心 ERNIE-ViLG 2.0——百度另一个知识增强跨模态的大模型。

  全球范围内,AIGC 作为一种崭新的内容生产方式忽然而至,在底层是基于扩散生成算法的 DALL-E 2 和 Stable Diffusion 的一些模型成熟。这类基础模型在国内尚处空白,文心 ERNIE-ViLG 2.0 是国内首个在 AI 作画方向取得突破的项目。

  生成图像的语义一致性和可控性仍然是目前 AI 作画产品所面临的一般问题,为此文心 ERNIE-ViLG 2.0 中,知识增强算法被融入扩散模型,在扩散模型学习过程中,引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素,实现精准的细粒度语义控制。

  同时由于扩散模型在生成过程的各个阶段对模型的要求不一样,比如初始阶段模型需要生成图像轮廓,结尾阶段变为对图像细节建模,因此百度在文心 ERNIE-ViLG 2.0 引入了混合降噪专家网络,在不同阶段选择不同网络来进行建模,以减少降噪任务的互相干扰,提升图像生成的质量。

  而在视觉内容生成方面,百度在文生图的扩散模型基础上加入时序建模,这意味着此模型能根据文本或者图像生成新的视频。

  文心 ERNIE-ViLG 2.0 在权威公开数据集 MS-COCO 上的测试也刷新 SOTA 效果,性能超过了包括 DALL-E 2、Imagen、Parti 等模型。

  除了 ERNIE 3.0 Zeus 和 ERNIE-ViLG 2.0,百度文心大模型中仍有第三位天才创造者——VIMER-TCIR 多任务大模型,一个基于大模型技术构建的涵盖视觉内容生成与编辑的全套技术方案。

  前两者已经足够完成图文甚至视频层面的 AI 创作,VIMER-TCIR 则是一位“修复师”。

  通过对超分辨率、去噪、去模糊、去压缩等多任务的联合预训练,VIMER-TCIR 可以同时实现对多种不同情况的修复和编辑,并通过画质提升、边缘锐化等方式增强视频的清晰度,达到全方位提升视频编辑效率和观感体验。

  “以前的电影修复需要人工手动一帧一帧完成,现在使用大模型提升效率后,每天单机可修复视频 28.5 万帧,解决了绝大部分画面的修复问题;即便是需要进一步精修,速度也能提升3-4 倍。”吴华表示。

  文心大模型已经在飞桨开发平台 EasyDL 和 BML 上集成,目前累计已有 1 万开发者基于文心大模型创建了超过 3 万个任务,应用的场景则覆盖诸多方面。平台上基于文心大模型的 AI 应用模型开发,用户数据标注量平均降低 70%,效果平均提升 10.7%。

  AICG 的元素贯穿今年的 Create 大会,但百度在前沿技术上的探索远不止如此。

  一场技术盛宴

  2013 年百度早早开始了对于自动驾驶的研发投入,这番现在看来颇具前瞻性的布局逐渐显出后劲,在近年成为百度新的技术名片。

  百度在今年 7 月发布了源自自研“阿波罗星河”架构平台的第六代量产无人车 Apollo RT6,汽车与智能出行的元素当然不会缺席这场技术盛会。

  在今年的 Create 大会上,百度发布了自研的世界范围内第一个能在手机端实现纯软件方案回声消除的技术,实现自由语音交互。

  之前的“不自由”在于,传统的手机语音交互只能做到单工交互,即它的输出(说)和输入(听)是相互独立的,不能同时进行。无法像真人对话那样同时完成“说”和“听”两个动作,无法打断说到一半的话,改换话题(即开始另一个任务),这意味着即时的交流确切来说并不存在。

  但在驾驶场景中双手被占据,这种更自由的语音交互又是必要的。这项技术叫做手机全双工语音交互,目前在世界范围内,还没有一个能普适的支持在手机上实现全双工的语音交互方案。

  “要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。这在音箱、车载系统上比较容易实现,因为这些设备都是前装方案,可以通过硬件适配算法提前保证了回声消除的效果。但是手机 APP 属于纯软件后装方案,需要让算法适配不同型号的终端硬件。但手机终端款式多,硬件参差不齐,使得声音信号的处理普遍面临严重的非线性畸变以及参考时延抖动,导致手机回声消除效果难以保证。”

  “而且手机硬件的迭代更新是非常快速的,这就使得这个风险被放大。”百度首席语音架构师贾磊说。

  针对这个问题,百度研发了两级 AEC 技术,融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决手机场景下的回声消除问题。

  即使手机音量开到最大,回声消除量也能达到 40db。

  另一方面,手机交互中面临大量复杂的环境噪音,会干扰信息识别。百度研发了一个基于 SMLTA2 的多场景统一预训练模型。噪声、用户口音和回声消除残余吸收等难题可以通过一个模型解决。

  “在各场景下识别率相对提升超过 20%,这在业界同类技术中,准确率是最高的”,贾磊表示。

  百度在此次 Create 大会上也展现了对于自动驾驶感知能力的技术提升——一个支持多传感器、多模态、多任务、时序融合等端到端感知能力的车路一体解决方案 UniBEV。

 图源:IoT Automotive news
图源:IoT Automotive news

  传统的自动驾驶信息感知逻辑是将汽车上包括雷达、摄像头在内的传感器采集来的数据分别进行分析运算,然后把各项分析结果融合到一个统一的空间坐标系,规划车辆的行驶轨迹。但这个过程中,每个独立传感器的收集数据会受其特定视角的局限,经过各自的分析运算后,在融合阶段导致误差叠加,无法拼凑出道路实际情况的准确全貌,这给车辆的决策规划带来困难。

  由于在自动驾驶过程中,高度信息没有那么重要,于是有了另一个 BEV 方案。

  BEV 方案中,车身多个传感器采集的数据,会输入到一个统一模型进行整体分析推理,然后生成一个鸟瞰图,有效地避免了误差叠加。BEV 方案可以实现时序融合,即不仅是收集和分析一个时刻的数据,而是支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定,使得车辆对于道路情况的判断更加准确。

  在 BEV 方案的基础上,百度提出了车路一体的解决方案 UniBEV,集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务,是业内首个车路一体的端到端感知解决方案。

  “基于统一的 BEV 空间, 更容易实现多模态、多视角、多时间上的时空特征融合,基于此的 UniBEV 车路一体大模型,借助了大数据+大模型+小型化技术闭环,在车端路侧的动静态感知任务上都取得了领先的成绩”,百度资深研发工程师万吉表示。

  智路 OS 也出现在了此次大会上。

  2021 年 4 月,百度实现了 Apollo AIR 车路协同自动驾驶系统,仅使用路侧感知实现了开放道路、连续路段的 L4 级别自动驾驶。之后百度车路协同技术经历了一段时间的现实场景探索,逐渐在 60 个地级市的辅助驾驶、智能信控、智慧停车等领域进行应用落地。

  在这个过程中,一些空间多智能体协同所面临的普遍问题出现,比如车路云跨终端通信稳定性差、空间位置协议不标准以及行业生态碎片化,百度团队选择对车路协同自动驾驶关键技术能力进行进一步的抽象整合,最终在今年 8 月发布了全球首个开源开放的智能网联路侧单元操作系统智路 OS。

  这标志着百度 Apollo 从“自动驾驶开放”升级到了“自动驾驶和车路协同的全面开放”阶段。而智路 OS 最终将逐步扩展为以机器人为核心的智能空间机器人操作系统。

  底座浮现

  近年的百度在技术产业落地方面,一种“底座”思维逐渐凸显,文新大模型是 AI 创作的底座,希壤 MetaStack 则是一个用户可以自建元宇宙的底座。

  元宇宙希壤自 2021 年年底上线至今,已经形成国内最为开放和繁荣的元宇宙生态,20 多个行业的 120 多个元宇宙空间及活动在其中落地。在此次 Create 大会上,百度发布了全球首个独立元宇宙解决方案 MetaStack,通过这个模块化工具箱,元宇宙的开发周期可以压缩至 40 天。包括超媒体控股、厦门文广集团、太一控股集团、世界人工智能大会等都已借助 MetaStack,实现了独立元宇宙 APP 的快速创建与高效运营。

 图源:百度
图源:百度

  文新大模型以及希壤背后,甚至包括 Apollo 在内整个百度的 AI 技术底座,都是产业级的深度学习平台飞桨。

  “科技创新驱动人类发展历史上每一次大的增长”,李彦宏表示,“沿着这个思路,如果让我来判断,第四次科技革命的标志是深度学习算法”。

  此次 Create 大会,百度展现了飞浆在技术能力上的深度。

  飞浆的能力开始进入人工智能科学计算(AI for Science)领域,并衍生出更多的科学计算开源工具组件,比如赛桨 PaddleScience、螺旋桨 PaddleHelix 以及量桨 PaddleQuantum。这些工具组件将会在复杂外形障碍物绕流、结构应力应变分析、材料分子模拟等丰富领域算例,广泛支持 AI 加计算流体力学、生物计算、量子计算等前沿方向的科研探索和产业应用,使得 AI 在科学问题的解决过程中进一步发挥作用。

  除此之外,百度基于百度飞桨平台完成了图神经网络架构的全新升级,在此次 Create 大会上发布了超大规模图学习训练技术 PGLBox。PGLBox 是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,可以实现单机对百亿节点、数百亿边图采样和训练的支持,并可通过多机扩展支持更大规模。

  长期主义的果实

  1000 亿元,这是百度过去十年在技术研发上的投入。

  飞浆的首次开源在 2018 年,而百度对于深度学习的布局还要早得多。2013 年 1 月 19 日,百度 CEO 李彦宏提出了建立专注于深度学习的研究院的初期构想,并命名为 Institute of Deep Learning (简称 IDL)。

  2014 年 4 月和 5 月,大数据实验室(BDL)和硅谷人工智能实验室(SVAIL)相继建立,深度学习研究院则改为深度学习实验室,归于新组建的百度研究院之下。

  百度研究院成为百度探索人工智能的核心阵地,当人们仍然以搜索引擎的形象看待百度的时候,百度悄然开始了一场向前沿技术领域的转型。

  2017 年,百度明确把人工智能作为公司发展战略,那年也是百度 Create 大会的第一届,坐着无人驾驶汽车在五环路上奔赴会场的李彦宏应该设想不到,五年后的百度已经有了自己的超导量子计算机,自动驾驶出行服务萝卜快跑商业化已经落地 10 余城市,飞桨上的开发者数量已经超过 535 万。

  《2021 中国开源年度报告》显示,2021 年 GitHub 中国项目活跃度 Top 30 中,飞桨占据了 5 个项目,其中飞桨框架位列第一,而围绕飞桨的产学研紧密协同,已经培养出超过 300 万 AI 人才。去年 12 月发布的 Apollo EDU 人才培养计划,目前也已经覆盖超过 33.5 万自动驾驶相关技术人才人和 700 多所院校。

  李彦宏在去年 Create 大会上表示,未来 5 年,百度将围绕包括自动驾驶、机器翻译、生物计算、深度学习框架、数字城市运营、知识管理、AI 芯片、个人智能助手在内的八大关键技术,为社会培养 500 万 AI 人才。

  一场技术长期主义的坚持开始结出果实。