「合体」20个月,卷出安卓最强野兽X90!这颗国产「V2」,又把发哥带飞了

新智元报道

编辑:好困 David

蓝厂发布新旗舰 X90,最支棱的就是发哥!懂不懂什么叫「合体」啊?

等下,苹果芯片的性能竟然被「秒」了?

而且这次出手的还是「发哥」?

看起来,这次联发科与 vivo 深度合作开发的新旗舰,不仅要颠覆安卓老格局,这是想连苹果都要一起拉下马了。

真·地表最强:蓝厂带着发哥,支棱起来了

这次发哥新推出的天玑 9200 配备了1+3+4 八核 CPU 架构,是首款台积电第二代 4nm 制程工艺平台,也是首款第二代 Armv9 架构。

CPU:1 个最高主频达到 3.05GHz 的 X3 超大核,3 个 2.85GHz 的 A715,4 个 1.8GHz 的 A510,外加 8MB 三级缓存和 6MB 系统缓存,功耗比天玑 9000 降低 25%。

GPU:11 核 G715 ,支持硬件光追,GPU 性能提升 32%,功耗降低 41% 。

从极客湾放出的 Geekbench 5 CPU 跑分显示,天玑 9200 多核跑分为 4459 分,比天玑 9000 有一定提升,不过,极客湾测试使用的是工程机,分数仅供参考。

从 CPU 多核性能看,整体略强于苹果 A14 水平,距离 A15 和 A16 还有一定距离。

来源:极客湾

而在 GPU 上,天玑 9200 表现惊艳。

在极客湾给出的 GFX Bench 5.0 测试结果中,天玑 9200 一枝独秀,不仅将安卓一众对手甩在身后,甚至超过了苹果 A16 的 GPU 表现,而且优势明显。

虽然这与苹果这一代连牙膏都懒得挤有很大关系,但不管怎么说,发哥这回支棱得确实是有点生猛。

来源:极客湾

对于一般手机用户而言,说到跑分排行榜,说一千道一万,没有「那个软件」的排行榜,都是野榜。

据联发科方面自己公布的 9200 平台跑分图,这个分数为 126 万+,比天玑 9000 提高了 25% 以上。

相比之下,高通骁龙的8+Gen 只有 111 万。

这还不算什么,蓝厂和联发科联合深度调校的 vivo 史上最强旗舰 X90 系列,更是在安兔兔 v9 上跑出了突破 128 万分的成绩。

而且,无论是哪个,都击败了内置苹果 M1 芯片(跑分为 125 万)的苹果 iPad Pro。

真就是,发哥战未来?

连架构都改?自研芯片叒升级

更「可怕」的是,这帮人除了调校出了地表最强的天玑 9200,竟然还带来了全新的自研芯片 V2。

而这距离上一代 V1+ 的推出,才刚刚过了 7 个月……

简单来说,V2 是一颗从场景事件出发,针对 AI 大密度算法算力需求,量身定制的「低功耗 AI 加速芯片」。

要实现这一点,就需要深入底层技术,甚至对芯片的架构「动刀」。

对于手机 AI 计算而言,大致可分为平台和外挂两种解决方案:

  • 外挂芯片可减少软件调度,高效专注于大密度 AI 运算,但在特定场景下的运算缺乏灵活性;

  • 平台 SoC 软件部署灵活,NPU 峰值算力上限高,但难以满足大密度运算的算力需求。

但是问题来了,这两种芯片不仅架构不同,而且指令集也完全不同。

于是,在尝试了若干种芯片间高速通信的方案之后,vivo 的系统架构师和工程师终于设计出 FIT(Frame Info Tunneling)双芯互联技术。

FIT 的原理其实很简单,首先需要把大型复杂算法模块进行拆分。

然后,把算力密度小、网络结构复杂的小模型部分,通过软件部署在平台 NPU 上。

同时,把算力密度大、数据吞吐密集的大模型部分,部署在自研芯片 V2 硬件上,让其中的三个单元处理各自擅长的运算内容。

最终,实现了在1/100 秒内完成双芯互联同步的高速协同计算。

而 FIT 双芯互联的最直接应用,就是 vivo 最擅长的计算摄影了。

由于传统 ISP 的滤波器普遍是手工设计的,虽然能以极低延时处理大量的数据流水,但是只能解决已知的、特定的问题。

那么对于那些复杂、未知的问题来说,最好的解决方案就是救助于人工智能。

但是,当你把 AI 软件算法部署到 NPU 上时,就需要以帧或块为单位进行处理信号。相比之下,传统的 ISP 却是以行为单位。

与此同时,由于绝大部分平台 SoC 片上 SRAM 容量有限,大量 AI 算法在接入 ISP 管道后,要通过外部 DDR 来完成数据暂存和交互。

这就会造成运算与数据分离,牺牲了高性能 AI 运算至关重要的 Data-Locality 要求,进一步降低了性能。

为了解决这一问题,vivo 在自研芯片 V2 上,把传统的 ISP 架构升级为 AI-ISP 架构。

进而通过 FIT 双芯互联,第一次将平台 ISP-NPU 与自研芯片 V2 的 ISP-DLA 作为一个整体,设计出了目前来说最合理的 AI 算法处理架构。

而这,也是在异构多芯片计算方向上,迈出的至关重要的第一步。

从结构上来看,V2 的可以分为三个部分:

  1. 图像处理单元

  2. AI 计算单元

  3. 片上内存单元

具体来说,对于移动端的 AI 处理,有三个相互关联且共同决定能力上限的要素——算力容量,算力密度和数据密度。

平台 SoC 算力容量大,适合部署网络结构复杂的模型,但能效比不高,无法满足对大密度 AI 运算的需求。

于是,vivo 在自研芯片 V2 的设计中,加入了近存深度学习加速器(DLA)。

其中,近存 DLA 通过全硬化 MAC 设计和大容量专用片上 SRAM,强化算力密度和数据密度,从而释放算力容量的潜力。

在算力密度上,得益于全硬化 MAC 设计,V2 的近存 DLA 在实际 AI 运算中,能够达到 100% MAC 利用率。相比在平台 SoC 软件部署 AI 运算,8bit 算力密度提升了2-3 倍。

此外,vivo 还针对专业视频的 10bit 处理需求,在自研芯片 V2 中专门硬化了 10bit 的 MAC 单元——相比平台 SoC 软件部署所采用的合并运算方式,10bit 算力密度提升了4-6 倍。

另一方面,数据密度受到传统架构 von Neumann 内存墙的制约,大密度运算会遇到数据填喂不足、运算等待数据的问题,极大限制了计算性能。

为保证数据密度与算力密度的完美匹配,自研芯片 V2 在近存 DLA 内配套设计了速度高达 1.3 万亿 bit/s的专用片上 SRAM,并把容量提升到了等效 45MB,比前一代的 V1 大了 40%。

这种近存 DLA 的设计,大幅减少了数据寻址和搬运的功耗,与通常 NPU 采用的 DDR 外存设计相比,SRAM 数据吞吐功耗理论最大可减少 99.2%。

算力密度和数据密度的双重提升,以及多项低功耗电路设计方法的加持,让自研芯片 V2 的近存 DLA 在同等芯片制程条件下的表现远超同行竞品。

也就是说,内核每瓦算力在运行 8bit MAC 和 10bit MAC 时,分别达到了 16.3TOPS/W和 10.4TOPS/W。

如此一来,在部署相同算法时,自研芯片 V2 相比传统 NPU,能效比提升了 200%。

不出意外的话,在全新的 AI-ISP 架构下,配合 FIT 双芯互联、近存 DLA、专用片上 SRAM 等多项突破性设计,全新的 V2 又会让手机计算摄影再次「起飞」。

给我翻译翻译什么叫「专业摄影」

说到效果,也是显而易见:长焦不抖了,暗光不糊了,就连按快门也没延迟了。

要知道,专业相机的快门延迟在 30ms 左右,而手机的快门延迟一般在 170-300ms。

结果就是,同时按下的快门,相机都出完片了,手机这边可能还没开始曝光。

于是,vivo 全面优化了图像处理管线,通过提升 Sensor 启动速度,将快门延迟低到了专业相机的 30ms。

手机长焦拍摄通常存在两个问题:拍摄倍率过大时画面会模糊(拍不清)、手持运镜导致画面剧烈抖动(拍不稳)。

为此,vivo 借鉴科研领域天文望远镜和高端显微镜的图像处理流程,带来全新的超清画质引擎。

超清画质引擎从底层改写了 ISP 图像处理链路,将图像处理 AI 化,包含了 Denoise 降噪、Demosaic 细节恢复、Deblur 去模糊三大重要模块,以及蔡司光学超分算法。

其中,核心便是 vivo 和蔡司联合研发的蔡司光学超分算法。

这套算法,能根据每个手机的模组特性做建模分析,通过逆运算动态调整,补偿光学信息,突破镜头工艺的上限。

在蔡司光学超分算法的加持下,5 倍以上的焦段,拍摄解析力最高提升 35%。

在应对「手抖」方面,就到了 Ultra Zoom EIS 出场的时候了。

这项技术包含了 IMU(惯性测量单元)、OIS 光学防抖与 EIS 电子防抖三大模块。

其中,IMU 负责检测抖动,OIS/EIS 负责抵消抖动,软硬协同防抖。

如此一来,手机就能在 20X 以上倍率实现抖动抵消,让被摄主体在画面中趋于平稳不会晃动。

为了确保在暗光场景下也能实现这样的能力,vivo 做了多个算法的叠加,在手机摄影的全链路上都进行了大幅优化。

首先,vivo 和 Sensor 厂商深度合作,将 Sensor ISO 高感从上一代的 16000 提升到 102400,暗光场景下的感光能力大幅提升。

其次,在运动抓拍时采用运动自适应多帧融合技术,一次快门生成多帧运动画面,叠加 vivo 自研的 RawEnhance2.0 算法,可以把每一帧有用信息叠加在一起,让暗光运动也无拖影。

结果就是,在 5lux 的暗光环境下,画面的细节表现提升 17.3% 的同时,噪声降低了 46%。

此外,vivo 这类拍摄上还采用了新一代运动测量与跳跃检测算法,运动画面定格能力相较于上一代提升 58%。

什么是产品力?我可以不用,你不能没有

「发哥」的芯片再厉害,最终的载体还是手机。

而一部好用的手机,往往是芯片厂商和手机厂商精诚合作的结晶。

作为一个主打年轻用户的手机厂商,这些年 vivo 一直在探索一个问题:

年轻人用手机,最看重什么?

流畅游戏、动画丝滑、光速加载、屏幕不伤眼、多任务切换不卡、拒绝「杀后台」、续航不拉胯......

即使有些佛系用户的要求要低得多,但手机行业卷了这么多年,「我可以不用,你不能没有」早已成为衡量旗舰安卓机的产品力的一个基准。

作为国内手机大厂之一,早在 20 个月之前,vivo 与联发科就已经展开密切合作。双方在影像、游戏、AI、显示、通信、功耗、UX 性能等多领域展开深度联合研发。

此次,双方加深合作深度,带来了 5 个联合研发的重磅功能:MCQ 多循环队列、王者荣耀自适应画质模式、芯片护眼、APU 框架融合、AI 机场模式。

MCQ 多循环队列:多核场景,高速传输

MCQ 多循环队列,是业内针对未来多核场景考量,为发挥 CPU 极致性能,重新定义的一款全新处理引擎。

MCQ 最多可为 CPU 和 UFS 之间的数据交换提供 8 条通道传输,有效提升 CPU 的数据并发处理能力,让应用软件切换和后台下载唤醒更快、更流畅。

经测试,搭载 MCQ 技术后,随机写入速度增加了 16.7% 以上,安兔兔跑分近 5000 分,而在更多更实用的场景的体验也有明显提升——比如大型 APP 的安装速度。

在 vivo 和联发科的联合开发下,天玑 9200 旗舰平台成为行业首个支持 MCQ 的平台,相信越来越多的平台会频繁使用到这一功能。

王者荣耀自适应画质模式:提升续航,控制温度

该模式由 vivo 携手联发科、王者荣耀三方联合研发,是基于 MAGT 游戏自适应循环开发的一项黑科技。

vivo 透过平台服务,与游戏应用间的即时信息交换,游戏应用可针对信息即时逐帧调控,达到一个「自适应闭循环」。

经实测,开启自适应模式后,在 26℃环境下,在王者荣耀 120+ 极致配置下运行 1 小时,游戏帧率接近满帧(119.9),均方差仅有 0.92,达到了业界顶级水平。

这个成绩,有点顶了。

芯片护眼:实时侦测,实时降蓝光

视力健康现在越来越被大家重视,护眼也成为年轻人选购手机时的重要考量因素。最伤眼的「蓝光」,自然成为了 vivo 想方设法要对抗的天敌。

芯片在「降蓝光」上的角色至关重要。

vivo 和联发科共同在天玑 9200 旗舰平台上开发的智能降蓝光技术,能够实时侦测画面的蓝光占比,通过创新性的算法并硬化成 IP 的方式,实时降低蓝光。让高能可见蓝光占比小于5%,色偏程度降低 12%。

同时,能够根据检测结果动态调整画面色彩效果,在降低蓝光的同时保证屏幕不偏色,实现了行业性突破。

APU 联合调优:能效骤增,优化协同

天玑 9200 旗舰平台的第六代 APU690 算力高达 30TOPS,能效比相较上代提升了 45%。

基于 APU 硬件特性,联发科提供了 NeuronRuntime 软件加速框架,vivo 将 NeuronRuntime 底层通用能力封装到自研的 VCAP 异构计算加速平台中。

从芯片底层到框架层,VCAP 在访存处理、动态量化、指令流水线等维度实现深度优化,让算法在多个处理器之间协同调度,带来显著的能效提升。

基于这套方案,vivo 在 APU 上实现了相机超清文档、实况文本、离线语音输入法等多项应用上的性能优化。

以离线语音输入法为例,vivo 支持全离线语音输入,确保数据不出端,用户隐私安全不外泄。这是行业首次实现语音转换算法 NPU 优化落地。对比行业通用的 CPU 方案,功耗优化 30%,性能提升 50%。

AI 机场模式:飞行节能,落地速连

AI 机场模式包含两大 AI 引擎:感知 AI 引擎、搜网 AI 引擎。

在这一模式下,手机通过感知 AI 引擎准确感知用户进入机场与飞机的起飞降落,再通过搜网 AI 引擎来准确识别目的地,并智能调控搜网策略。

开启这个模式,若手机开启飞行模式,起飞后至降落前平均可以节能 30%。

关闭飞行模式后,捕获网络的速度也大幅优化。由 7.41 秒缩短至 1.52 秒,提速 79%。

用了 30 多年的底层算法,改了!

天玑 9200 旗舰平台的惊艳表现离不开底层的优化,vivo 与联发科一道,对计算、存储等底层能力进行了内核级创新。

完美适应多极限场景,4K60 帧视频录制功耗大降

此次,vivo 与 MediaTek「双芯联调」的效果首先体现在影像功能的表现上。

经过双方共同优化,新平台多种拍摄场景下的表现大幅提升,并首次以极低的功耗实现了先进的循环视差网络,大幅优化能效表现,能耗降低了 15%。

尤其是在 4K 60 帧极限录像场景中,天玑 9200 的功耗相比天玑 9000,足足降低了 25%。

游戏:全流程提速,帧数稳定温度低

在游戏场景下,新发布的 Origin OS3 不仅带来了游戏超分等「黑科技」,还通过疾速启动引擎和网络加速引擎增强游戏表现,对游戏的下载、启动、加载、运行等多个环节进行全方位优化。

而王者荣耀在 120 帧+极致画质下,能接近满帧地运行 1 小时,就是对冷劲、全速最好的解释。

研发竟要脚踏「两条船」

那么,自研芯片的效果到底如何呢?

抛开更长远的战略不谈,就单从销量上来看,完全称得上是「效果拔群」。

报告显示,2022 年第二季度在 X80 的推动下,vivo 在 600 美元到 799 美元(约合人民币 4100 元到 5470 元)区间段销量同比增长 504%,vivo 的整体销量同比增长 91%,取代华为排到了第二位。

不论是影像技术迭代,还是芯片架构升级,亦或是屏幕显示优化,单纯的硬件堆叠和算法配置都无法真正让人满意。

实际上在去年,在 vivo 首颗自研影像芯片 V1 推出时,vivo 的手机影像正式迈入了硬件级算法时代。

硬件调校自然是硬件厂商的拿手绝活,为了发挥出硬件的极致潜力,vivo 叫上了联发科——把自己的算法、架构固化到芯片层面,与联发科开展深度联调。

vivo 与联发科双方的合作,从一开始就确立了一个目标,软硬协同,实现平台性能全方面的突破。

一年后,当性能和功耗同时具备惊人表现的天玑 9200,遇上 vivo 的自研芯片,结果就是,「焕然一新」的天玑 9200 不仅有了更高的能效比、更快的响应速度,而且还拥有更强的游戏体验。

围绕这一目标,双方都投入了精英开发团队,经过超过 20 个月的开发周期,大幅革新了软件通路架构,实现了1+1>2 的效果。

如果说,自主研发是 vivo 有别于他人的赛道选择,联合研发则是 vivo 突破技术边界的坚定尝试。

与硬件厂商深度合作,走软硬件联合开发,双管齐下之路,对于构建可持续的健康生态圈、培养用户使用习惯,乃至扩展合作和产业链渠道而言,都是一种追求长远的战略布局。

在这方面,软硬件高度一体化的苹果,早已经走到了行业的最前头。

而现在,在这条已经被无数成功验证过的道路上,出现了越来越多的前行者。vivo 和联发科都知道,合作越深,步子越大,未来才有前途。

正是一直以来的坚持,让 vivo 努力做得比别人更好,在这条路上,vivo 走得比别人更踏实、更长远。