新智元报道
编辑:好困 David
蓝厂发布新旗舰 X90,最支棱的就是发哥!懂不懂什么叫「合体」啊?
等下,苹果芯片的性能竟然被「秒」了?
而且这次出手的还是「发哥」?
看起来,这次联发科与 vivo 深度合作开发的新旗舰,不仅要颠覆安卓老格局,这是想连苹果都要一起拉下马了。
真·地表最强:蓝厂带着发哥,支棱起来了
这次发哥新推出的天玑 9200 配备了1+3+4 八核 CPU 架构,是首款台积电第二代 4nm 制程工艺平台,也是首款第二代 Armv9 架构。
CPU:1 个最高主频达到 3.05GHz 的 X3 超大核,3 个 2.85GHz 的 A715,4 个 1.8GHz 的 A510,外加 8MB 三级缓存和 6MB 系统缓存,功耗比天玑 9000 降低 25%。
GPU:11 核 G715 ,支持硬件光追,GPU 性能提升 32%,功耗降低 41% 。
从极客湾放出的 Geekbench 5 CPU 跑分显示,天玑 9200 多核跑分为 4459 分,比天玑 9000 有一定提升,不过,极客湾测试使用的是工程机,分数仅供参考。
从 CPU 多核性能看,整体略强于苹果 A14 水平,距离 A15 和 A16 还有一定距离。
来源:极客湾
而在 GPU 上,天玑 9200 表现惊艳。
在极客湾给出的 GFX Bench 5.0 测试结果中,天玑 9200 一枝独秀,不仅将安卓一众对手甩在身后,甚至超过了苹果 A16 的 GPU 表现,而且优势明显。
虽然这与苹果这一代连牙膏都懒得挤有很大关系,但不管怎么说,发哥这回支棱得确实是有点生猛。
来源:极客湾
对于一般手机用户而言,说到跑分排行榜,说一千道一万,没有「那个软件」的排行榜,都是野榜。
据联发科方面自己公布的 9200 平台跑分图,这个分数为 126 万+,比天玑 9000 提高了 25% 以上。
相比之下,高通骁龙的8+Gen 只有 111 万。
这还不算什么,蓝厂和联发科联合深度调校的 vivo 史上最强旗舰 X90 系列,更是在安兔兔 v9 上跑出了突破 128 万分的成绩。
而且,无论是哪个,都击败了内置苹果 M1 芯片(跑分为 125 万)的苹果 iPad Pro。
真就是,发哥战未来?
连架构都改?自研芯片叒升级
更「可怕」的是,这帮人除了调校出了地表最强的天玑 9200,竟然还带来了全新的自研芯片 V2。
而这距离上一代 V1+ 的推出,才刚刚过了 7 个月……
简单来说,V2 是一颗从场景事件出发,针对 AI 大密度算法算力需求,量身定制的「低功耗 AI 加速芯片」。
要实现这一点,就需要深入底层技术,甚至对芯片的架构「动刀」。
对于手机 AI 计算而言,大致可分为平台和外挂两种解决方案:
-
外挂芯片可减少软件调度,高效专注于大密度 AI 运算,但在特定场景下的运算缺乏灵活性;
-
平台 SoC 软件部署灵活,NPU 峰值算力上限高,但难以满足大密度运算的算力需求。
但是问题来了,这两种芯片不仅架构不同,而且指令集也完全不同。
于是,在尝试了若干种芯片间高速通信的方案之后,vivo 的系统架构师和工程师终于设计出 FIT(Frame Info Tunneling)双芯互联技术。
FIT 的原理其实很简单,首先需要把大型复杂算法模块进行拆分。
然后,把算力密度小、网络结构复杂的小模型部分,通过软件部署在平台 NPU 上。
同时,把算力密度大、数据吞吐密集的大模型部分,部署在自研芯片 V2 硬件上,让其中的三个单元处理各自擅长的运算内容。
最终,实现了在1/100 秒内完成双芯互联同步的高速协同计算。
而 FIT 双芯互联的最直接应用,就是 vivo 最擅长的计算摄影了。
由于传统 ISP 的滤波器普遍是手工设计的,虽然能以极低延时处理大量的数据流水,但是只能解决已知的、特定的问题。
那么对于那些复杂、未知的问题来说,最好的解决方案就是救助于人工智能。
但是,当你把 AI 软件算法部署到 NPU 上时,就需要以帧或块为单位进行处理信号。相比之下,传统的 ISP 却是以行为单位。
与此同时,由于绝大部分平台 SoC 片上 SRAM 容量有限,大量 AI 算法在接入 ISP 管道后,要通过外部 DDR 来完成数据暂存和交互。
这就会造成运算与数据分离,牺牲了高性能 AI 运算至关重要的 Data-Locality 要求,进一步降低了性能。
为了解决这一问题,vivo 在自研芯片 V2 上,把传统的 ISP 架构升级为 AI-ISP 架构。
进而通过 FIT 双芯互联,第一次将平台 ISP-NPU 与自研芯片 V2 的 ISP-DLA 作为一个整体,设计出了目前来说最合理的 AI 算法处理架构。
而这,也是在异构多芯片计算方向上,迈出的至关重要的第一步。
从结构上来看,V2 的可以分为三个部分:
-
图像处理单元
-
AI 计算单元
-
片上内存单元
具体来说,对于移动端的 AI 处理,有三个相互关联且共同决定能力上限的要素——算力容量,算力密度和数据密度。
平台 SoC 算力容量大,适合部署网络结构复杂的模型,但能效比不高,无法满足对大密度 AI 运算的需求。
于是,vivo 在自研芯片 V2 的设计中,加入了近存深度学习加速器(DLA)。
其中,近存 DLA 通过全硬化 MAC 设计和大容量专用片上 SRAM,强化算力密度和数据密度,从而释放算力容量的潜力。
在算力密度上,得益于全硬化 MAC 设计,V2 的近存 DLA 在实际 AI 运算中,能够达到 100% MAC 利用率。相比在平台 SoC 软件部署 AI 运算,8bit 算力密度提升了2-3 倍。
此外,vivo 还针对专业视频的 10bit 处理需求,在自研芯片 V2 中专门硬化了 10bit 的 MAC 单元——相比平台 SoC 软件部署所采用的合并运算方式,10bit 算力密度提升了4-6 倍。
另一方面,数据密度受到传统架构 von Neumann 内存墙的制约,大密度运算会遇到数据填喂不足、运算等待数据的问题,极大限制了计算性能。
为保证数据密度与算力密度的完美匹配,自研芯片 V2 在近存 DLA 内配套设计了速度高达 1.3 万亿 bit/s的专用片上 SRAM,并把容量提升到了等效 45MB,比前一代的 V1 大了 40%。
这种近存 DLA 的设计,大幅减少了数据寻址和搬运的功耗,与通常 NPU 采用的 DDR 外存设计相比,SRAM 数据吞吐功耗理论最大可减少 99.2%。
算力密度和数据密度的双重提升,以及多项低功耗电路设计方法的加持,让自研芯片 V2 的近存 DLA 在同等芯片制程条件下的表现远超同行竞品。
也就是说,内核每瓦算力在运行 8bit MAC 和 10bit MAC 时,分别达到了 16.3TOPS/W和 10.4TOPS/W。
如此一来,在部署相同算法时,自研芯片 V2 相比传统 NPU,能效比提升了 200%。
不出意外的话,在全新的 AI-ISP 架构下,配合 FIT 双芯互联、近存 DLA、专用片上 SRAM 等多项突破性设计,全新的 V2 又会让手机计算摄影再次「起飞」。
给我翻译翻译什么叫「专业摄影」
说到效果,也是显而易见:长焦不抖了,暗光不糊了,就连按快门也没延迟了。
要知道,专业相机的快门延迟在 30ms 左右,而手机的快门延迟一般在 170-300ms。
结果就是,同时按下的快门,相机都出完片了,手机这边可能还没开始曝光。
于是,vivo 全面优化了图像处理管线,通过提升 Sensor 启动速度,将快门延迟低到了专业相机的 30ms。
手机长焦拍摄通常存在两个问题:拍摄倍率过大时画面会模糊(拍不清)、手持运镜导致画面剧烈抖动(拍不稳)。
为此,vivo 借鉴科研领域天文望远镜和高端显微镜的图像处理流程,带来全新的超清画质引擎。
超清画质引擎从底层改写了 ISP 图像处理链路,将图像处理 AI 化,包含了 Denoise 降噪、Demosaic 细节恢复、Deblur 去模糊三大重要模块,以及蔡司光学超分算法。
其中,核心便是 vivo 和蔡司联合研发的蔡司光学超分算法。
这套算法,能根据每个手机的模组特性做建模分析,通过逆运算动态调整,补偿光学信息,突破镜头工艺的上限。
在蔡司光学超分算法的加持下,5 倍以上的焦段,拍摄解析力最高提升 35%。
在应对「手抖」方面,就到了 Ultra Zoom EIS 出场的时候了。
这项技术包含了 IMU(惯性测量单元)、OIS 光学防抖与 EIS 电子防抖三大模块。
其中,IMU 负责检测抖动,OIS/EIS 负责抵消抖动,软硬协同防抖。
如此一来,手机就能在 20X 以上倍率实现抖动抵消,让被摄主体在画面中趋于平稳不会晃动。
为了确保在暗光场景下也能实现这样的能力,vivo 做了多个算法的叠加,在手机摄影的全链路上都进行了大幅优化。
首先,vivo 和 Sensor 厂商深度合作,将 Sensor ISO 高感从上一代的 16000 提升到 102400,暗光场景下的感光能力大幅提升。
其次,在运动抓拍时采用运动自适应多帧融合技术,一次快门生成多帧运动画面,叠加 vivo 自研的 RawEnhance2.0 算法,可以把每一帧有用信息叠加在一起,让暗光运动也无拖影。
结果就是,在 5lux 的暗光环境下,画面的细节表现提升 17.3% 的同时,噪声降低了 46%。
此外,vivo 这类拍摄上还采用了新一代运动测量与跳跃检测算法,运动画面定格能力相较于上一代提升 58%。
什么是产品力?我可以不用,你不能没有
「发哥」的芯片再厉害,最终的载体还是手机。
而一部好用的手机,往往是芯片厂商和手机厂商精诚合作的结晶。
作为一个主打年轻用户的手机厂商,这些年 vivo 一直在探索一个问题:
年轻人用手机,最看重什么?
流畅游戏、动画丝滑、光速加载、屏幕不伤眼、多任务切换不卡、拒绝「杀后台」、续航不拉胯......
即使有些佛系用户的要求要低得多,但手机行业卷了这么多年,「我可以不用,你不能没有」早已成为衡量旗舰安卓机的产品力的一个基准。
作为国内手机大厂之一,早在 20 个月之前,vivo 与联发科就已经展开密切合作。双方在影像、游戏、AI、显示、通信、功耗、UX 性能等多领域展开深度联合研发。
此次,双方加深合作深度,带来了 5 个联合研发的重磅功能:MCQ 多循环队列、王者荣耀自适应画质模式、芯片护眼、APU 框架融合、AI 机场模式。
MCQ 多循环队列:多核场景,高速传输
MCQ 多循环队列,是业内针对未来多核场景考量,为发挥 CPU 极致性能,重新定义的一款全新处理引擎。
MCQ 最多可为 CPU 和 UFS 之间的数据交换提供 8 条通道传输,有效提升 CPU 的数据并发处理能力,让应用软件切换和后台下载唤醒更快、更流畅。
经测试,搭载 MCQ 技术后,随机写入速度增加了 16.7% 以上,安兔兔跑分近 5000 分,而在更多更实用的场景的体验也有明显提升——比如大型 APP 的安装速度。
在 vivo 和联发科的联合开发下,天玑 9200 旗舰平台成为行业首个支持 MCQ 的平台,相信越来越多的平台会频繁使用到这一功能。
王者荣耀自适应画质模式:提升续航,控制温度
该模式由 vivo 携手联发科、王者荣耀三方联合研发,是基于 MAGT 游戏自适应循环开发的一项黑科技。
vivo 透过平台服务,与游戏应用间的即时信息交换,游戏应用可针对信息即时逐帧调控,达到一个「自适应闭循环」。
经实测,开启自适应模式后,在 26℃环境下,在王者荣耀 120+ 极致配置下运行 1 小时,游戏帧率接近满帧(119.9),均方差仅有 0.92,达到了业界顶级水平。
这个成绩,有点顶了。
芯片护眼:实时侦测,实时降蓝光
视力健康现在越来越被大家重视,护眼也成为年轻人选购手机时的重要考量因素。最伤眼的「蓝光」,自然成为了 vivo 想方设法要对抗的天敌。
芯片在「降蓝光」上的角色至关重要。
vivo 和联发科共同在天玑 9200 旗舰平台上开发的智能降蓝光技术,能够实时侦测画面的蓝光占比,通过创新性的算法并硬化成 IP 的方式,实时降低蓝光。让高能可见蓝光占比小于5%,色偏程度降低 12%。
同时,能够根据检测结果动态调整画面色彩效果,在降低蓝光的同时保证屏幕不偏色,实现了行业性突破。
APU 联合调优:能效骤增,优化协同
天玑 9200 旗舰平台的第六代 APU690 算力高达 30TOPS,能效比相较上代提升了 45%。
基于 APU 硬件特性,联发科提供了 NeuronRuntime 软件加速框架,vivo 将 NeuronRuntime 底层通用能力封装到自研的 VCAP 异构计算加速平台中。
从芯片底层到框架层,VCAP 在访存处理、动态量化、指令流水线等维度实现深度优化,让算法在多个处理器之间协同调度,带来显著的能效提升。
基于这套方案,vivo 在 APU 上实现了相机超清文档、实况文本、离线语音输入法等多项应用上的性能优化。
以离线语音输入法为例,vivo 支持全离线语音输入,确保数据不出端,用户隐私安全不外泄。这是行业首次实现语音转换算法 NPU 优化落地。对比行业通用的 CPU 方案,功耗优化 30%,性能提升 50%。
AI 机场模式:飞行节能,落地速连
AI 机场模式包含两大 AI 引擎:感知 AI 引擎、搜网 AI 引擎。
在这一模式下,手机通过感知 AI 引擎准确感知用户进入机场与飞机的起飞降落,再通过搜网 AI 引擎来准确识别目的地,并智能调控搜网策略。
开启这个模式,若手机开启飞行模式,起飞后至降落前平均可以节能 30%。
关闭飞行模式后,捕获网络的速度也大幅优化。由 7.41 秒缩短至 1.52 秒,提速 79%。
用了 30 多年的底层算法,改了!
天玑 9200 旗舰平台的惊艳表现离不开底层的优化,vivo 与联发科一道,对计算、存储等底层能力进行了内核级创新。
完美适应多极限场景,4K60 帧视频录制功耗大降
此次,vivo 与 MediaTek「双芯联调」的效果首先体现在影像功能的表现上。
经过双方共同优化,新平台多种拍摄场景下的表现大幅提升,并首次以极低的功耗实现了先进的循环视差网络,大幅优化能效表现,能耗降低了 15%。
尤其是在 4K 60 帧极限录像场景中,天玑 9200 的功耗相比天玑 9000,足足降低了 25%。
游戏:全流程提速,帧数稳定温度低
在游戏场景下,新发布的 Origin OS3 不仅带来了游戏超分等「黑科技」,还通过疾速启动引擎和网络加速引擎增强游戏表现,对游戏的下载、启动、加载、运行等多个环节进行全方位优化。
而王者荣耀在 120 帧+极致画质下,能接近满帧地运行 1 小时,就是对冷劲、全速最好的解释。
研发竟要脚踏「两条船」
那么,自研芯片的效果到底如何呢?
抛开更长远的战略不谈,就单从销量上来看,完全称得上是「效果拔群」。
报告显示,2022 年第二季度在 X80 的推动下,vivo 在 600 美元到 799 美元(约合人民币 4100 元到 5470 元)区间段销量同比增长 504%,vivo 的整体销量同比增长 91%,取代华为排到了第二位。
不论是影像技术迭代,还是芯片架构升级,亦或是屏幕显示优化,单纯的硬件堆叠和算法配置都无法真正让人满意。
实际上在去年,在 vivo 首颗自研影像芯片 V1 推出时,vivo 的手机影像正式迈入了硬件级算法时代。
硬件调校自然是硬件厂商的拿手绝活,为了发挥出硬件的极致潜力,vivo 叫上了联发科——把自己的算法、架构固化到芯片层面,与联发科开展深度联调。
vivo 与联发科双方的合作,从一开始就确立了一个目标,软硬协同,实现平台性能全方面的突破。
一年后,当性能和功耗同时具备惊人表现的天玑 9200,遇上 vivo 的自研芯片,结果就是,「焕然一新」的天玑 9200 不仅有了更高的能效比、更快的响应速度,而且还拥有更强的游戏体验。
围绕这一目标,双方都投入了精英开发团队,经过超过 20 个月的开发周期,大幅革新了软件通路架构,实现了1+1>2 的效果。
如果说,自主研发是 vivo 有别于他人的赛道选择,联合研发则是 vivo 突破技术边界的坚定尝试。
与硬件厂商深度合作,走软硬件联合开发,双管齐下之路,对于构建可持续的健康生态圈、培养用户使用习惯,乃至扩展合作和产业链渠道而言,都是一种追求长远的战略布局。
在这方面,软硬件高度一体化的苹果,早已经走到了行业的最前头。
而现在,在这条已经被无数成功验证过的道路上,出现了越来越多的前行者。vivo 和联发科都知道,合作越深,步子越大,未来才有前途。
正是一直以来的坚持,让 vivo 努力做得比别人更好,在这条路上,vivo 走得比别人更踏实、更长远。