“X90系列是今年最强安卓拍照智能手机。”一位供应链人士告诉华尔街见闻,“目前看,vivo在影像领域的强悍能力可以持续。若说今年有什么手机值得期待,那肯定就是vivo X90系列,称得上是此前从未见过的静态影像奇迹。”
尽管vivo目前没有官宣这款被称为“年度最值得期待的智能旗舰”——vivo X90——的全部真容,但据vivo于11月10日举行的“双芯技术沟通会”透露,下一代X系列确定搭载vivo新一代自研芯片“V2”,这是华尔街见闻从供应链获知这款带有“奇迹”光环手机的技术源头或密码源流。
在标准SoC主芯片外,搭载自研外挂影像芯片,由vivo首开先河,如今也已成为国内安卓机阵营向苹果公司发起高端冲锋的集体选择:除了此前的华为,现如今的vivo、OPPO和小米,无不把自研芯片的落地能力,当成与竞对确立高端市场差异化品牌形象的主要手段,同时还是取得与苹果正面一战技术实力的终极体现。
那么问题出现了,自研芯片V2靠什么支撑下一代X系列的影像奇迹?立足于AI ISP架构、FIT双芯互联技术、近存DLA和SRAM高速低功耗缓存单元等技术基点上的计算成像功能,通过智能手机终端,带给C端用户怎样无与伦比的影像体验?
走向高端:斩获如何?
在揭开自研芯片V2的技术面纱前,有必要对vivo自研影像芯片(ISP)的原因、历程和因此获得的市场认可做个简单回顾。
2021年8月27日,vivo执行副总裁胡柏山曾对外界表示,用户未被满足的影像需求,这是vivo自研影像芯片的立足点。
相比之下,vivo影像算法总监杜元甲的解释或许更容易理解。杜元甲表示,因看到C端用户不但想要通过手机、能在常规场景拍出好照片,也希望在被暗光环境和运动场景等极限环境限制时,也能拍出好作品。
此外,自研影像芯片与vivo的产品规划也很有关系。目前,vivo正在设计、影像、系统和性能四个长赛道持续做功,其中影像赛道与芯片强相关。
出于这样的原因,vivo首款自研影像芯片(ISP)“vivo V1”于2021年9月6日发布,这是一颗全定制特殊规格集成芯片,具有高算力、低时延和低功耗特性。
若论这款芯片有何创新?实际上就是对数据在芯片内部的储存架构和高速读写电路做了优化,因此能实现等效32MB的超大缓存,读写速度高达35.84Gbps,拥有1080P 60PFS(每秒画面更新数量:Frame Per Second)的实时降噪插帧能力。
什么是ISP?所谓ISP,即图像信号处理(Image Signal Processor),一般用来处理Image Sensor(图像传感器)的输出数据,如做AEC(自动曝光控制)、AGC(自动增益控制)、AWB(自动白平衡)、色彩校正、Lens Shading、Gamma 校正、祛除坏点、Auto Black Level和Auto White Level等等功能的处理。
通俗表达一句话,ISP负责处理原始影像(RAW Image),形成后续易被机器视觉模型处理的图像。
到今年4月20日,V1的技术迭代芯片“vivo V1+”发布。这既是一颗专业影像芯片,同时也是一颗显示性能芯片。V1+的特点是将3D实时立体夜景降噪、MEMC(运动补偿:Motion Estimation and Motion Compensation)插帧和AI超分三大算法做硬件化封装,具备调度佳、速度快和能效高三项特点。
这两款自研影像芯片分别搭载于vivo X70Pro/Pro+(V1)和vivo X80旗舰全系(V1+),而vivo这两代X级旗舰机均为爆款作品,故在事实上成为vivo攻略高端市场的主力机型。
其中,vivo X80系列在今年高端市场表现出色:今年W19(5月2日-8日)和5月,该系列手机以20.5%和23.5%的市占率均排名安卓高端机第一(3500-5000元价位段)(数据来源:BIS)。
另据Counterpoint Research发布的报告显示,今年第二季度,中国高端智能手机(批发价400美元及以上)市场,vivo X80系列助力vivo首次登上高端手机市场份额第二,仅次于苹果。
Counterpoint研究分析师Mengmeng Zhang在评论整个高端市场的变化时表示,vivo在X80系列的成功推动下,在高端的区间段(600美元-799美元,约合人民币4000元-5200元,取Q2人民币对美元汇率中间价均值6.65)同比增长504%。
从vivo X70pro+和vivo X80全系实现的影像体验口碑看,市场评价认可度较高,最为显著的良好口碑集中在拍照性能方面,自研影像芯片对vivo攻略高端市场的作用显而易见。
AI-ISP:跨越式技术革新
如果说vivo V1+是V1的技术迭代成果,那么于11月10日发布的自研芯片V2,就其技术创新重要性而言,堪称比vivo V1这颗vivo自研影像芯片更为重要的里程碑。
在V2令人眼花缭乱的技术列表中,首屈一指的重磅技术创新是将传统的ISP架构升级成“AI-ISP架构”,实现了跨越式技术革新。
AI即人工智能(Artificial Intelligence),那么AI为何要去结合ISP?
杜元甲提到过,C端用户想要在遇到极限环境(暗光或运动场景)制约时,也能低成本、很方便地拍摄出优秀摄影作品。
要做到这一点,就会对手机芯片的图像处理速度和运算能力,提出堪称苛刻的高要求。比如需要ISP能实现图像夜视和降噪处理,才能满足终端使用者良好的应用体验。
以夜视降噪举例:目前最优解决方案是通过使用神经网络完成降噪。
由于图像噪声(Image Noise)随机出现,没有规律,受多种因素比如电路或感光元件制作工艺等影响,因此极难通过数学算法实现降噪。通俗来说,噪声造成的后果,即成像照片不够纯净,充斥噪点。比如,天文影像照片看上去极为模糊,即由高度的噪声导致。
那怎么办呢?办法是引入神经网络。所谓神经网络,并不是指算法,而是一种特征提取方法。决定神经网络优劣的核心因素,在于拥有多少可供训练的数据量。事实上,现在建模拼的不是算法,而是数据量级。
“特征提取方法”中的特征,类似事物特点、标签或类型,被归类于特征工程,是深度学习最重要的核心问题。
简单来说,深度学习会把特征当作黑盒子,对原始数据做非常复杂的变换操作:输入数据后,神经网络会自动提取特征。这些特征会让机器认识其含义,根据不同的技术目标识别和学习到什么特征最合适。所以,深度学习解决的核心问题是提取特征。
通过神经网络,可自动收集大量相同场景的低/高光照相片(照片)对特征,以构建数据训练模型提升深度学习能力,确保神经网络能通过训练数据集,降低光照相片拟合到高光照相片。当此类训练数据量足够大,则此神经网络就能有良好的泛化能力,从而适配所有场景,也就是实现全场景的夜视降噪。
与此类似的还有超分辨率,原理类同。实现的效果是能以较低的硬件成本,比如无需给手机配置高倍镜头,就能实现超高分辨率照片的拍摄。
这两种体验需求,都要经过大量数据训练,这就需要AI算力介入。于是,为了在ISP中加入AI元素,则需对ISP做相应调整,实现和AI的整合。这其中,除强悍的算力要求,同时要保持智能手机有良好的续航体验,故需要控制功耗;而为了拍摄时C端用户能实现等待无感的“一键成像”,这就有了低延迟需求。
为了解决这些问题,需要构建能达成高效数据处理的AI模块。因最终的目的是做成AI-ISP芯片,因此通常就会将ISP和AI模块整合成IP模块。如此,因其耦合度较高,故能通过协同优化,实现较低的延迟和功耗。
自研芯片V2的AI-ISP架构技术原理即基于此。
那么所谓“跨越式技术革新”,体现在哪里?
什么是FIT双芯互联?
传统ISP以行为单位做特征处理,只能解决已知或特定问题,而AI能处理复杂或未知问题。
但是,当AI软件算法部署在NPU(嵌入式神经网络处理器:Neural Processor Unit)时,需要以帧或块为单位做处理,这会破坏ISP行级流水架构,造成延时提升,导致性能下降。
同时,由于绝大部分平台SoC片上SRAM容量有限,当AI接入ISP管道,就要通过外部DDR完成数据暂存和交互。如此,就会造成运算与数据分离,牺牲高性能AI运算至关重要的Data-Locality(数据本地性)要求,从而进一步降低性能。
对此,vivo首创的解决方案,即通过FIT双芯互联,将平台ISP-NPU与V2 ISP-DLA作为一个整体,以设计相对更合理的AI算法处理架构:将平台SoC上NPU的大算力,与V2近存DLA(深度学习加速器:Deep Learning Accelerator)的高能效和低延时,在部署时做互补设计,由此实现优异的双芯AI-ISP影像体验。
什么是FIT(Frame Info Tunneling)双芯互联技术?事实上,这是自研芯片V2自研影像芯片的另一个创新点。
智能手机AI计算成像,大致可分为平台和外挂两种解决方案:其一,外挂芯片可减少软件调度,高效专注于大密度AI运算,但在特定场景下,运算缺乏灵活性;其二,平台SoC软件部署灵活,NPU峰值算力上限高,但难以满足大密度运算的算力需求。
如此看来,这两种解决方案都不完善,优劣势都很明显。
为充分发挥平台和外挂各自的技术优势,做出1+1>2的效果,vivo系统架构师和工程师在尝试了若干种芯片间高速通信的方案后,最终设计出 FIT双芯互联技术。
自研芯片V2与平台SoC芯片架构和指令集完全不同。
vivo拆分了大型复杂算法模块,把算力密度小、网络结构复杂的小模型部分,通过软件部署于平台SoC NPU模块;将算力密度大、数据吞吐密集的大模型部分,置于自研芯片V2硬件内,目的是使其处理各自擅长的运算模块。
其中,平台SoC NPU会对传感器和每帧画面做预处理和运动感知分析。通过自研FIT双芯互联技术,自研芯片V2又可将平台SoC NPU分析的结果和高精度Timecode(时间码)嵌入到每帧画面中,在1/100秒内完成双芯互联同步,最终实现软硬结合,高速协同计算——在异构多芯片计算方向上,迈出了重要的第一步。
自研芯片V2独创的AI-ISP架构,通过FIT实现双芯互联,达成了什么样的技术效果?通俗地说,即双ISP和双AI,一个灵活多变,一个专用专注,最终做到了极致效果与极致能效比。之后,再配合蔡司T*镀膜、VCS仿生光谱技术及强大的vivo算法矩阵,vivo将整个计算成像光路做了一次技术革新。
华尔街见闻注意到,平台SoC NPU模块算力不足以支撑C端用户对极致摄影的需求,如此才引入外挂AI-ISP以做助力,而自研芯片V2设计的AI-ISP架构,通过FIT双芯互联技术,解决了C端用户的摄影痛点。
很显然,自研芯片V2的算力异常强悍。这样,引出了一个新问题,V2的强悍AI算力是怎样炼成的?
超强AI算力源自哪里?
在端侧移动设备(比如智能手机)做AI处理,有三个核心要素:算力容量,算力密度和数据密度——三者相互关联,共同决定着AI处理能力的上限。
基于CPU、GPU(图形处理器:Graphics Processing Unit)和NPU的软件AI框架,平台SoC算力容量大,适合部署网络结构复杂的模型,但能效比不高,无法满足对大密度AI运算的需求。
因此,在自研芯片V2的设计中,vivo加入近存DLA——通过全硬化MAC(乘加器:Multiplication-Adder-Cycle)设计和大容量专用片上SRAM,近存DLA可强化算力密度和数据密度,以释放平台的算力容量潜力。
算力密度方面,因得益于全硬化MAC设计,自研芯片V2的近存DLA在实际AI运算中,能做到拉满MAC利用率。相比在平台SoC软件部署AI运算,8bit算力密度提升高达2-3倍。此外,vivo还针对专业视频的10bit处理需求,在自研芯片V2中专门硬化10bit的MAC单元——相比平台SoC软件部署所采用的合并运算方式,10bit算力密度提升4-6倍。
由于数据密度受到传统架构von Neumann内存墙的制约,大密度运算会遇到数据填喂不足和运算等待数据的问题,极大限制了计算性能。
为保证数据密度与算力密度的高度匹配,自研芯片V2借鉴了近存计算的思想,在近存DLA内配套设计了专用片上SRAM,其容量较vivo V1提升40%,达到等效45MB,速度也高达1.3万亿bit/s。
近存DLA的设计,大幅减少了数据寻址和搬运功耗,与通常NPU采用的DDR外存设计相比,SRAM数据吞吐功耗理论最大可减少99.2%。
算力密度和数据密度的双重提升,以及多项低功耗电路设计方法的加持,其结果,就是自研芯片V2的近存DLA,在同等芯片制程条件下的表现远超同行竞品——内核每瓦算力在运行8bit MAC和10bit MAC时,分别达到16.3TOPS/W和10.4TOPS/W;在部署相同算法时,自研芯片V2相比传统NPU,能效比提升200%。
有了FIT双芯互联和近存DLA两项芯片底层技术的助力,vivo在端侧AI部署上有了更多的灵活性和创新空间。
技术原理或许枯燥且不易理解,有自研芯片V2加持的vivo X90,在影像方面,从体验角度看,有哪些亮点?
就以对C端体验影响最直接的暗光和运动抓拍为例。
在运动抓拍时,vivo X90采用运动自适应多帧融合技术,一次快门生成多帧运动画面,叠加vivo自研的RawEnhance2.0算法,可将每一帧有用信息叠加在一起,实现暗光运动的无拖影体验。
新一代的运动抓拍大幅提升了暗光抓拍的能力,综合暗光画质提升。对比竞对,vivo在室内暗光场景下抓拍的运动物体几乎看不到拖影。
vivo的暗光对焦能力最高可覆盖至-6EV曝光环境,在低至5lux的暗光场景下都能拥有极佳的画面定格能力,从而精准捕获运动主体,牢牢驾驭暗光环境。
更为C端拍摄体验带来浓墨重彩的一笔,是vivo带来的“零”延时抓拍。
对图像处理管线做的深度优化,提升了Sensor(传感器)的启动速度,快门延迟低至30ms内,达到专业相机水平:按下快门就能迅速成片,实现所见即所得。
所谓快门延迟,是指从按下快门到相机最后成像的时间差。快门延迟越短,抓拍的确定性就越高。专业相机快门延迟约30ms,而手机快门延迟一般为170-300ms。因此,在同一时刻按下快门,专业相机出片完成后,手机可能仍未开始曝光。
很难用寥寥数千字全面呈现vivo如何从底层入手,持续深耕移动影像技术领域,为C端用户带来的全部移动终端影像体验的方方面面。据华尔街见闻了解到的信息,vivo X90系列会在年内发布,届时会有更进一步的体验细节呈现。