作者:周源/华尔街见闻
英特尔下一代面向AI PC的专用移动AI芯片架构——Lunar Lake,终于露出全部真容。
6月4日,英特尔CEO帕特·基辛格(Pat Gelsinger)在COMPUTEX 2024上正式公布Lunar Lake架构的所有技术细节:CPU、GPU、NPU性能提升,能耗降低,综合AI算力达120TOPS,原先剧透消息称这个数值超过100TOPS。
与首代酷睿Ultra Meteor Lake改变CPU结构相比,完全为AI PC而设计的Lunar Lake,采用了全新的架构设计:如P-Core(性能核)的Lion Cove架构,E-Core(能效核)的Skymont架构,性能堪比独显架构Xe2核显,NPU数量从两颗增加到四颗,首次采用封装级内存(将LPDDR5x内存与计算模块封装在一起)。
还有,业界轰传英特尔采用了台积电代工:用N3B工艺代工计算模块(Compute Tile),台积电N6负责平台控制模块(Platform Controller Tile)代工。
巨变:P/E-Core新架构优势
Lunar Lake架构设计包括七个方面:模块化结构、封装工艺、P性能核、E能效核、混合架构与线程调度、GPU核显、NPU AI引擎和平台连接等部分。
这个新架构的主要亮点有三个:首先这是英特尔首次完全采用台积电代工(但英特尔官方没有加以明确)的芯片;其次,用这个新架构的全新AI PC芯片上集成了LPDDR5x内存,等于采用这款芯片的笔记本电脑无需额外配置内存,类似智能手机的SoC(系统级芯片)结构;第三,Lunar Lake用了英特尔Foveros封装工艺。
在计算核心架构层,Lunar Lake拥有4个P-Core(性能核),4个E-Core(能效核),共计8线程,即4P+4E/8T。
巨大的设计变化来自P-Core和E-Core:前者采用全新Lion Cove架构,后者则使用Skymont架构。这取代了原先Meteor Lake架构的Cresmont(节能高能效核),而在Core(酷睿) Ultra上出现的LP E-Core(低功耗能效核)设计也被放弃。
其中,E核运行速度与LP-E核心一样,功耗却仅LP-E内核的30%,在性能上可提升2倍或4倍(单/多线程)。
更重要的变化是:E-Core内部不像P-Core那样用Ring总线连接,而是让其具备LP E-Core的特性,并配合台积电N3B制程效率和新架构设计下每周期指令数(IPC:Instructions Per Cycle)提升,从而获得显著的增益效果。
Lion Cove的作用,在技术上,完成了在CPU设计中投入更多的缓存,以此解决CPU性能问题。随着CPU系统设计愈发复杂,缓存子系统有必要跟进增加,以此保证性能与执行效率的全面提升。
另外,Lion Cove架构还有个重大的设计变革,英特尔甚至认为这种变革会对未来的芯片设计产生深远影响:英特尔将设计重心放在了创建更大规模的分区(Partition),改变了以往的小分区(Small Partition)设计。
这种设计的好处是能降低芯片整体的设计成本和复杂度,而未来的设计迭代升级也会变得更容易。
P-Core采用新的Lion Cove架构,还有能耗控制方面的好处:P-Core的IPC(每个时钟周期指令数:Instructions Per Cycle)提升幅度达30%,动态电源效率提升了20%。
Lunar Lake的E-Core采用的Skymont架构有什么好处呢?
英特尔称,用Skymont架构的E-Core能与上代P-Core性能持平(E-Core作为能效核,性能远不如P-Core性能核);不仅如此,在部分工作场景下,性能甚至能超越之。
这如何实现?
Skymont架构使用了全新设计,包括在一个时钟周期内同时解码并执行9条指令,也就是9宽解码,比上代E-Core的Crestmont架构增加50%。一般来说,解码阶段宽度越大,处理器性能越强,能更有效地利用资源,加快指令执行速度。
使用这套架构的E-Core,功耗效率提升明显;在单线程性能提升1.7倍的同时,功耗仅为Meteor Lake LP E-Core的30%;用Skymont E-Core集群与Meteor Lake的LP E-Core同时比较,功耗相同,多线程性能提升2.9倍。
首次采用封装级内存
Lunar Lake有个令人惊叹的技术“创新”:这是英特尔首次采用在处理器内部封装整合内存的做法,英特尔将之称为“Memory on Package”(封装级内存)。
换句话说,搭载Lunar Lake处理器的笔记本不支持独立的SO-DIMM标准的内存(LPDDR5x),故而在后期不能扩展内存以升级性能。
若无法扩展内存,岂不是和眼下的超薄笔记本(内存被集成在PCB主板上)一样?
Lunar Lake的物理结构主要分三部分:计算模块和平台控制器模块,这两部分沿用了Meteor Lake的分离式模块化设计方式,组成了Lunar Lake的计算性能核;为了加固计算核心结构,英特尔还加一个没有电路和性能功能的填料模块(Filler Tile)。
计算模块(整合了最新的Xe2 GPU、第四代NPU、IPU)、平台控制器模块,加上那个没有实际作用的填料模块,通过英特尔的Foveros封装工艺,将之封装在基础模块(Base tile)上,变成一个整体。
相比前代,Xe2 GPU的游戏和图形性能提升1.5倍,AI吞吐量提升超3.5倍,算力高达67 TOPS。
内部通信方面,计算模块通过Home Agent、Coherency Agent等连接主要单元,平台控制器模块则通过IO Coherency连接,以确保内部的一致性,最终实现高效通信。
Lunar Lake的技术亮点,或称为重大的设计变化,在于之上封装了两颗内存。在CPU平面图的上半部分,封装了两颗64bit 32GB LPDDR5X(SO-DIMM标准)内存:最高频率8500MHz,每颗芯片有四个16-bit通道,总容量最高为32GB。
英特尔称这种设计能节省40%的功耗和释放多达250平方毫米的主板面积,故而能显著提升电池续航,从而留出更多空间给笔记本的其他设计。
作为一款面向AI PC的AI芯片架构,Lunar Lake用全新的NPU 4和Arc Xe2-LPG核显提供AI动力。NPU 4在INT 8上的算力达48TOPS,大幅超过微软Copilot+ AI PC算力标准(40TOPS),从而满足未来的AI PC性能需求。
其中,对比此前的Meteor Lake的NPU区区11.5TOPS算力,Lunar Lake的NPU增加了两倍数量,内存带宽增加1倍,时钟速度从1.4GHz提高到1.95GHz,故而达成48 TOPS和约2-4倍的整体性能。
Lunar Lake的NPU 4,叠加Arc Xe2-LPG核显后,其综合算力高达120TOPS,但缺点是全负荷运行耗电量会相应增多。
这个问题怎么解决?英特尔有办法。
英特尔通过与微软合作,将英特尔硬件线程调度器(ITD:Intel Thread Director)做了增强,旨在与微软Windows Copilot以及其他AI助手做针对性优化。
英特尔表示,有了新的线程导向器,Windows现在能创建containment zones,将大多数实际工作负载让Skymont E核承担,解决综合算力高企带来的耗电量增加问题,以保证用户的高效续航体验。
Lunar Lake的架构师设计创新点确实不少,比如英特尔还取消了超线程技术。在常见的笔记本电脑时钟速度下,Lunar Lake的E核性能竟然比Meteor Lake的P核更强,单线程性能提升高达20%,四个Lion Cove P核还实现了IPC高达14%的性能提升。
据英特尔的预定计划,Lunar Lake将于今年三季度上市。