赛道Hyper | 英特尔AI芯片性能猛兽Lunar Lake登场

2024/06/07 09:00

全新架构带来激增的AI性能。

作者：周源/华尔街见闻

英特尔下一代面向AI PC的专用移动AI芯片架构——Lunar Lake，终于露出全部真容。

6月4日，英特尔CEO帕特·基辛格（Pat Gelsinger）在COMPUTEX 2024上正式公布Lunar Lake架构的所有技术细节：CPU、GPU、NPU性能提升，能耗降低，综合AI算力达120TOPS，原先剧透消息称这个数值超过100TOPS。

与首代酷睿Ultra Meteor Lake改变CPU结构相比，完全为AI PC而设计的Lunar Lake，采用了全新的架构设计：如P-Core（性能核）的Lion Cove架构，E-Core（能效核）的Skymont架构，性能堪比独显架构X^e2核显，NPU数量从两颗增加到四颗，首次采用封装级内存（将LPDDR5x内存与计算模块封装在一起）。

还有，业界轰传英特尔采用了台积电代工：用N3B工艺代工计算模块（Compute Tile），台积电N6负责平台控制模块（Platform Controller Tile）代工。

巨变：P/E-Core新架构优势

Lunar Lake架构设计包括七个方面：模块化结构、封装工艺、P性能核、E能效核、混合架构与线程调度、GPU核显、NPU AI引擎和平台连接等部分。

这个新架构的主要亮点有三个：首先这是英特尔首次完全采用台积电代工（但英特尔官方没有加以明确）的芯片；其次，用这个新架构的全新AI PC芯片上集成了LPDDR5x内存，等于采用这款芯片的笔记本电脑无需额外配置内存，类似智能手机的SoC（系统级芯片）结构；第三，Lunar Lake用了英特尔Foveros封装工艺。

在计算核心架构层，Lunar Lake拥有4个P-Core（性能核），4个E-Core（能效核），共计8线程，即4P+4E/8T。

巨大的设计变化来自P-Core和E-Core：前者采用全新Lion Cove架构，后者则使用Skymont架构。这取代了原先Meteor Lake架构的Cresmont（节能高能效核），而在Core（酷睿） Ultra上出现的LP E-Core（低功耗能效核）设计也被放弃。

其中，E核运行速度与LP-E核心一样，功耗却仅LP-E内核的30%，在性能上可提升2倍或4倍（单/多线程）。

更重要的变化是：E-Core内部不像P-Core那样用Ring总线连接，而是让其具备LP E-Core的特性，并配合台积电N3B制程效率和新架构设计下每周期指令数（IPC：Instructions Per Cycle）提升，从而获得显著的增益效果。

Lion Cove的作用，在技术上，完成了在CPU设计中投入更多的缓存，以此解决CPU性能问题。随着CPU系统设计愈发复杂，缓存子系统有必要跟进增加，以此保证性能与执行效率的全面提升。

另外，Lion Cove架构还有个重大的设计变革，英特尔甚至认为这种变革会对未来的芯片设计产生深远影响：英特尔将设计重心放在了创建更大规模的分区（Partition），改变了以往的小分区（Small Partition）设计。

这种设计的好处是能降低芯片整体的设计成本和复杂度，而未来的设计迭代升级也会变得更容易。

P-Core采用新的Lion Cove架构，还有能耗控制方面的好处：P-Core的IPC（每个时钟周期指令数：Instructions Per Cycle）提升幅度达30%，动态电源效率提升了20%。

Lunar Lake的E-Core采用的Skymont架构有什么好处呢？

英特尔称，用Skymont架构的E-Core能与上代P-Core性能持平（E-Core作为能效核，性能远不如P-Core性能核）；不仅如此，在部分工作场景下，性能甚至能超越之。

这如何实现？

Skymont架构使用了全新设计，包括在一个时钟周期内同时解码并执行9条指令，也就是9宽解码，比上代E-Core的Crestmont架构增加50%。一般来说，解码阶段宽度越大，处理器性能越强，能更有效地利用资源，加快指令执行速度。

使用这套架构的E-Core，功耗效率提升明显；在单线程性能提升1.7倍的同时，功耗仅为Meteor Lake LP E-Core的30%；用Skymont E-Core集群与Meteor Lake的LP E-Core同时比较，功耗相同，多线程性能提升2.9倍。

首次采用封装级内存

Lunar Lake有个令人惊叹的技术“创新”：这是英特尔首次采用在处理器内部封装整合内存的做法，英特尔将之称为“Memory on Package”（封装级内存）。

换句话说，搭载Lunar Lake处理器的笔记本不支持独立的SO-DIMM标准的内存（LPDDR5x），故而在后期不能扩展内存以升级性能。

若无法扩展内存，岂不是和眼下的超薄笔记本（内存被集成在PCB主板上）一样？

Lunar Lake的物理结构主要分三部分：计算模块和平台控制器模块，这两部分沿用了Meteor Lake的分离式模块化设计方式，组成了Lunar Lake的计算性能核；为了加固计算核心结构，英特尔还加一个没有电路和性能功能的填料模块（Filler Tile）。

计算模块（整合了最新的X^e2 GPU、第四代NPU、IPU）、平台控制器模块，加上那个没有实际作用的填料模块，通过英特尔的Foveros封装工艺，将之封装在基础模块（Base tile）上，变成一个整体。

相比前代，X^e2 GPU的游戏和图形性能提升1.5倍，AI吞吐量提升超3.5倍，算力高达67 TOPS。

内部通信方面，计算模块通过Home Agent、Coherency Agent等连接主要单元，平台控制器模块则通过IO Coherency连接，以确保内部的一致性，最终实现高效通信。

Lunar Lake的技术亮点，或称为重大的设计变化，在于之上封装了两颗内存。在CPU平面图的上半部分，封装了两颗64bit 32GB LPDDR5X（SO-DIMM标准）内存：最高频率8500MHz，每颗芯片有四个16-bit通道，总容量最高为32GB。

英特尔称这种设计能节省40％的功耗和释放多达250平方毫米的主板面积，故而能显著提升电池续航，从而留出更多空间给笔记本的其他设计。

作为一款面向AI PC的AI芯片架构，Lunar Lake用全新的NPU 4和Arc X^e2-LPG核显提供AI动力。NPU 4在INT 8上的算力达48TOPS，大幅超过微软Copilot+ AI PC算力标准（40TOPS），从而满足未来的AI PC性能需求。

其中，对比此前的Meteor Lake的NPU区区11.5TOPS算力，Lunar Lake的NPU增加了两倍数量，内存带宽增加1倍，时钟速度从1.4GHz提高到1.95GHz，故而达成48 TOPS和约2-4倍的整体性能。

Lunar Lake的NPU 4，叠加Arc Xe2-LPG核显后，其综合算力高达120TOPS，但缺点是全负荷运行耗电量会相应增多。

这个问题怎么解决？英特尔有办法。

英特尔通过与微软合作，将英特尔硬件线程调度器（ITD：Intel Thread Director）做了增强，旨在与微软Windows Copilot以及其他AI助手做针对性优化。

英特尔表示，有了新的线程导向器，Windows现在能创建containment zones，将大多数实际工作负载让Skymont E核承担，解决综合算力高企带来的耗电量增加问题，以保证用户的高效续航体验。

Lunar Lake的架构师设计创新点确实不少，比如英特尔还取消了超线程技术。在常见的笔记本电脑时钟速度下，Lunar Lake的E核性能竟然比Meteor Lake的P核更强，单线程性能提升高达20%，四个Lion Cove P核还实现了IPC高达14%的性能提升。

据英特尔的预定计划，Lunar Lake将于今年三季度上市。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。