AMD小会、高通发布NPU报告、推荐算法

信息平权
随着AI应用的快速发展,传统的CPU和GPU难以满足其计算需求。因此,异构计算架构应运而生,它将不同的工作负载分配给CPU、GPU和NPU,实现了高效的数据处理和传输,从而支持复杂的AI应用。

AMD(今晚+4%)MS TMT Conference 上的小会(CFO Jean)

  • 关于2027年4000亿美金市场规模怎么算的:首先是自下而上计算的,在企业中已经开始看到生产率提高的早期证据,听到客户谈论的是非常具体的功能,30%、40%,甚至是 100% 的生产率提高。根据客户对其长期需求的反馈,以及我们对满足需求所需要的芯片规模。具体包括量、价,且ASP会增加。除了GPU,还有TPU等ASIC,客户都在谈论内部自制芯片,这些机会也在总的TAM计算中。除了自下而上,另一个角度,我们团队也考虑了AU对全球GDP 意味着什么,对生产力的提高意味着什么,确实节省了大量劳动力成本的话,对劳动力成本意味着什么。总之我们做了多角度校验(triangulate),确保预测不会错。

  • 关于中国定制版本没有获得批准:MI300 目前和 2024 年的收入主要来自非中国客户。我们确实向中国运送MI210,这符合出口管制。我们正在与客户合作,并与M国政府合作,研究是否能推出MI300 的衍生产品,为中国客户提供支持。

  • 英伟达1年1迭代,AMD怎么办:自从我们推出 MI300 以来,我们看到英伟达不断加快推出产品的步伐,你应该期待AMD也能这样做。纵观 AMD 的发展史,从 MI100 到 MI300,大约也就 3 到 4 年的时间,我们对自己的路线图很有信心。任何新技术的关键不仅在于供给,还需要客户采用,这就需要我们路线图与客户的需求保持一致

  • AI PC:AI始于数据中心,并将走向边缘,走向PC等个人设备,对 AMD 而言,最重要的事情之一就是 AI PC,我们相信 AI PC 将推动不同的替换周期。一旦将 NPU 集成到电脑中,它就能在本地完成很多应用,你不再需要去云端。

  • ROCm:ROCm 6 已经取得了重大进展,支持 PyTorch、JAX、Trident 和 defender 框架,客户假如基于这些框架编写模型,就可以运行 MI300X。现在 Hugging Face 上大概有 50 万个模型,它们都可以在 MI300X 上运行,我们认为我们已经缩小了差距。

  • 传统:服务器市场实际上有所下滑,一是库存消化,二是AI支出挤压。客户优先考虑AI,并延长传统服务折旧,几乎所有的云计算客户都延长了折旧期限。新的工作负载推动客户扩大数据中心的空间和功率,如果继续使用老式服务器,运营成本实际上相当高。延长折旧是不够的,必须升级。

高通刚刚发了一份《通过NPU和异构计算开启端侧AI》的报告

手机AI负载有哪些:照片/视频拍摄、图像生成/编辑、代码生成、录音转录/摘要、文本(电子邮件、文档等)创作/摘要、语音识别、游戏和视频的超级分辨率、视频通话的音频/视频处理、视频通话的实时翻译,以及最重要的always on的AI助手,例如手机可以根据用户的对话内容自动建议与同事的会议。

为什么需要NPU:通用 CPU 和 GPU,难以满足这些 AI用例严苛且多样化的计算需求。AI用例在不断演进,功能完全固定的硬件不行。因此,支持处理多样性的异构计算架构能够发挥每个处理器的优势,例如以AI为中心定制设计的 NPU,以及 CPU 和 GPU,每个处理器承担不同的任务:CPU 擅长顺序控制和即时性、GPU适合并行数据流处理、NPU擅长标量、向量和张量数学运算,可用于核心AI工作负载。比如我们在 2023 骁龙峰会上,高通在搭载第三代骁龙8移动平台的手机上演示了语音控制的 AI个人助手,这一用例的工作负载分配方式:

1.当用户与 AI 助手交谈时,语音通过 OpenAl的Whisper 转化为文本。该模型在高通传感器中枢上运行。
2. Al助手再使用大语言模型 Llama 2-7B 生成文本回复。该模型在 NPU 上运行。
3. 然后利用在 CPU 上运行的开源 TTS 模型将文本转化为语音。
4. 与此同时,虚拟化身渲染必须与语音输出同步,才能实现足够真实的用户交互界面。借助音频创建融合变形动画能够给嘴形和面部表情带来合适的动画效果。这一传统 AI 工作负载在 NPU 上运行。
5. 最终的虚拟化身渲染在 GPU 上进行。以上步骤需要在整个内存子系统中高效传输数据尽可能在芯片上保存数据。

此外,高通AI软件栈全面支持主流Al框架(如TensorFlow、PvTorch、ONNX和 Keras)

高盛对memory的投资者调研

投资者已经预期 24 年第 2 季度的价格增长将明显放缓。买方的预期范围介于本季度环比增长 MSD% 到 HSD% 之间。主要的争论点是内存价格增长是否会从 24 年第三季度开始加速,越来越多的投资者提出这种可能性,因此DDR5 和 HBM(尤其是B100 GPU 的推出而推出的 HBM3E)需求强劲,普通服务器的内存需求复苏,以及智能手机的旺盛季节性。市场对 NAND 定价的预期相对较低,一致认为 24 年下半年的定价增长可能会继续放缓,特别是随着供应商开始提高利用率。

大多数投资者认为,海力士将继续占据 HBM3E 的大部分市场份额,因为海力士拥有专有的 MR-MUF(大规模回流模塑底部填充)技术,在生产率和散热方面具有优势,而且海力士已经建立了供应链生态系统并与客户建立了牢固的关系。不过,对于 HBM4 的看法不一,一些人认为海力士将能保持领先地位,但另一些人则认为海力士的同行(如 SEC)将能迎头赶上,因为 SEC 在混合键合技术方面的工作更为积极而且有可能以交钥匙工程的方式提供 HBM。大多数投资者倾向于海力士,但也有越来越多的投资开始考虑三星。

大摩下调特斯拉盈利预测

价格持续下降,电动汽车(EV)需求仍在减缓,混合动力势头正在争夺边际EV买家,今年特斯拉可能在汽车业务上GAAP EBIT亏损。加州的纯电动车(BEV)渗透率与中国相当。中国EV市场供应过剩,我们认为价格竞争将持续到2024年。混合动力复兴,丰田应该是今年美国增长最快的主要OEM,市场份额将增加100个基点到200个基点。预计特斯拉2024年上半年的业绩将低于预期,只看EV制造利润率可能为负。2024预测变化:销量削减至低于2百万,汽车毛利率从之前的13.2%降低到11.4%,GAAP EPS预测从之前的1.54美元削减到0.99美元, non-GAAP EPS从之前的2.04美元削减到1.51美元。

MS TMT Conference 第一天总结

软件:所有公司中,Gen AI 仍然是第一话题,但各公司对收入何时会在模型中显现仍然比较谨慎。例如,ServiceNow CFO表示,虽然对两到三年内的收入机会非常有信心,但现在就对2024年的收入影响还为时过早。也有一些积极的迹象表明,企业IT支出环境正在改善,而且 Gen AI 对生产力的影响已经可以衡量。企业已经从 Gen AI 中看到了对内部生产力的影响,从而产生了更积极的情绪,例如,ServiceNow 谈到了超过 20 个内部用例,看到AI产品 Pro Plus SKU 的增长速度比老产品Pro SKU 更快。

半导体:Marvell 4 月份的业绩可能出现小幅下滑,但我们认为ASIC将带来足够多的利好消息收入峰值将远高于最初的指导目标(年收入 8 亿美元),但英伟达一旦供给释放,ASIC竞争力有多大存有疑问。AMAT CFO 称公司认为将在HBM 15-20个额外步骤(TSV、电镀、间隙填充等)的份额将超过50%。下半年对中国 DRAM 出货量的增长将放缓,占业务量的比例将从第一季度的 45% 下降到全年的 30%。认为AI整体晶圆wafe starts为全球晶圆总wafer starts的 6%,预期年复合增长率为 30%以上;HBM 占 DRAM 的 5%,预期增长 50-60%AI将推动逻辑和 DRAM 的产能利用率提升。ASMPT 表示,其下一代 TCB 可以实现 16 层 HBM,这将扩大 TCB 的应用范围,并有利于 ASMPT 成为行业领导者,HBM4 中TCB 与Hybrid Bonding的使用比例,成为一个值得商榷的问题。ABF低迷,个人电脑和通用服务器需求低迷,第一季度收入可能会进一步下降,价格竞争将加剧,供过于求的局面将持续到 2025 年。

CoWoS /  HBM / 服务器模型更新

老黄说的推荐算法,为什么需要大模型(某专家)

传统推荐算法,主要基于用户画像特征、物品特征来进行推荐。其先验知识和泛化能力相比大模型要弱很多传统推荐算法的一大挑战是冷启动问题,即如何对新用户、新物品进行推荐。不同平台的竞争力和增长潜力,很大程度上取决于对新用户和非活跃用户的冷启动推荐效果,且各家公司投入大量人力资源(可能占80%)来解决这个问题。由于缺乏交互行为数据,传统算法很难准确预测新用户的兴趣。而大模型凭借其先验知识,可以在一定程度上缓解冷启动问题。传统推荐算法通常依赖用户的显式行为,如点击、转化、停留时间等。如果用户没有这些行为数据,算法就难以准确判断用户的喜好。大模型可以利用用户的基本属性信息,如统计属性、地理位置等,加上其先验知识,生成对该用户可能感兴趣物品的预测。有些大模型如 Gemini 是在线训练的,可以实时学习新数据,快速适应新用户的需求

看到的一些深度评论

from普通人的AI自由:“压缩”是LLM模型的最核心能力,所谓“世界模型”就是要将人类的所有知识都压缩到模型中。顺着这条路思考,小型化的意义在于:小型化的模型首次让一个公司、甚至个人可以使用“全人类的知识”。可能会出现一个历史的分叉,岔路的一边是“中心化的大一统世界模型”,另一边是“端上智能+人的模型的混合社会”。但模型规模被压缩时,稳定性和记忆能力都会有损失,所以说小模型能力比大模型落后一个代际应该是常态。

from吴炳见,Soul Capital合伙人:大模型的发展规律和互联网有很大差异,更应该参照芯片行业的发展规律。50年代,仙童发明了半导体后,随着芯片能力的提升,先后出现了计算器、PC、游戏机、移动手机、MP3、智能手机这些国民级的电子产品,这背后是摩尔定律的推动,“处理器的性能每两年翻一倍,价格下降为之前的一半”。OpenAI推出ChatGPT只有一年多时间,基于大模型的应用的出现也是有先后顺序的,在要出计算器、随身听的时候,不要硬造PC;在要出汤姆猫的时候,不要硬造抖音,造不出来。历史无法跳跃,只能经历。Scaling Law会成为AI时代的摩尔定律,堆算力,堆参数。随着模型能力的提升,基于大模型不是造应用,而是造虚拟人,起初是本科生,之后是白领,之后是某些领域的专家比如医生、律师,后面会造出科学家,最终极的形态是AGI,随着模型智能程度的提升,这些虚拟人会依次解锁。以造人的标准来看待当下大模型的能力,就知道需要多少智能,和中间的差距了。而现在我们常说的“AIGC应用”,可能只是AI发展史上的过渡阶段,是因为当下的模型还造不出虚拟人,所以先造辅助软件。AI和移动互联网的差异,远大于移动互联网和互联网的差异,先跳下来,刷一遍自己的ROM很重要。在真实工作环境中,我们90%的时间是在解决那10%的难题,大模型能否解决好那10%的难题是一道及格线,过不了这个及格线,大模型只能做副驾copilot,充其量是一个好用的软件;过了这个及格线,大模型就是主驾,我们开始为主驾付工资。

本文作者:Jason,来源:信息平权,原文标题:《AMD小会、高通发布NPU报告、推荐算法》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章