黄仁勋将揭晓世界前所未见新芯片 推理时代来临。3月中旬,NVIDIA将在加州圣何塞召开GTC大会,这是AI领域最受瞩目的盛会之一。此前,黄仁勋宣布将推出一款“世界前所未见”的全新芯片。这一消息在资本市场引起了热议。目前主流观点认为,这款芯片最有可能是融入Groq LPU(语言处理单元)设计的全新推理产品。

如果作为现有GPU的插件,数据传输仍然要经过PCIe或NVLink等外部接口,这会引入新的延迟,部分抵消SRAM的低延迟优势。更理想的方案是像Cerebras那样,打造一个专为推理设计的、以SRAM为中心的全新计算架构。
随着新一代Agent应用如“小龙虾”(OpenClaw)的火爆,全球算力需求结构正发生明显变化,市场重心从训练转向推理。据德勤《2026科技、传媒和电信行业预测》,到2026年,“推理”将占据全部AI计算能力的三分之二。未来将出现价值数十亿美元的推理专用优化芯片,部署在数据中心和企业服务器中,部分芯片的功耗将与通用AI芯片相当甚至更高。
对于此次大会,业界推测最大的亮点除了英伟达可能正式揭晓Rubin及下一代Feynman架构GPU的核心技术细节外,还可能推出整合了LPU技术的全新推理芯片。这将是英伟达首次在核心AI算力产品线中大规模引入外部架构。
中信证券称,此前NVIDIA推出的Rubin CPX针对Prefill降本需求,在对Groq收购后,本次或将推出LPU或“类LPU”芯片来实现Decode提效。在推理过程中,模型通常经历两阶段:pre-fill阶段处理用户输入;decode阶段逐Token生成输出结果。实际影响用户推理体验的关键在于decode阶段的生成速度与延迟。基于GPU的推理架构中,由于大量模型参数存放于HBM中,频繁的数据搬运会影响模型decode阶段的时效性。而Groq LPU采用离计算核心更近的存储单元SRAM来存储模型参数,提供高达80TB/s的内存带宽,远超GPU架构。
不过,纯SRAM方案在容量上无法胜任当前动辄千亿、万亿参数的大模型。庄昌磊表示,英伟达可能采用类似AMD 3D V-Cache的技术,通过台积电的SoIC混合键合技术,将专为推理加速设计的、包含大量SRAM的LPU单元直接3D堆叠在GPU核心晶圆上。
对于3D堆叠方案,AMD等头部厂商已有布局。2021年AMD公布3D垂直缓存技术,可将额外的7nm SRAM缓存垂直堆叠在Ryzen计算小芯片的顶部。2024年富士通介绍旗下MONAKA处理器采用3D SRAM技术,计划2027年出货。东方证券认为,SRAM 3D堆叠方案可通过垂直堆叠存储单元的方法提升密度,规避传统SRAM容量受面积密度限制的问题。中信证券也认为,未来的GPU与NPU都有可能采用3D堆叠SRAM的方式,实现访存带宽的飞跃,吸收LPU的优势,同时保持原有的软件生态无需变动。
庄昌磊指出,复杂的AI芯片可能需要同时用SoIC堆叠LPU和GPU核心,再通过CoWoS与HBM封装在一起。对于一些特定的、不需要HBM容量的纯推理芯片,确实可以完全依靠3D堆叠SRAM来构建,但这些芯片面向的是细分市场,量级难以撼动HBM+CoWoS的主流地位。SRAM 3D堆叠需要在晶圆制造阶段进行精确的晶圆对晶圆键合,技术和工艺与前端制造深度耦合,进一步将价值从前道封装前移。先进制程的价值被进一步放大,本土封测厂可能面临被“挤出”高端市场的风险线上实盘配资,但也带来了差异化竞争机遇。
元鼎证券:平台特点解析与最新证券业务服务指南提示:本文来自互联网,不代表本网站观点。