推理芯片将成AI竞逐新焦点

来源：参考消息2026-03-26 19:02

　　参考消息网3月20日报道据英国《经济学人》周刊网站3月18日报道，计算机芯片制造商英伟达目前是全世界市值最高的公司。它的成功要归功于图形处理器(GPU)的多种用途，这种芯片是英伟达于20世纪90年代后期率先推出的。GPU最初是为了提升电子游戏画质而设计，后来人们发现它在训练大语言模型(LLM)方面表现出色。这一发现令市场对英伟达芯片的需求及公司估值一路飙升。

　　时代瞬息万变。对人工智能(AI)计算的需求正从训练模型转向让模型解答现实世界的问题——这个过程被称为推理。麦肯锡咨询公司估计，到21世纪20年代末，推理将占据AI数据中心算力需求的五分之三。英伟达似乎也意识到了这一转变。3月16日，该公司发布了一款专为推理任务设计的新芯片Groq 3 LPX，其架构不同于传统的GPU。

　　这次，英伟达将面临激烈竞争。众多初创公司正在研发旨在比英伟达芯片更快速、更高效运行AI模型的产品。

　　训练和推理对硬件的要求截然不同。训练是指教会AI模型从海量原始数据中识别模式，它依赖于大规模并行运算。以英伟达的旗舰产品之一B200芯片为例，它包含超过1.6万个处理单元(也称内核)来执行此类运算。

　　推理则是已训练好的模型利用训练所学来响应用户指令，其运作方式有所不同。推理分为两个阶段进行：预填充和解码。在预填充阶段，模型处理指令并将其转换为被称为“词元”(token)的文本基本单位。为加快速度，查询内容的不同部分可以并行处理。解码阶段再逐个词元地生成响应。为此，模型依赖其“权重”(训练期间习得的词元之间的关联)以及之前生成的词元。这些权重存储在系统内存中。

　　处理持续的内存访问需求正是现代GPU的短板所在。像B200这样的AI处理器包含容量小但速度极快的片上内存(SRAM)，以及容量大得多的片外内存(DRAM)。访问片外内存速度可能比读取片上内存慢十倍，且能耗高得多。这一问题日益严峻。随着AI模型规模不断扩大，处理长指令的能力日益增强，它们对内存的需求急剧上升。美国加利福尼亚大学伯克利分校的阿米尔·古拉米及其同事的研究发现，过去20年，计算性能大约每几年就提升为原来的三倍，而同期片外内存带宽仅优化为原来的约1.6倍。这堵“内存墙”已成为提升AI推理速度的主要障碍。

　　GPU依靠软件层面的变通方案来应对这一问题。一种方式是将预填充和解码这两个阶段拆分到不同的处理器上运行。预填充阶段在针对高并行计算能力优化的GPU上运行，而解码阶段在专为快速内存访问设计的独立GPU上运行。另一种技术是批处理，即将多个查询集中处理。一旦模型的权重被加载，就可以同时用于多个查询，减少对外部内存的重复访问。

　　英伟达的新芯片借助软件技术来提升片上内存的性能。其片上内存容量约为500MB，与B200芯片192GB的片外内存相比微不足道。其过人之处在于，通过智能软件精确编排每一条数据在芯片中的移动路径，从而最大限度地提高计算效率和内存访问速度。

　　初创公司正在尝试更具颠覆性的设计，不过最终胜负尚未分晓。英伟达的竞争对手仍处于不同阶段。塞雷布拉斯系统公司已推出其第三代芯片；d-Matrix公司预计在今年发布其首个广泛供应的版本；马特克斯公司和埃彻德公司等其他公司的产品仍在开发中。英伟达表示，Groq 3 LPX将于今年晚些时候上市。GPU征服了训练，这有目共睹；而“推理”领域接下来将发生什么，则要难以预测得多。（胡溦）

[ 责编：田津金 ]

阅读剩余全文（）