点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

参考消息网3月20日报道据英国《经济学人》周刊网站3月18日报道,计算机芯片制造商英伟达目前是全世界市值最高的公司。它的成功要归功于图形处理器(GPU)的多种用途,这种芯片是英伟达于20世纪90年代后期率先推出的。GPU最初是为了提升电子游戏画质而设计,后来人们发现它在训练大语言模型(LLM)方面表现出色。这一发现令市场对英伟达芯片的需求及公司估值一路飙升。
时代瞬息万变。对人工智能(AI)计算的需求正从训练模型转向让模型解答现实世界的问题——这个过程被称为推理。麦肯锡咨询公司估计,到21世纪20年代末,推理将占据AI数据中心算力需求的五分之三。英伟达似乎也意识到了这一转变。3月16日,该公司发布了一款专为推理任务设计的新芯片Groq 3 LPX,其架构不同于传统的GPU。
这次,英伟达将面临激烈竞争。众多初创公司正在研发旨在比英伟达芯片更快速、更高效运行AI模型的产品。
训练和推理对硬件的要求截然不同。训练是指教会AI模型从海量原始数据中识别模式,它依赖于大规模并行运算。以英伟达的旗舰产品之一B200芯片为例,它包含超过1.6万个处理单元(也称内核)来执行此类运算。
推理则是已训练好的模型利用训练所学来响应用户指令,其运作方式有所不同。推理分为两个阶段进行:预填充和解码。在预填充阶段,模型处理指令并将其转换为被称为“词元”(token)的文本基本单位。为加快速度,查询内容的不同部分可以并行处理。解码阶段再逐个词元地生成响应。为此,模型依赖其“权重”(训练期间习得的词元之间的关联)以及之前生成的词元。这些权重存储在系统内存中。
处理持续的内存访问需求正是现代GPU的短板所在。像B200这样的AI处理器包含容量小但速度极快的片上内存(SRAM),以及容量大得多的片外内存(DRAM)。访问片外内存速度可能比读取片上内存慢十倍,且能耗高得多。这一问题日益严峻。随着AI模型规模不断扩大,处理长指令的能力日益增强,它们对内存的需求急剧上升。美国加利福尼亚大学伯克利分校的阿米尔·古拉米及其同事的研究发现,过去20年,计算性能大约每几年就提升为原来的三倍,而同期片外内存带宽仅优化为原来的约1.6倍。这堵“内存墙”已成为提升AI推理速度的主要障碍。
GPU依靠软件层面的变通方案来应对这一问题。一种方式是将预填充和解码这两个阶段拆分到不同的处理器上运行。预填充阶段在针对高并行计算能力优化的GPU上运行,而解码阶段在专为快速内存访问设计的独立GPU上运行。另一种技术是批处理,即将多个查询集中处理。一旦模型的权重被加载,就可以同时用于多个查询,减少对外部内存的重复访问。
英伟达的新芯片借助软件技术来提升片上内存的性能。其片上内存容量约为500MB,与B200芯片192GB的片外内存相比微不足道。其过人之处在于,通过智能软件精确编排每一条数据在芯片中的移动路径,从而最大限度地提高计算效率和内存访问速度。
初创公司正在尝试更具颠覆性的设计,不过最终胜负尚未分晓。英伟达的竞争对手仍处于不同阶段。塞雷布拉斯系统公司已推出其第三代芯片;d-Matrix公司预计在今年发布其首个广泛供应的版本;马特克斯公司和埃彻德公司等其他公司的产品仍在开发中。英伟达表示,Groq 3 LPX将于今年晚些时候上市。GPU征服了训练,这有目共睹;而“推理”领域接下来将发生什么,则要难以预测得多。(胡溦)
