GPU 的替代者:LPU 的奥秘

随着人工智能技术的飞速发展,大语言模型等应用对硬件算力的要求越来越高。传统的 GPU 虽然在人工智能领域发挥了重要作用,但其架构主要针对训练工作负载进行优化,在推理任务中逐渐暴露出一些局限性。在此背景下,LPU 作为一种专为推理而设计的硬件,逐渐走进人们的视野,被视为 GPU 的有力替代者。

LPU,即 Language Processing Unit(语言处理单元),是由初创公司 Groq 开发的 AI 推理芯片。它是一种新型的端到端处理单元系统,旨在为大语言模型 LLM 等计算密集型应用程序提供最快的推理服务。

从架构设计来看,LPU 具有诸多独特之处。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构。这一架构使得 LPU 无需像 GPU 那样频繁地从内存中加载数据,有助于避免高带宽存储器(HBM)短缺的问题,还能有效降低成本。LPU 集成了数百兆片上 SRAM 作为主权重存储器,而非缓存。SRAM 的速度比 GPU 所用的存储器快约 20 倍,这使得 LPU 在处理数据时能够更快地读取和写入信息,大大提高了处理效率,同时显著降低了访问延迟。

在数值处理方面,LPU 运用了 TruePoint Numerics 技术。传统加速器为了追求速度,常通过激进的量化使模型进入 INT8 或更低精度的数值,这会导致质量损失。而 TruePoint 技术是一种仅在不降低准确度的区域降低精度的方法。结合 LPU 架构,该技术能够在保持高精度数值的同时维持质量。TruePoint 格式存储 100 位中间累积,可保证无损累积,使得 LPU 可以以较低精度存储权重和激活函数,同时以全精度执行矩阵运算,再根据下游误差敏感度选择性地量化输出。

LPU 的执行模型也与 GPU 不同。GPU 架构依赖动态调度,会引入非确定性延迟。而 LPU 的编译器会预先计算整个执行图,包括芯片间通信模式,直至单个时钟周期,采用静态调度。这种方式可以消除缓存一致性协议、重新排序缓冲区、推测执行开销和运行时协调延迟等,还能实现无尾延迟的张量并行和张量并行之上的流水线并行,让计算更加高效。

在并行策略上,LPU 专为张量并行而构建。它将每一层划分到多个 LPU 上,通过这种方式,单次前向传递能更快完成,可有效降低延迟,适合实时应用。对于推测解码,LPU 采用独特的架构设计,能够通过流水线并行更高效地处理推测性 token 批次的验证,加快验证步骤的处理速度,并支持每个流水线阶段接受多个 token,为推理带来复合性能提升。

此外,LPU 在能效方面也具有优势。通过减少多线程管理的开销和避免核心资源的未充分利用,LPU 能够实现更高的每瓦特计算性能,在执行推理任务时,消耗的电量低于英伟达的 GPU。

从性能表现来看,LPU 十分亮眼。在 Meta Llama 2-70B 推理任务中,LPU 相较英伟达 H100 实现了 10 倍性能提升,推理成本降低 80%。在处理速度上,LPU 曾达到每秒 500 token,比 GPT-4 快 18 倍,远超其他使用 GPU 驱动的 AI 云服务提供商。

随着 AI 推理和硬件需求的不断增长,LPU 这种专为推理设计的硬件,凭借其在架构、性能、能效等方面的优势,有望在人工智能领域发挥越来越重要的作用,为 AI 推理带来全新的体验,成为推动人工智能发展的重要力量,也让我们对未来 AI 硬件的发展有了更多的期待。

为您推荐