在解决了“能或不能”的问题之后,推理成本是大语言模型落地后最关键的挑战。
英特尔至强6性能核处理器:降低大模型推理成本的关键
本文分析了英特尔至强6性能核处理器在降低大语言模型推理成本方面的优势,主要围绕其内存控制器设计、NUMA架构以及对MRDIMM的支持展开。
至强6性能核处理器的内核数量和内存控制器
文章首先推测了至强6性能核处理器的内核数量约为44个/芯片,并指出其内存控制器占据的芯片面积远超预期,这可能是由于支持MRDIMM(多路复用数据缓冲器)以及其他未知功能导致的。 英特尔在内存控制器上的投入巨大,使其在一段时间内能够独占MRDIMM的优势。
至强6性能核处理器的NUMA与集群模式
至强6性能核处理器采用NUMA架构,每个计算单元芯片作为一个SNC(Sub-NUMA Clustering)域,拥有4个内存通道。SNC3模式(默认模式)适合虚拟化/容器化应用和并行化程度高的计算,而HEX模式则可以访问更大规模内存,有利于大型数据库和部分科学计算应用,以及配合CXL内存使用。
MRDIMM:提升内存带宽的关键
文章重点介绍了MRDIMM技术,它通过多路复用数据缓冲器(MDB)和改进的寄存时钟驱动器(MRCD)将内存带宽翻倍。MRDIMM支持更高的板型和更大的内存容量,配合至强6900P的大插座尺寸,可以实现6TB的内存容量。虽然轻量级应用可能无法充分利用其带宽优势,但对于计算密集型应用,如AI训练和推理,其性能提升显著。
内存带宽与大模型推理
文章指出,在低精度量化后,大语言模型推理的算力瓶颈不再突出,内存容量和带宽成为决定并发数量和token响应速度的关键因素。MRDIMM可以大幅提升大语言模型推理性能,测试表明提升幅度超过30%。与上一代至强处理器相比,至强6972P在Llama 3 8B推理任务中性能提升至少2.4倍,这主要归功于内存带宽的显著提升。
结语:降低推理成本的解题思路
至强6性能核处理器结合MRDIMM和CXL技术,大幅提升了内存带宽和容量,显著利好AI训练、大型数据库等应用。其在CPU推理方面的优势,包括可获得性、资源弹性以及成本优势,使其成为降低大语言模型推理成本的重要方案。在“能或不能”的问题解决后,推理成本成为大模型落地的关键挑战,至强6性能核处理器配MRDIMM的组合或将提供新的解题思路。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。