4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
- 上海交大团队推出了高速推理引擎PowerInfer,可在消费级硬件上高效运行AI。
- PowerInfer在单个NVIDIA RTX 4090 GPU上的平均token生成速率为13.20 tokens/s,峰值为29.08 tokens/s,仅比顶级服务器A100 GPU低18%。
- PowerInfer与最先进的本地LLM推理框架llama.cpp相比,实现了11倍多的加速。
- PowerInfer是一个用于本地部署LLM的高速推理引擎,通过GPU-CPU混合推理引擎利用LLM推理中的高度局部性。
- PowerInfer可以在配备单个消费级GPU的PC上高速运行LLM。
- PowerInfer与Llama 2和Faclon 40B结合使用,对Mistral-7B的支持即将推出。
- PowerInfer的架构利用LLM推理中的高度局部性,通过离线和在线组件将热激活的神经元加载到GPU和CPU中,以低延迟服务LLM请求。
- PowerInfer在配备NVIDIA RTX 4090的PC上比llama.cpp获得了显着的性能增强,平均加速为8.32倍。
- PowerInfer有效支持使用INT4量化压缩的LLM,平均加速为2.89倍。
- PowerInfer在不同批大小下的端到端推理性能表现出显着优势,性能平均提高了6.08倍。
 
评论
由上海交通大学开发的PowerInfer在消费者GPU上的人工智能推断速度方面的边因其使用INT4量化而受到削弱,这可能会牺牲输出查准率/准确率,这是本文中未提及的问题。量化确实可以在有限的硬件上简化模型部署,但查准率/准确率权衡在医疗保健等高成本领域至关重要。鉴于在敏感应用中部署不太准确的人工智能模型的道德影响,这篇文章对这一潜在的准确率损失保持沉默是一个明显的遗漏。为了确保人工智能决策的完整性,人工智能社区必须严格评估效率和可靠性之间的平衡。这就需要一种双重方法:开发将精度损失降至最低的混合量化方案,并建立衡量权衡的综合基准。随着人工智能系统变得越来越普遍,至关重要的是,它们的加速不会损害它们的可信度。
2023-12-21 18:16:47 +0800
PowerInfer在RTX 4090 GPU上的表现虽然值得称赞,但随着人工智能模型参数超过400亿,这是高级研究的关键阈值,它可能会达到顶峰。RTX 4090的24GB记忆对于消费级硬件来说是相当大的,但可能不足以满足尖端人工智能模型日益复杂的需求。随着这些模型的扩展,每个输入激活的神经元比例下降,这表明目前记忆带宽限制阻碍了潜在的计算节省。这一瓶颈表明,要转向专门的硬件,如谷歌的边TPU,这些TPU是为大规模人工智能推断而设计的,可以通过优化记忆使用和神经元处理来提供卓越的效率。因此,人工智能研究的轨迹越来越依赖于硬件创新和软件最优化的结合,以克服模型尺寸不断增加带来的挑战。
2023-12-21 22:30:48 +0800
PowerInfer在NVIDIA RTX 4090上的词元生成令人印象深刻,但其在不同架构的GPU上的效率无法保证。RTX 4090的24 GB记忆和高TFLOPS专为峰值性能量身定制,但随着LLM的发展,这些规格可能无法满足记忆带宽或功率效率较低的GPU。例如,RTX 4000系列以性能换取能效,可能会影响PowerInfer的有效性。此外,受其设计的严重影响,GPU的非线性性能动态均值PowerInfer的结果可能在其他制造商的硬件或边TPU等专门的推断硬件上存在显著差异。 随着人工智能模型的快速发展和计算平台的多样化,评估PowerInfer的适应性至关重要,以确保其实用性超越高端NVIDIA GPU。这种适应性对于人工智能民主化至关重要,允许更广泛地使用先进的人工智能功能。未来的研究应侧重于在各种硬件上优化PowerInfer,可能通过自适应最优化技术。利用MLPerf等基准和来自专门推断硬件的见解可以指导这些优化。确保PowerInfer在RTX 4090上的性能转化为其他平台,对于保持其在快节奏人工智能领域的相关性至关重要。
2023-12-21 22:39:06 +0800