4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

- 上海交大团队推出了高速推理引擎PowerInfer,可在消费级硬件上高效运行AI。 - PowerInfer在单个NVIDIA RTX 4090 GPU上的平均token生成速率为13.20 tokens/s,峰值为29.08 tokens/s,仅比顶级服务器A100 GPU低18%。 - PowerInfer与最先进的本地LLM推理框架llama.cpp相比,实现了11倍多的加速。 - PowerInfer是一个用于本地部署LLM的高速推理引擎,通过GPU-CPU混合推理引擎利用LLM推理中的高度局部性。 - PowerInfer可以在配备单个消费级GPU的PC上高速运行LLM。 - PowerInfer与Llama 2和Faclon 40B结合使用,对Mistral-7B的支持即将推出。 - PowerInfer的架构利用LLM推理中的高度局部性,通过离线和在线组件将热激活的神经元加载到GPU和CPU中,以低延迟服务LLM请求。 - PowerInfer在配备NVIDIA RTX 4090的PC上比llama.cpp获得了显着的性能增强,平均加速为8.32倍。 - PowerInfer有效支持使用INT4量化压缩的LLM,平均加速为2.89倍。 - PowerInfer在不同批大小下的端到端推理性能表现出显着优势,性能平均提高了6.08倍。

评论