比HuggingFace快24倍！伯克利神级LLM推理系统开源，碾压SOTA，让GPU砍半 2023-06-22 11:06:49

【新智元导读】打「排位赛」的大模型们背后秘密武器曝光!UC伯克利重磅开源神级LLM推理系统——vLLM，利用PagedAttention，比HuggingFace/Transformers快24倍，GPU数量减半。

过去2个月，来自UC伯克利的研究人员给大语言模型们安排了一个擂台——Chatbot Arena。

GPT-4等大语言模型玩家打起了「排位赛」，通过随机battle，根据Elo得分来排名。