Slide
Slide
previous arrow
next arrow

Red Hat推出推理服務器 vLLM普及AI成本下降

RedHat-vLLM
與傳統的靜態批次不同,靜態批次等待批次中的所有序列完成(由於輸出長度可變且導致 GPU 利用率不足,因此效率低下),連續批次在每次迭代時都會動態地用新序列替換已完成的序列。

[RedHat][vLLM]

人工智能的主要算力都是用在推理(Inference)方面,如何降低推理成本和提高推理效率,一直是業界最關心AI問題。

vLLM(Virtual Large Language Model)是加大柏克萊分校 2023 年開發LLM大語言模型推理框架並開源, 提供高輸送量的LLM推理並大大降低GPU記憶用量,迅速成為最受關注的開源項目。 Continue reading “Red Hat推出推理服務器 vLLM普及AI成本下降”