
[RedHat][vLLM]
人工智能的主要算力都是用在推理(Inference)方面,如何降低推理成本和提高推理效率,一直是業界最關心AI問題。
vLLM(Virtual Large Language Model)是加大柏克萊分校 2023 年開發LLM大語言模型推理框架並開源, 提供高輸送量的LLM推理並大大降低GPU記憶用量,迅速成為最受關注的開源項目。
vLLM優化記憶體管理與分配運算能力,作業系統級記憶體分頁機制PagedAttention和連續批次處理(Continuous Batching),改善 CUDA效率和解碼能力,張量並行(Tensor Parallelism)和流水線並行(Pipeline Parallelism),在多 GPU 環境下高效分配計算等,例如在LLaMA-13B 模型的GPU佔用降低 32%,在 LLaMA-7B 和 LLaMA-13B 測試中,輸送量比 Hugging Face Transformers 高 8.5-24 倍,比 TGI 高 2.2-3.5 倍,延遲降低近一半。
vLLM屬於開源項目,2025 年發佈的V1 版本長上下文場景吞吐量再快了 1.7 倍,GitHub 上獲星高達21.8k,獲多家AI科企NVIDIA、Google Cloud、紅帽(Red Hat)贊助,美國Neural Magic 是 vLLM 貢獻者之一,去年底被Red Hat所收購。
Red Hat己推出了RHEL AI 基礎模型開發、測試和運行平台,主要用於LLM模型,開發與管理,最近宣佈推出AI推理服務器(Red Hat AI Inference Server),推理解決方案,可以在為混合雲環境提供極高效率和低成本 AI 推理,技術上Red Hat AI Inference Server整合結合vLLM 開源社群和Neural Magic專有技術,推動vLLM 為跨混合雲推理開放標準。
Neural Magic可在任何雲運算和 AI 加速環境執行生成式 AI ,支援RHEL AI和OpenShift AI整合,Red Hat AI Inference Server可壓縮與優化模型,提供經強化的 vLLM 版本,優點是可減少模型體積,並降低算力消耗提升推理效率,而且可部署在其他的Linux版本 和開放 Kubernetes 平台,為企業提供通用的推理層,支援不同環境加速不同的模型,以混合雲提供高效率和經濟 AI 推理服務。
Neural Magic 維護 vLLM 開源社區的優化分支 nm – vllm,原理是於將經量化和稀疏性技術應用在LLM推理,加入 GPTQ、SparseGPT 等技術,保持高精度又顯著提高運行速度和記憶體使用率。Neural Magic經過運算稀疏性、剪枝、量化優化LLM, 原理踏甚至有通用性,竟然可加速YOLO 視覺運算(CV)推理,在 YOLO11n 推理速度可達 525FPS,甚至CPU 上就可實現類似 GPU 性能,相當神奇。
Neural Magic 的 DeepSparse 推理引擎就是專為 CPU 設計,YOLOv5s 在 CPU 上的處理速度達 241 FPS,遠超 ONNX Runtime 的 42 FPS,YOLOv5s 在支援 VNNI 的 CPU 上,推理速度可達 180 FPS,也是 ONNX Runtime 的 3.7 倍,Neural Magic的SparseML甚至可與 Ultralytics YOLO 集成,以CLI 命令實現剪枝和量化,部署時更無需複雜代碼。
YOLO(You Only Look Once)即時目標檢測的最重要演算法, GitHub 上的 獲星的數量已超 46.5k,成為視覺運算最受歡迎的開源項目,而且在Stack Overflow 等討論熱度長期位居目標檢測演算法的首位,Neural Magic 的 nm-vllm相信亦會廣泛應用在視覺運算。
vLLM成經成為了 開源社區AI 推理標凖,結合到Linux生態, Google Cloud、NVIDIA和 Red Hat等 多家企业成立了 llm-d 開源社区,制定分布式推理 API 规范和性能標准,llm-d 的 AI 感知网络路由协议亦被纳入 Kubernetes SIG AI 标准提案。Red Hat表示會大力推動大規模分散式推理的 llm-d,相信有助AI推理成本進一步下降。