根据自己的使用体验,总结如下:
LM Studio
在 windows 上表现很好, 性能不错, 有桌面客户端。
Ollama
我不明白为什么很多人会推荐 Ollama,可能是使用简单,方便新手按照教程复制指令就能下载模型并运行起来?
尽管 Ollama 和 LM Studio 一样,底层都是基于 llama.cpp,但在使用过程中,性能和稳定性明显不如 LM Studio。
vLLM
从技术架构、性能、并发、工业级能力上看,vLLM 比 Ollama、LM Studio 更先进、更现代,这是生产级与玩具级的区别。
- 基于 PyTorch + CUDA/HIP,深度优化 NVIDIA GPU。
- 核心技术:PagedAttention(分页注意力)。
- 借鉴操作系统虚拟内存,把 KV 缓存分块,显存利用率 >95%。
- 内存碎片 <4%,支持超长文本、高并发。
- 支持连续批处理(Continuous Batching)、动态批处理。
vLLM 的问题是对于非技术用户比较麻烦,安装、配置环境、下载模型、使用模型都比较复杂,但如果你能解决这一点,那么你可以使用它来最大化释放本地显卡的潜力。
如何选择?
- Ollama 从不在我的选择范围之内。
- 选择 LM Studio,比如必须使用 GGUF 格式的模型文件。
- 选择 vLLM,比如在服务器上部署企业级服务。