LLM 与服务化
从本机试玩到高吞吐 API 服务,覆盖常见私有化与推理栈。
- Ollama — 本地拉取与运行权重,命令行与 API 友好。
- vLLM — 高吞吐 LLM 推理与服务(PagedAttention 等)。
- llama.cpp — C/C++ 推理,端侧与嵌入式常用。
- TGI — Hugging Face 文本生成推理服务。
- LiteLLM — 统一 OpenAI 兼容网关,代理多家云与本地模型。
- LocalAI — 自托管 OpenAI 兼容 API,便于局域网内统一接入。
硬件与许可证要求因项目而异,生产环境请做安全审计。