首页 · 开源工具 · LLM 与服务化

LLM 与服务化

从本机试玩到高吞吐 API 服务，覆盖常见私有化与推理栈。

Ollama — 本地拉取与运行权重，命令行与 API 友好。
vLLM — 高吞吐 LLM 推理与服务（PagedAttention 等）。
llama.cpp — C/C++ 推理，端侧与嵌入式常用。
TGI — Hugging Face 文本生成推理服务。
LiteLLM — 统一 OpenAI 兼容网关，代理多家云与本地模型。
LocalAI — 自托管 OpenAI 兼容 API，便于局域网内统一接入。

硬件与许可证要求因项目而异，生产环境请做安全审计。