部署实践 · 2026/02/01

本地部署大模型

记录本地推理环境、量化模型、推理服务和资源评估的基础路径。

Deployment Quantization Inference

为什么要本地部署

本地部署适合学习推理链路、保护私有数据、降低实验成本，也方便验证 RAG、Agent 和微调模型的端到端效果。

部署前要估算显存、上下文长度、吞吐、首 token 延迟和并发需求。一个可用系统的关键不是“能跑”，而是稳定、可监控、可恢复。