应用开发 · 2026/03/10

大模型应用评测基础

记录大模型应用评测的基本维度，包括正确性、稳定性、引用质量和失败样例分析。

Evaluation LLM Benchmark

为什么要评测

大模型应用不能只看演示效果。稳定性、边界条件、事实性和用户输入变化都会影响最终体验，因此需要有持续评测。

先建立一个小型测试集，把典型问题、边界问题和高风险问题都放进去。每次修改 prompt、检索策略或模型版本后，都跑一遍回归检查。