应用开发 ·
大模型应用评测基础
记录大模型应用评测的基本维度,包括正确性、稳定性、引用质量和失败样例分析。
Evaluation LLM Benchmark
为什么要评测
大模型应用不能只看演示效果。稳定性、边界条件、事实性和用户输入变化都会影响最终体验,因此需要有持续评测。
评测维度
- 答案是否正确。
- 输出格式是否稳定。
- 是否引用了可靠来源。
- 失败样例是否能复现。
- 改 prompt 或模型后是否出现回归。
实践方式
先建立一个小型测试集,把典型问题、边界问题和高风险问题都放进去。每次修改 prompt、检索策略或模型版本后,都跑一遍回归检查。