返回文章列表

应用开发 ·

大模型应用评测基础

记录大模型应用评测的基本维度,包括正确性、稳定性、引用质量和失败样例分析。

Evaluation LLM Benchmark

为什么要评测

大模型应用不能只看演示效果。稳定性、边界条件、事实性和用户输入变化都会影响最终体验,因此需要有持续评测。

评测维度

  1. 答案是否正确。
  2. 输出格式是否稳定。
  3. 是否引用了可靠来源。
  4. 失败样例是否能复现。
  5. 改 prompt 或模型后是否出现回归。

实践方式

先建立一个小型测试集,把典型问题、边界问题和高风险问题都放进去。每次修改 prompt、检索策略或模型版本后,都跑一遍回归检查。