如何测试和评估 Prompt
建立系统化的 Prompt 测试和评估流程,从手动测试到自动化评估,确保 Prompt 在上线前达到质量标准。
评估框架搭建
一个完整的 Prompt 评估框架包含:
1. 测试数据集:
- 正常用例(覆盖主要场景)
- 边界用例(极端输入、空输入、超长输入)
- 对抗用例(注入攻击、越狱尝试)
- 数量建议:至少 50 条,理想 200+ 条
2. 评估指标:
- 准确性:答案是否正确
- 格式合规:是否符合指定格式
- 完整性:是否覆盖所有要点
- 安全性:是否包含有害内容
- 一致性:多次调用结果是否稳定
3. 评估方法:
- 规则匹配(适合格式检查)
- LLM-as-Judge(适合质量评估)
- 人工评估(适合主观质量)
LLM-as-Judge 方法
使用另一个 LLM 作为评判者来自动评估 Prompt 输出质量:
评判 Prompt 模板:
请评估以下 AI 回答的质量。
用户问题:{question}
AI 回答:{answer}
参考答案:{reference}(可选)
评估维度(每项 1-5 分):
1. 准确性:信息是否正确
2. 相关性:是否回答了问题
3. 完整性:是否遗漏重要信息
4. 清晰度:表达是否清楚
注意事项:
- 评判模型应该比被评估模型更强
- 需要校准评判标准(提供评分示例)
- 考虑评判者偏见(位置偏见、长度偏见)
A/B 测试实践
在生产环境中对比不同 Prompt 版本的效果:
实施步骤:
1. 确定评估指标(转化率、用户满意度、任务完成率)
2. 设置流量分配(通常 50/50 或 90/10)
3. 确保样本量足够(至少 1000 次调用)
4. 运行足够长时间(至少 1 周)
5. 统计显著性检验(p < 0.05)
注意事项:
- 同一用户在测试期间应该看到同一版本
- 排除异常数据(如爬虫流量)
- 记录所有变量,确保只改变了 Prompt
持续监控
Prompt 上线后的持续质量监控:
监控指标:
- 输出质量分数(定期采样评估)
- 格式错误率(JSON 解析失败等)
- 用户反馈(点赞/点踩比例)
- Token 消耗趋势
- 延迟分布
告警规则:
- 质量分数下降超过 10%
- 格式错误率超过 5%
- 用户负面反馈率超过 20%
定期维护:
- 每月审查评估数据集,补充新场景
- 每季度进行红队测试
- 模型更新时重新评估所有 Prompt