如何测试和评估 Prompt

建立系统化的 Prompt 测试和评估流程，从手动测试到自动化评估，确保 Prompt 在上线前达到质量标准。

评估框架搭建

一个完整的 Prompt 评估框架包含：

1. 测试数据集：
- 正常用例（覆盖主要场景）
- 边界用例（极端输入、空输入、超长输入）
- 对抗用例（注入攻击、越狱尝试）
- 数量建议：至少 50 条，理想 200+ 条

2. 评估指标：
- 准确性：答案是否正确
- 格式合规：是否符合指定格式
- 完整性：是否覆盖所有要点
- 安全性：是否包含有害内容
- 一致性：多次调用结果是否稳定

3. 评估方法：
- 规则匹配（适合格式检查）
- LLM-as-Judge（适合质量评估）
- 人工评估（适合主观质量）

使用另一个 LLM 作为评判者来自动评估 Prompt 输出质量：

评判 Prompt 模板：
请评估以下 AI 回答的质量。

用户问题：{question}
AI 回答：{answer}
参考答案：{reference}（可选）

评估维度（每项 1-5 分）：
1. 准确性：信息是否正确
2. 相关性：是否回答了问题
3. 完整性：是否遗漏重要信息
4. 清晰度：表达是否清楚

注意事项：
- 评判模型应该比被评估模型更强
- 需要校准评判标准（提供评分示例）
- 考虑评判者偏见（位置偏见、长度偏见）

在生产环境中对比不同 Prompt 版本的效果：

实施步骤：
1. 确定评估指标（转化率、用户满意度、任务完成率）
2. 设置流量分配（通常 50/50 或 90/10）
3. 确保样本量足够（至少 1000 次调用）
4. 运行足够长时间（至少 1 周）
5. 统计显著性检验（p < 0.05）

注意事项：
- 同一用户在测试期间应该看到同一版本
- 排除异常数据（如爬虫流量）
- 记录所有变量，确保只改变了 Prompt

Prompt 上线后的持续质量监控：

监控指标：
- 输出质量分数（定期采样评估）
- 格式错误率（JSON 解析失败等）
- 用户反馈（点赞/点踩比例）
- Token 消耗趋势
- 延迟分布

告警规则：
- 质量分数下降超过 10%
- 格式错误率超过 5%
- 用户负面反馈率超过 20%

定期维护：
- 每月审查评估数据集，补充新场景
- 每季度进行红队测试
- 模型更新时重新评估所有 Prompt