1. 首页
  2. 令爷课程
  3. AIGC应用

4.3 【prompt教程6】系统地测试更改

系统地测试更改

如果你能测量它,提高性能就更容易了。在某些情况下,对提示的修改将在一些孤立的例子中实现更好的性能,但在一组更具代表性的例子上会导致整体表现更差。因此,为了确保变化对性能是净正的,可能需要定义一个全面的测试套件(也称为“评估”)。

有时很难判断变化——例如,新指令或新设计——是否使您的系统变得更好或更糟。看几个例子可能会暗示哪个更好,但样本量小,很难区分真正的改进或随机运气。也许这种变化有助于一些输入的性能,但损害了其他输入的性能。.3

参考黄金标准答案评估模型输出

假设知道一个问题的正确答案应该参考一组特定的已知事实。然后,我们可以使用模型查询来计算答案中包含多少必要的事实。.3

  • 较糟糕的例子:“回答这个问题并告诉我它的正确性。”
  • 较好的例子:“回答这个问题,并将你的答案与黄金标准答案进行比较,以评估其准确性。”

原创文章,作者:曾确令,如若转载,请注明出处:https://www.zengqueling.com/10promptjiaocheng6xi/

联系我们

15602395067

在线咨询:点击这里给我发消息

邮件:eden7@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code