快速工程

通过及时的工程策略增强结果。

本指南分享了从 GPT-4o 等大型语言模型(有时称为 GPT 模型)中获得更好的结果的策略和战术。此处描述的方法有时可以组合部署以获得更大的效果。我们鼓励您进行实验,以找到最适合您的方法。

您还可以浏览示例提示,这些提示展示了我们的模型的功能:

提示示例

探索提示示例以了解 GPT 模型可以做什么

获得更好结果的 6 种策略

编写清晰的说明

这些模型无法读取您的心思。如果输出太长,请要求简短的回复。如果输出太简单,请要求专家级写作。如果您不喜欢该格式,请演示您希望看到的格式。模型对你想要什么的猜测越少,你得到它的可能性就越大。

策略:

提供参考文本

语言模型可以自信地发明虚假答案,尤其是在被问及深奥的话题或引文和 URL 时。就像一张笔记可以帮助学生在考试中取得更好的成绩一样,为这些模型提供参考文本可以帮助减少捏造的答案。

策略:

将复杂任务拆分为更简单的子任务

正如软件工程中将复杂系统分解为一组模块化组件是一种很好的实践一样,提交给语言模型的任务也是如此。复杂任务往往比简单任务具有更高的错误率。此外,复杂任务通常可以重新定义为简单任务的工作流,其中早期任务的输出用于构建后续任务的输入。

策略:

给模型时间 “思考”

如果要求您将 17 乘以 28,您可能无法立即知道,但仍然可以随着时间的推移而计算出来。同样,模型在尝试立即回答时,而不是花时间找出答案时,会犯更多的推理错误。在答案之前询问 “思维链” 可以帮助模型更可靠地推理出正确答案的方式。

策略:

使用外部工具

通过向模型提供其他工具的输出来补偿模型的弱点。例如,文本检索系统(有时称为 RAG 或检索增强生成)可以告诉模型相关文档。像 OpenAI 的 Code Interpreter 这样的代码执行引擎可以帮助模型进行数学运算和运行代码。如果可以通过工具而不是语言模型更可靠或更高效地完成任务,请卸载它以获得两者的最佳效果。

策略:

系统地测试更改

如果您可以衡量性能,那么提高性能会更容易。在某些情况下,对提示的修改将在几个孤立的示例上获得更好的性能,但会导致在更具代表性的示例集上的整体性能更差。因此,为了确保更改对性能产生净积极影响,可能需要定义一个全面的测试套件(也称为 “评估”)。

策略:

策略

上面列出的每个策略都可以使用特定的策略进行实例化。这些策略旨在为尝试提供想法。它们绝不是完全全面的,您应该随意尝试此处未介绍的创意。

策略文章: 写出清晰的指示

策略:在查询中包含详细信息以获取更相关的答案

为了获得高度相关的响应,请确保请求提供任何重要的详细信息或上下文。否则,你就让模型来猜测你的意思。

更 糟更好
如何在 Excel 中添加数字?如何在 Excel 中将一行美元金额相加?我想对整张行自动执行此操作,所有总计都位于名为 “Total” 的列中的右侧。
谁是总统?谁是 2021 年的墨西哥总统,选举多久举行一次?
编写代码来计算斐波那契数列。编写一个 TypeScript 函数来有效地计算斐波那契数列。对代码进行大量注释,以解释每个部分的作用以及为什么以这种方式编写。
总结会议记录。将会议记录汇总在一个段落中。然后写下演讲者及其每个关键点的 markdown 列表。最后,列出演讲者建议的后续步骤或行动项目(如果有)。

策略:要求模型采用角色

系统消息可用于指定模型在其回复中使用的角色。

系统
当我请求帮助写东西时,你会回复一个文档,每段至少包含一个笑话或俏皮的评论。
用户
给我的钢螺栓供应商写一封感谢信,感谢他们按时、在短时间内交货。这使我们能够交付一个重要的订单。

策略:使用分隔符清楚地指示输入的不同部分

三引号、XML 标签、章节标题等分隔符可以帮助划分要区别对待的文本部分。

用户
用俳句总结由三引号分隔的文本。 “”“在此处插入文本”“”
系统
您将获得一对关于同一主题的文章(用 XML 标签分隔)。首先总结每篇文章的论点。然后指出其中哪一个提出了更好的论点并解释原因。
用户
<文章>在此处插入第一篇文章 </article> <文章>在此处插入第二篇文章 </article>
系统
您将获得一份论文摘要和建议的标题。论文标题应该让读者对论文主题有一个很好的了解,但也应该引人注目。如果标题不符合这些标准,请建议 5 个备选方案。
用户
摘要:在此处插入摘要 title: 在此处插入标题

对于诸如此类的简单任务,使用分隔符可能不会对输出质量产生影响。但是,任务越复杂,消除任务详细信息的歧义就越重要。不要让模型工作以准确理解您对他们的要求。

计划:指定完成任务所需的步骤

某些任务最好指定为一系列步骤。显式写出步骤可以使模型更容易遵循它们。

系统
使用以下分步说明来响应用户输入。 第 1 步 - 用户将为您提供三引号中的文本。将此文本总结为一句话,并带有前缀 “Summary: ”。 第 2 步 - 将第 1 步中的摘要翻译成西班牙语,并带有前缀“翻译:”。
用户
“”“在此处插入文本”“”

策略:提供示例

提供适用于所有示例的一般说明通常比逐个演示任务的所有排列更有效,但在某些情况下,提供示例可能更容易。例如,如果您打算让模型复制难以明确描述的用户查询的特定样式。这称为 “few-shot” 提示。

系统
以一致的风格回答。
用户
教我如何忍耐。
助理
划出最深山谷的河流从一个不起眼的泉水流出;最宏伟的交响曲源自一个音符;最复杂的挂毯从一条单独的线开始。
用户
教我关于海洋的知识。

策略:指定所需的输出长度

您可以要求模型生成具有给定目标长度的输出。目标输出长度可以根据单词、句子、段落、项目符号等的数量来指定。但请注意,指示模型生成特定数量的单词并不能以高精度工作。该模型可以更可靠地生成具有特定段落或项目符号数量的输出。

用户
用大约 50 个单词总结由三引号分隔的文本。 “”“在此处插入文本”“”
用户
将用三引号分隔的文本总结为 2 段。 “”“在此处插入文本”“”
用户
将用三引号分隔的文本总结为 3 个要点。 “”“在此处插入文本”“”

策略:提供参考文本

策略:指示模型使用参考文本回答

如果我们可以为模型提供与当前查询相关的可信信息,那么我们可以指示模型使用提供的信息来撰写其答案。

系统
使用提供的文章(以三引号分隔)来回答问题。如果在文章中找不到答案,请写下“I could not find an answer”。
用户
<插入文章,每个文章用三引号分隔> 问题: <在此处插入问题>

鉴于所有模型的上下文窗口都有限,我们需要某种方法来动态查找与所提出的问题相关的信息。Embeddings可用于实现高效的知识检索。有关如何实现此目的的更多详细信息,请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。

策略:指示模型使用参考文本中的引用来回答

如果输入已补充相关知识,则可以通过引用所提供文档中的段落来请求模型在其答案中添加引文。请注意,输出中的引文可以通过所提供文档中的字符串匹配以编程方式进行验证。

系统
您将获得一个由三引号分隔的文档和一个问题。您的任务是仅使用提供的文档来回答问题,并引用用于回答问题的文档段落。如果文件不包含回答此问题所需的信息,则只需写下:“信息不足”。如果提供了问题的答案,则必须用引文进行注释。使用以下格式引用相关段落 ({“citation”: ...})。
用户
“”<在此处插入文档>“”” 问题: <在此处插入问题>

策略:将复杂任务拆分为更简单的子任务

计划:使用意向分类来识别与用户查询最相关的说明

对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义固定类别和硬编码与处理给定类别中的任务相关的指令来实现。此过程还可以递归应用,以将任务分解为一系列阶段。此方法的优点是,每个查询将仅包含执行任务下一阶段所需的指令,与使用单个查询执行整个任务相比,这可以降低错误率。这还可以降低成本,因为较大的提示运行成本更高(请参阅定价信息)。

例如,假设对于客户服务应用程序,查询可以按如下方式进行有用的分类:

系统
您将获得客户服务查询。将每个查询分类为主要类别和次要类别。以 json 格式提供输出,并键入 primary 和 secondary。 主要分类:计费、技术支持、账户管理或一般查询。 计费辅助类别: - 取消订阅或升级 - 添加付款方式 - 费用说明 - 对收费提出争议 技术支持次要类别: -故障 排除 - 设备兼容性 - 软件更新 Account Management 次要类别: - 密码重置 - 更新个人信息 - 关闭账户 - 帐户安全 一般查询次要类别: - 产品信息 -定价 -反馈 - 与人交谈
用户
我需要让我的互联网再次正常工作。

根据客户查询的分类,可以向模型提供一组更具体的指令,以便它处理后续步骤。例如,假设客户需要 “故障排除” 方面的帮助。

系统
您将获得需要在技术支持环境中进行故障排除的客户服务查询。通过以下方式帮助用户: - 要求他们检查进出路由器的所有电缆是否已连接。请注意,随着时间的推移,电缆松动是很常见的。 - 如果所有电缆都已连接,但问题仍然存在,请询问他们使用的是哪种路由器型号 - 现在,您将建议他们如何重新启动他们的设备: -- 如果型号为 MTD-327J,建议他们按下红色按钮并按住 5 秒钟,然后等待 5 分钟后再测试连接。 -- 如果型号为 MTD-327S,建议他们拔下并重新插入,然后等待 5 分钟后再测试连接。 - 如果客户在重启设备并等待 5 分钟后问题仍然存在,请输出 {“IT support requested”} 将其连接到 IT 支持。 - 如果用户开始询问与此主题无关的问题,请确认他们是否要结束当前有关故障排除的聊天,并根据以下方案对其请求进行分类: <在此处插入上面的主要/次要分类方案>
用户
我需要让我的互联网再次正常工作。

请注意,已指示模型发出特殊字符串以指示聊天的状态何时更改。这使我们能够将系统变成一个状态机,其中状态决定注入哪些指令。通过跟踪状态、与该状态相关的指令,以及允许从该状态进行哪些状态转换(可选),我们可以在用户体验周围设置护栏,而这很难通过结构化程度较低的方法实现。

策略: 对于需要很长对话的对话应用程序,总结或筛选以前的对话

由于模型具有固定的上下文长度,因此用户和助手之间的对话(其中整个对话都包含在上下文窗口中)不能无限期地继续。

此问题有多种解决方法,其中之一是总结对话中的前几个回合。一旦输入的大小达到预先确定的阈值长度,这可能会触发一个查询,该查询汇总了对话的一部分,并且先前对话的摘要可以作为系统消息的一部分包含在内。或者,可以在整个对话的后台异步总结之前的对话。

另一种解决方案是动态选择与当前查询最相关的对话的先前部分。请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。

策略:分段总结长文档并递归构建完整摘要

由于模型具有固定的上下文长度,因此它们不能用于汇总长度超过上下文长度减去单个查询中生成的摘要长度的文本。

要总结一个很长的文档,比如一本书,我们可以使用一系列查询来总结文档的每个部分。章节摘要可以连接和汇总,从而生成摘要的摘要。此过程可以递归进行,直到总结出整个文档。如果有必要使用有关前面部分的信息来理解后面的部分,那么另一个有用的技巧是在总结该点的内容时,在本书中任何给定点之前包含文本的运行摘要。OpenAI 在之前的研究中使用 GPT-3 的变体研究了这种程序总结书籍的有效性。

策略:给模型时间“思考”

策略: 指示模型在匆忙得出结论之前制定自己的解决方案

有时,当我们明确指示模型在得出结论之前从第一原理进行推理时,我们会得到更好的结果。例如,假设我们想要一个模型来评估学生对数学问题的解决方案。解决这个问题最明显的方法是简单地询问模型学生的解决方案是否正确。

系统
确定学生的解决方案是否正确。
用户
问题说明: 我正在建造一个太阳能装置,我需要帮助解决财务问题。 - 土地成本 100 美元/平方英尺 - 我可以以 250 美元/平方英尺的价格购买太阳能电池板 - 我协商了一份维护合同,每年将花费我 100 美元,另外还有 10 美元/平方英尺 第一年运营的总成本与平方英尺数的函数关系是多少。 学生的解决方案:设 x 为装置的大小(以平方英尺为单位)。 1. 土地成本:100 倍 2. 太阳能电池板成本:250 倍 3. 维护成本:100,000 + 100x 总费用:100x + 250x + 100,000 + 100x = 450x + 100,000
助理
学生的解决方案是正确的。

但学生的答案其实并不正确!我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。

系统
首先找出你自己的问题解决方案。然后,将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在您自己完成问题之前,不要确定学生的解决方案是否正确。
用户
问题说明: 我正在建造一个太阳能装置,我需要帮助解决财务问题。 - 土地成本 100 美元/平方英尺 - 我可以以 250 美元/平方英尺的价格购买太阳能电池板 - 我协商了一份维护合同,每年将花费我 100 美元,另外还有 10 美元/平方英尺 第一年运营的总成本与平方英尺数的函数关系是多少。 学生的解决方案:设 x 为装置的大小(以平方英尺为单位)。 1. 土地成本:100 倍 2. 太阳能电池板成本:250 倍 3. 维护成本:100,000 + 100x 总费用:100x + 250x + 100,000 + 100x = 450x + 100,000
助理
设 x 为安装的大小(以平方英尺为单位)。 1. 土地成本:100 倍 2. 太阳能电池板成本:250 倍 3. 维护成本:100,000 + 10x 总费用:100x + 250x + 100,000 + 10x = 360x + 100,000 学生的解决方案不正确。他们在维护成本计算中犯了一个错误,使用了 100 倍而不是 10 倍。第一年运营的正确总成本是 360x + 100000。

策略:使用内心独白或一系列查询来隐藏模型的推理过程

前面的策略表明,有时模型在回答特定问题之前详细推理问题很重要。对于某些应用程序,模型用于得出最终答案的推理过程不适合与用户共享。例如,在辅导应用程序中,我们可能希望鼓励学生找出自己的答案,但模型对学生解决方案的推理过程可能会向学生揭示答案。

内心独白是一种可以用来缓解这种情况的策略。内心独白的思想是指示模型将输出中本应对用户隐藏的部分放入结构化格式中,以便于解析它们。然后,在向用户显示输出之前,将解析输出,并且只有部分输出可见。

系统
请按照以下步骤回答用户查询。 第 1 步 - 首先找出你自己的问题解决方案。不要依赖学生的解决方案,因为它可能是不正确的。将此步骤的所有工作括在三引号 (“”“) 中。 第 2 步 - 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。将此步骤的所有工作括在三引号 (“”“) 中。 第 3 步 - 如果学生犯了错误,请确定您可以在不泄露答案的情况下给学生什么提示。将此步骤的所有工作括在三引号 (“”“) 中。 第 4 步 - 如果学生犯了错误,请向学生提供上一步中的提示(三引号之外)。而不是写“第 4 步 - ...”写下 “Hint:”。
用户
问题陈述:<插入问题陈述> 学生解决方案:<插入学生解决方案>

或者,这可以通过一系列查询来实现,其中除最后一个查询外,所有查询都对最终用户隐藏其输出。

首先,我们可以要求模型自己解决问题。由于此初始查询不需要学生的解决方案,因此可以省略。这提供了额外的优势,即模型的解不会因学生尝试的解而产生偏差。

用户
<插入问题陈述>

接下来,我们可以让模型使用所有可用信息来评估学生解决方案的正确性。

系统
将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。
用户
问题陈述:“”“<插入问题陈述>”“” 您的解决方案:“”“<insert 模型生成的解决方案>”“” 学生的解决方案:“”“<插入学生的解决方案>”“”

最后,我们可以让模型使用自己的分析来构建一个有帮助的导师的角色的回复。

系统
你是一名数学导师。如果学生犯了错误,请以不透露答案的方式向学生提供提示。如果学生没有犯错,只需给他们一个鼓励性的评论。
用户
问题陈述:“”“<插入问题陈述>”“” 您的解决方案:“”“<insert 模型生成的解决方案>”“” 学生的解决方案:“”“<插入学生的解决方案>”“” 分析:“”“<插入上一步中生成的模型分析>”“”

策略:询问模型在之前的传递中是否遗漏了任何内容

假设我们正在使用一个模型来列出与特定问题相关的来源摘录。列出每个摘录后,模型需要确定它是否应该开始编写另一个摘录,或者是否应该停止。如果源文档很大,则模型通常会过早停止并且无法列出所有相关的摘录。在这种情况下,通常可以通过使用后续查询提示模型来查找它在前一轮中遗漏的任何摘录来获得更好的性能。

系统
您将获得一个由三引号分隔的文档。你的任务是选择与以下问题相关的摘录:“人工智能历史上发生了哪些重大的范式转变。 确保摘录包含解释它们所需的所有相关上下文 - 换句话说,不要提取缺少重要上下文的小片段。以 JSON 格式提供输出,如下所示: [{“excerpt”: “...”}, ... {“excerpt”: “...”}]
用户
“”<在此处插入文档>“””
助理
[{“excerpt”: “模型在这里写了一个摘录”}, ... {“excerpt”: “模型在此处写入另一个摘录”}]
用户
有更多相关的摘录吗?注意不要重复摘录。还要确保摘录包含解释它们所需的所有相关上下文 - 换句话说,不要提取缺少重要上下文的小片段。

策略:使用外部工具

计划方法:使用基于嵌入的搜索实现高效的知识检索

如果模型作为其输入的一部分提供,则模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,则向模型的输入中添加有关该电影的高质量信息(例如演员、导演等)可能会很有用。嵌入可用于实现高效的知识检索,以便可以在运行时将相关信息动态添加到模型输入中。

文本嵌入是可以测量文本字符串之间相关性的向量。相似或相关的字符串将比不相关的字符串更紧密。这一事实,以及快速向量搜索算法的存在,意味着嵌入可用于实现高效的知识检索。特别是,文本语料库可以拆分为多个块,每个块都可以嵌入和存储。然后,可以嵌入给定的查询,并执行向量搜索,以从语料库中查找与查询最相关的嵌入文本块(即在嵌入空间中最接近的文本块)。

可以在 OpenAI Cookbook 中找到示例实施。有关如何使用知识检索来最大程度地降低模型编造错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。

计划方法:使用代码执行来执行更准确的计算或调用外部 API

不能依赖语言模型本身准确地执行算术或长时间计算。在需要的情况下,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定的格式中,例如三重反引号。生成输出后,可以提取并运行代码。最后,如有必要,可以将代码执行引擎(即 Python 解释器)的输出作为下一个查询的模型的输入。

系统
你可以通过将 Python 代码括在三个反引号中来编写和执行 Python 代码,例如 '''code goes here''' 。使用此选项可执行计算。
用户
求以下多项式的所有实值根:3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10。

代码执行的另一个很好的用例是调用外部 API。如果指导模型正确使用 API,则它可以编写使用它的代码。通过向模型提供演示如何使用 API 的文档和/或代码示例,可以指导模型如何使用 API。

系统
您可以通过将 Python 代码括在三个反引号中来编写和执行 Python 代码。另请注意,您可以访问以下模块来帮助用户向他们的朋友发送消息: '''python 导入消息 message.write(to=“John”, message=“嘿,下班后想见面吗?```

警告: 执行模型生成的代码本身并不安全,任何寻求执行此操作的应用程序都应采取预防措施。特别是,需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。

策略:为模型提供对特定函数的访问权限

Chat Completions API 允许在请求中传递函数描述列表。这使模型能够根据提供的架构生成函数参数。生成的函数参数由 API 以 JSON 格式返回,可用于执行函数调用。然后,函数调用提供的输出可以在以下请求中反馈到模型中,以结束循环。这是使用 OpenAI 模型调用外部函数的推荐方法。要了解更多信息,请参阅我们的介绍性文本生成指南中的函数调用部分,以及 OpenAI 说明书中的更多函数调用示例

策略:系统地测试更改

有时很难判断更改(例如,新指令或新设计)是否使您的系统变得更好或更差。查看几个示例可能会暗示哪个更好,但对于小样本量,可能很难区分真正的改进或随机运气。也许此更改有助于某些 inputs 的性能,但会损害其他 inputs 的性能。

评估程序(或“评估”)对于优化系统设计非常有用。好的评估是:

  • 代表实际使用情况(或至少多种)
  • 包含许多测试用例以获得更大的统计功效(有关指南,请参见下表)
  • 易于自动化或重复
要检测的差异获得 95% 置信度所需的样本量
30%~10
10%~100
3%~1,000
1%~10,000

输出的评估可以由计算机、人工或混合完成。计算机可以使用客观标准(例如,具有单个正确答案的问题)以及一些主观或模糊标准自动执行评估,其中模型输出由其他模型查询评估。OpenAI Evals 是一个开源软件框架,提供用于创建自动评估的工具。

当存在一系列可能的输出时(例如,对于答案较长的问题),基于模型的评估会很有用。可以使用基于模型的评估进行实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型变得更强大而不断变化。我们鼓励进行实验,以弄清楚基于模型的评估对您的使用案例的适用程度。

策略:参考黄金标准答案评估模型输出

假设已知问题的正确答案应该引用一组特定的已知事实。然后,我们可以使用 model 查询来计算答案中包含多少个必需的事实。

例如,使用以下系统消息:

系统
您将获得由三引号分隔的文本,该文本应该是问题的答案。检查答案中是否直接包含以下信息: - 尼尔·阿姆斯特朗 (Neil Armstrong) 是第一个在月球上行走的人。 - 尼尔·阿姆斯特朗 (Neil Armstrong) 首次在月球上行走的日期是 1969 年 7 月 21 日。 对于这些点中的每一个,请执行以下步骤: 1 - 重述要点。 2 - 提供最接近此点的答案的引文。 3 - 考虑一下不了解该主题的阅读引文的人是否可以直接推断出要点。在做出决定之前解释为什么或为什么不。 4 - 如果 3 的答案是“是”,则写“是”,否则写“否”。 最后,提供 “yes” 答案的数量。将此计数作为 {“count”: <insert count here>} 提供。

下面是一个示例输入,其中两个点都满足:

系统
<在上面插入系统消息>
用户
“”尼尔·阿姆斯特朗 (Neil Armstrong) 以第一个踏上月球的人类而闻名。这一历史性事件发生在 1969 年 7 月 21 日,在阿波罗 11 号任务期间。

下面是一个示例输入,其中只满足一个点:

系统
<在上面插入系统消息>
用户
“”尼尔·阿姆斯特朗 (Neil Armstrong) 走下登月舱时创造了历史,成为第一个在月球上行走的人。”

下面是一个示例输入,其中没有一个 API 得到满足:

系统
<在上面插入系统消息>
用户
“”69 年的夏天,一次盛大的航海, 阿波罗 11 号,像传奇之手一样大胆。 阿姆斯特朗迈出一步,历史展开, “”一小步,“他说,为了一个新世界。”

这种类型的基于模型的 eval 有许多可能的变体。请考虑以下变体,该变体跟踪候选答案和黄金标准答案之间的重叠类型,并跟踪候选答案是否与黄金标准答案的任何部分相矛盾。

系统
使用以下步骤响应用户输入。在继续之前,请完整地重述每个步骤。即 “Step 1: Reason...”。 第 1 步:逐步推理提交的答案中的信息与专家答案相比是:不相交、相等、子集、超集或重叠(即一些交集,但不是子集/超集)。 第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。 第 3 步:输出一个结构如下的 JSON 对象:{“type_of_overlap”: “disjoint” or “equal” or “subset” or “superset” or “overlapping”, “contradiction”: true or false}

下面是一个回答不合格的示例输入,但它与专家的回答并不矛盾:

系统
<在上面插入系统消息>
用户
问题: “”尼尔·阿姆斯特朗最出名的事件是什么,发生在什么日期?假定为 UTC 时间。 提交的答案: “”“他不是在月球上行走吗? 专家回答: “”尼尔·阿姆斯特朗 (Neil Armstrong) 最著名的是第一个在月球上行走的人。这一历史性事件发生在 1969 年 7 月 21 日。

下面是一个示例输入,其中的 answer 直接与专家的回答相矛盾:

系统
<在上面插入系统消息>
用户
问题: “”尼尔·阿姆斯特朗最出名的事件是什么,发生在什么日期?假定为 UTC 时间。 提交的答案: “”“1969 年 7 月 21 日,尼尔·阿姆斯特朗成为继巴兹·奥尔德林之后第二个在月球上行走的人。 专家回答: “”尼尔·阿姆斯特朗 (Neil Armstrong) 最著名的是第一个在月球上行走的人。这一历史性事件发生在 1969 年 7 月 21 日。

下面是一个包含正确答案的示例输入,它也提供了比必要的更多详细信息:

系统
<在上面插入系统消息>
用户
问题: “”尼尔·阿姆斯特朗最出名的事件是什么,发生在什么日期?假定为 UTC 时间。 提交的答案:“”“1969 年 7 月 21 日 02:56 UTC 左右,尼尔·阿姆斯特朗成为第一个踏上月球表面的人类,标志着人类历史上的一项巨大成就。 专家回答: “”尼尔·阿姆斯特朗 (Neil Armstrong) 最著名的是第一个在月球上行走的人。这一历史性事件发生在 1969 年 7 月 21 日。

其他资源

有关更多灵感,请访问 OpenAI Cookbook,其中包含示例代码以及指向第三方资源的链接,例如: