型号选择

选择性能和成本的最佳模型。

选择正确的模型，无论是 GPT-4o 还是 GPT-4o-mini 等较小的选项，都需要平衡准确性、延迟和成本。本指南介绍了帮助您做出明智决策的关键原则，并提供了一个实际示例。

核心原则

模型选择的原则很简单：

首先为您的使用案例设置一个明确的准确率目标，其中您清楚此使用案例投入生产“足够好”的准确率。您可以通过以下方式实现此目的：

设定明确的准确率目标：确定您的目标准确率统计数据将是什么。
- 例如，90% 的客户服务电话需要在第一次交互时正确分类。
开发评估数据集：创建一个数据集，以便您根据这些目标衡量模型的性能。
- 为了扩展上面的示例，请捕获 100 个交互示例，其中我们有用户请求的内容、LLM 将他们分类到什么、正确的分类应该是什么，以及这是否正确。
使用最强大的模型进行优化：从功能最强大的模型开始，以实现您的准确率目标。记录所有响应，以便我们可以使用它们来蒸馏较小的模型。
- 使用检索增强生成来优化准确性
- 使用微调来优化一致性和行为

在此过程中，收集提示和完成对，以用于评估、小样本学习或微调。这种做法称为 prompt bakeging，可帮助您生成高质量的示例以供将来使用。

有关此处的更多方法和工具，请参阅我们的精度优化指南。

通过评估模型决策的财务影响来计算切合实际的准确性目标。例如，在假新闻分类方案中：

我们的新闻分类示例需要 85.8% 的准确率才能涵盖成本，因此以 90% 或更高的准确率为目标可以确保总体投资回报率。使用这些计算可根据您的特定成本结构设置有效的准确性目标。

成本和延迟被认为是次要的，因为如果模型无法达到您的准确率目标，那么这些问题就没有意义。但是，一旦您拥有适用于您的使用案例的模型，您就可以采用以下两种方法之一：

成本和延迟通常是相互关联的;减少令牌和请求通常可以提高处理速度。

这里要考虑的主要策略是：

要更深入地了解这些内容，请参阅我们的延迟优化指南。

这些原则存在明显的例外。如果您的使用案例对成本或延迟非常敏感，请在开始测试之前为这些指标建立阈值，然后从考虑范围中删除超出这些阈值的模型。设置基准后，这些准则将帮助您在约束范围内优化模型准确性。

为了演示这些原则，我们将开发一个具有以下目标指标的假新闻分类器：

为了实现我们的目标，我们进行了三个实验：

通过从切换到到微调，我们只使用了 1000 个标记示例，但成本不到 2%，实现了同等的性能。gpt-4ogpt-4o-mini

这个过程很重要 - 您通常无法直接跳到微调，因为您不知道微调是否是您需要的优化的正确工具，或者您没有足够的标记示例。用于实现您的准确率目标，并策划一个好的训练集 - 然后通过微调来选择更小、更高效的模型。gpt-4o