型号选择

选择性能和成本的最佳模型。

选择正确的模型,无论是 GPT-4o 还是 GPT-4o-mini 等较小的选项,都需要平衡准确性延迟成本。本指南介绍了帮助您做出明智决策的关键原则,并提供了一个实际示例。

核心原则

模型选择的原则很简单:

  • 首先优化准确性:优化准确性,直到达到准确性目标。
  • 优化成本和延迟秒:然后,以尽可能便宜、最快的模型为目标来保持准确性。

1. 首先关注准确性

首先为您的使用案例设置一个明确的准确率目标,其中您清楚此使用案例投入生产“足够好”的准确率。您可以通过以下方式实现此目的:

  • 设定明确的准确率目标:确定您的目标准确率统计数据将是什么。
    • 例如,90% 的客户服务电话需要在第一次交互时正确分类。
  • 开发评估数据集:创建一个数据集,以便您根据这些目标衡量模型的性能。
    • 为了扩展上面的示例,请捕获 100 个交互示例,其中我们有用户请求的内容、LLM 将他们分类到什么、正确的分类应该是什么,以及这是否正确。
  • 使用最强大的模型进行优化:从功能最强大的模型开始,以实现您的准确率目标。记录所有响应,以便我们可以使用它们来蒸馏较小的模型。
    • 使用检索增强生成来优化准确性
    • 使用微调来优化一致性和行为

在此过程中,收集提示和完成对,以用于评估、小样本学习或微调。这种做法称为 prompt bakeging,可帮助您生成高质量的示例以供将来使用。

有关此处的更多方法和工具,请参阅我们的精度优化指南

设定切合实际的精度目标

通过评估模型决策的财务影响来计算切合实际的准确性目标。例如,在假新闻分类方案中:

  • 正确分类的新闻:如果模型正确分类,则可以节省人工审核的成本 - 假设为 50 USD
  • 分类错误的新闻:如果它错误地归类了一篇安全文章或遗漏了一篇假新闻文章,它可能会触发审核流程和可能的投诉,这可能会花费我们 300 美元

我们的新闻分类示例需要 85.8% 的准确率才能涵盖成本,因此以 90% 或更高的准确率为目标可以确保总体投资回报率。使用这些计算可根据您的特定成本结构设置有效的准确性目标。

2. 优化成本和延迟

成本和延迟被认为是次要的,因为如果模型无法达到您的准确率目标,那么这些问题就没有意义。但是,一旦您拥有适用于您的使用案例的模型,您就可以采用以下两种方法之一:

  • 与较小的零镜头或少镜头模型相比:将模型换成更小、更便宜的模型,并测试它是否在较低的成本和延迟点保持准确性。
  • 模型蒸馏:使用精度优化期间收集的数据微调较小的模型。

成本和延迟通常是相互关联的;减少令牌和请求通常可以提高处理速度。

这里要考虑的主要策略是:

  • 减少请求:限制完成任务所需的请求数。
  • 最小化令牌:减少输入标记的数量并针对较短的模型输出进行优化。
  • 选择较小的模型:使用在降低成本和延迟与保持准确性之间取得平衡的模型。

要更深入地了解这些内容,请参阅我们的延迟优化指南。

规则的例外情况

这些原则存在明显的例外。如果您的使用案例对成本或延迟非常敏感,请在开始测试之前为这些指标建立阈值,然后从考虑范围中删除超出这些阈值的模型。设置基准后,这些准则将帮助您在约束范围内优化模型准确性。

实例

为了演示这些原则,我们将开发一个具有以下目标指标的假新闻分类器:

  • 准确性:实现 90% 的正确分类
  • 成本:每 5 篇文章花费少于 1,000 美元
  • 延迟:将每件物品的处理时间保持在 2 秒以下

实验

为了实现我们的目标,我们进行了三个实验:

  1. 零点:用于 1,000 条记录的基本提示,但未达到准确性目标。GPT-4o
  2. 小样本学习:包括 5 个小样本示例,满足了准确性目标,但由于提示令牌更多,因此超出了成本。
  3. 微调模型:使用 1000 个标记示例进行微调,以相似的延迟和准确性满足所有目标,但成本显著降低。GPT-4o-mini
身份证方法准确性精度目标成本成本目标平均延迟延迟目标
1GPT-4O 零点84.5%1.72 美元< 1 秒
2GPT-4O 少发 (n=5)91.5%11.92 美元< 1 秒
3GPT-4O-Mini 微调 w/ 1000 示例91.5%0.21 美元< 1 秒

结论

通过从 切换到 到 微调,我们只使用了 1000 个标记示例,但成本不到 2%,实现了同等的性能gpt-4ogpt-4o-mini

这个过程很重要 - 您通常无法直接跳到微调,因为您不知道微调是否是您需要的优化的正确工具,或者您没有足够的标记示例。用于实现您的准确率目标,并策划一个好的训练集 - 然后通过微调来选择更小、更高效的模型。gpt-4o