评审

识别文本和图像中可能有害的内容。

审核终端节点是一种工具，可用于检查文本或图像是否可能有害。一旦识别出有害内容，开发人员就可以采取纠正措施，例如过滤内容或干预创建违规内容的用户账户。审核终端节点可免费使用。

此终端节点可用的模型包括：

omni-moderation-latest：此模型和所有快照都支持更多分类选项和多模式输入。
text-moderation-latest （旧版）：仅支持文本输入和较少输入分类的旧模型。较新的 omni-moderation 模型将是新应用程序的最佳选择。

快速入门

审核终端节点可用于对文本和图像进行分类。下面，您可以找到一些使用我们的官方 SDK 的示例。这些示例使用模型：omni-moderation-latest

获取文本输入的分类信息

1
2
3
4
5
6
7
8
9
from openai import OpenAI
client = OpenAI()

response = client.moderations.create(
    model="omni-moderation-latest",
    input="...text to classify goes here...",
)

print(response)

以下是战争电影的单帧图像输入的完整示例输出。该模型正确预测了图像中的暴力指标，类别得分大于 0.8。violence

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
{
  "id": "modr-970d409ef3bef3b70c73d8232df86e7d",
  "model": "omni-moderation-latest",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "sexual/minors": false,
        "harassment": false,
        "harassment/threatening": false,
        "hate": false,
        "hate/threatening": false,
        "illicit": false,
        "illicit/violent": false,
        "self-harm": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "violence": true,
        "violence/graphic": false
      },
      "category_scores": {
        "sexual": 2.34135824776394e-7,
        "sexual/minors": 1.6346470245419304e-7,
        "harassment": 0.0011643905680426018,
        "harassment/threatening": 0.0022121340080906377,
        "hate": 3.1999824407395835e-7,
        "hate/threatening": 2.4923252458203563e-7,
        "illicit": 0.0005227032493135171,
        "illicit/violent": 3.682979260160596e-7,
        "self-harm": 0.0011175734280627694,
        "self-harm/intent": 0.0006264858507989037,
        "self-harm/instructions": 7.368592981140821e-8,
        "violence": 0.8599265510337075,
        "violence/graphic": 0.37701736389561064
      },
      "category_applied_input_types": {
        "sexual": [
          "image"
        ],
        "sexual/minors": [],
        "harassment": [],
        "harassment/threatening": [],
        "hate": [],
        "hate/threatening": [],
        "illicit": [],
        "illicit/violent": [],
        "self-harm": [
          "image"
        ],
        "self-harm/intent": [
          "image"
        ],
        "self-harm/instructions": [
          "image"
        ],
        "violence": [
          "image"
        ],
        "violence/graphic": [
          "image"
        ]
      }
    }
  ]
}

模型的输出如下所述。JSON 响应包含有关输入中存在哪些（如果有）内容类别的信息，以及模型认为它们存在的程度。

输出类别	描述
`flagged`	如果模型将内容分类为潜在有害，则设置为，否则。`truefalse`
`categories`	包含每个类别的冲突标志的字典。对于每个类别，该值是模型是否将相应的类别标记为 violated，否则。`truefalse`
`category_scores`	包含模型输出的每个类别分数的字典，表示模型对输入违反 OpenAI 的类别策略的置信度。该值介于 0 和 1 之间，其中值越高表示置信度越高。
`category_applied_input_types`	此属性包含有关响应中为每个类别标记了哪些输入类型的信息。例如，如果模型的图像和文本输入都标记为“violence/graphic”，则该属性将设置为。这仅适用于 omni 模型。`violence/graphic["image", "text"]`

我们计划不断升级审核终端节点的底层模型。因此，随着时间的推移，依赖的自定义策略可能需要重新校准。category_scores

内容分类

下表描述了可以在审核 API 中检测到的内容类型，以及每个类别支持的模型和输入类型。

类别	描述	模型	输入
`harassment`	表达、煽动或宣扬针对任何目标的骚扰性语言的内容。	都	纯文本
`harassment/threatening`	骚扰内容还包括对任何目标的暴力或严重伤害。	都	纯文本
`hate`	表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨的内容。针对不受保护的群体（例如棋手）的仇恨内容属于骚扰。	都	纯文本
`hate/threatening`	仇恨内容还包括基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓对目标群体的暴力或严重伤害。	都	纯文本
`illicit`	就如何实施非法行为提供建议或指示的内容。像 “how to shop lift” 这样的短语就属于这一类。	仅限 Omni	纯文本
`illicit/violent`	该类别标记的相同类型内容，但也包含对暴力或购买武器的引用。`illicit`	仅限 Omni	纯文本
`self-harm`	宣扬、鼓励或描述自残行为（例如自杀、割伤和饮食失调）的内容。	都	文本和图像
`self-harm/intent`	演讲者表示他们正在或打算进行自残行为（例如自杀、割伤和饮食失调）的内容。	都	文本和图像
`self-harm/instructions`	鼓励进行自残行为（例如自杀、割伤和饮食失调）的内容，或者就如何实施此类行为提供指导或建议的内容。	都	文本和图像
`sexual`	旨在引起性兴奋的内容，例如对性活动的描述，或宣传性服务（不包括性教育和健康）的内容。	都	文本和图像
`sexual/minors`	包含未满 18 周岁的个人的色情内容。	都	纯文本
`violence`	描绘死亡、暴力或人身伤害的内容。	都	文本和图像
`violence/graphic`	以生动的细节描绘死亡、暴力或身体伤害的内容。	都	文本和图像