评审

识别文本和图像中可能有害的内容。

审核终端节点是一种工具,可用于检查文本或图像是否可能有害。一旦识别出有害内容,开发人员就可以采取纠正措施,例如过滤内容或干预创建违规内容的用户账户。审核终端节点可免费使用。

此终端节点可用的模型包括:

  • omni-moderation-latest:此模型和所有快照都支持更多分类选项和多模式输入。
  • text-moderation-latest (旧版):仅支持文本输入和较少输入分类的旧模型。较新的 omni-moderation 模型将是新应用程序的最佳选择。

快速入门

审核终端节点可用于对文本和图像进行分类。下面,您可以找到一些使用我们的官方 SDK 的示例。这些示例使用模型omni-moderation-latest

获取文本输入的分类信息
1
2
3
4
5
6
7
8
9
from openai import OpenAI
client = OpenAI()

response = client.moderations.create(
    model="omni-moderation-latest",
    input="...text to classify goes here...",
)

print(response)

以下是战争电影的单帧图像输入的完整示例输出。该模型正确预测了图像中的暴力指标,类别得分大于 0.8。violence

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
{
  "id": "modr-970d409ef3bef3b70c73d8232df86e7d",
  "model": "omni-moderation-latest",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "sexual/minors": false,
        "harassment": false,
        "harassment/threatening": false,
        "hate": false,
        "hate/threatening": false,
        "illicit": false,
        "illicit/violent": false,
        "self-harm": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "violence": true,
        "violence/graphic": false
      },
      "category_scores": {
        "sexual": 2.34135824776394e-7,
        "sexual/minors": 1.6346470245419304e-7,
        "harassment": 0.0011643905680426018,
        "harassment/threatening": 0.0022121340080906377,
        "hate": 3.1999824407395835e-7,
        "hate/threatening": 2.4923252458203563e-7,
        "illicit": 0.0005227032493135171,
        "illicit/violent": 3.682979260160596e-7,
        "self-harm": 0.0011175734280627694,
        "self-harm/intent": 0.0006264858507989037,
        "self-harm/instructions": 7.368592981140821e-8,
        "violence": 0.8599265510337075,
        "violence/graphic": 0.37701736389561064
      },
      "category_applied_input_types": {
        "sexual": [
          "image"
        ],
        "sexual/minors": [],
        "harassment": [],
        "harassment/threatening": [],
        "hate": [],
        "hate/threatening": [],
        "illicit": [],
        "illicit/violent": [],
        "self-harm": [
          "image"
        ],
        "self-harm/intent": [
          "image"
        ],
        "self-harm/instructions": [
          "image"
        ],
        "violence": [
          "image"
        ],
        "violence/graphic": [
          "image"
        ]
      }
    }
  ]
}

模型的输出如下所述。JSON 响应包含有关输入中存在哪些 (如果有) 内容类别的信息,以及模型认为它们存在的程度。

输出类别

描述

flagged

如果模型将内容分类为潜在有害,则设置为 ,否则。truefalse

categories

包含每个类别的冲突标志的字典。对于每个类别,该值是模型是否将相应的类别标记为 violated,否则。truefalse

category_scores

包含模型输出的每个类别分数的字典,表示模型对输入违反 OpenAI 的类别策略的置信度。该值介于 0 和 1 之间,其中值越高表示置信度越高。

category_applied_input_types

此属性包含有关响应中为每个类别标记了哪些输入类型的信息。例如,如果模型的图像和文本输入都标记为“violence/graphic”,则该属性将设置为 。这仅适用于 omni 模型。violence/graphic["image", "text"]

我们计划不断升级审核终端节点的底层模型。因此,随着时间的推移,依赖的自定义策略可能需要重新校准。category_scores

内容分类

下表描述了可以在审核 API 中检测到的内容类型,以及每个类别支持的模型和输入类型。

类别描述模型输入

harassment

表达、煽动或宣扬针对任何目标的骚扰性语言的内容。

纯文本

harassment/threatening

骚扰内容还包括对任何目标的暴力或严重伤害。

纯文本

hate

表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨的内容。针对不受保护的群体(例如棋手)的仇恨内容属于骚扰。

纯文本

hate/threatening

仇恨内容还包括基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓对目标群体的暴力或严重伤害。

纯文本

illicit

就如何实施非法行为提供建议或指示的内容。像 “how to shop lift” 这样的短语就属于这一类。

仅限 Omni

纯文本

illicit/violent

该类别标记的相同类型内容,但也包含对暴力或购买武器的引用。illicit

仅限 Omni

纯文本

self-harm

宣扬、鼓励或描述自残行为(例如自杀、割伤和饮食失调)的内容。

文本和图像

self-harm/intent

演讲者表示他们正在或打算进行自残行为(例如自杀、割伤和饮食失调)的内容。

文本和图像

self-harm/instructions

鼓励进行自残行为(例如自杀、割伤和饮食失调)的内容,或者就如何实施此类行为提供指导或建议的内容。

文本和图像

sexual

旨在引起性兴奋的内容,例如对性活动的描述,或宣传性服务(不包括性教育和健康)的内容。

文本和图像

sexual/minors

包含未满 18 周岁的个人的色情内容。

纯文本

violence

描绘死亡、暴力或人身伤害的内容。

文本和图像

violence/graphic

以生动的细节描绘死亡、暴力或身体伤害的内容。

文本和图像