评审
审核终端节点是一种工具,可用于检查文本或图像是否可能有害。一旦识别出有害内容,开发人员就可以采取纠正措施,例如过滤内容或干预创建违规内容的用户账户。审核终端节点可免费使用。
此终端节点可用的模型包括:
omni-moderation-latest
:此模型和所有快照都支持更多分类选项和多模式输入。text-moderation-latest
(旧版):仅支持文本输入和较少输入分类的旧模型。较新的 omni-moderation 模型将是新应用程序的最佳选择。
快速入门
审核终端节点可用于对文本和图像进行分类。下面,您可以找到一些使用我们的官方 SDK 的示例。这些示例使用模型:omni-moderation-latest
1
2
3
4
5
6
7
8
9
from openai import OpenAI
client = OpenAI()
response = client.moderations.create(
model="omni-moderation-latest",
input="...text to classify goes here...",
)
print(response)
以下是战争电影的单帧图像输入的完整示例输出。该模型正确预测了图像中的暴力指标,类别得分大于 0.8。violence
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
{
"id": "modr-970d409ef3bef3b70c73d8232df86e7d",
"model": "omni-moderation-latest",
"results": [
{
"flagged": true,
"categories": {
"sexual": false,
"sexual/minors": false,
"harassment": false,
"harassment/threatening": false,
"hate": false,
"hate/threatening": false,
"illicit": false,
"illicit/violent": false,
"self-harm": false,
"self-harm/intent": false,
"self-harm/instructions": false,
"violence": true,
"violence/graphic": false
},
"category_scores": {
"sexual": 2.34135824776394e-7,
"sexual/minors": 1.6346470245419304e-7,
"harassment": 0.0011643905680426018,
"harassment/threatening": 0.0022121340080906377,
"hate": 3.1999824407395835e-7,
"hate/threatening": 2.4923252458203563e-7,
"illicit": 0.0005227032493135171,
"illicit/violent": 3.682979260160596e-7,
"self-harm": 0.0011175734280627694,
"self-harm/intent": 0.0006264858507989037,
"self-harm/instructions": 7.368592981140821e-8,
"violence": 0.8599265510337075,
"violence/graphic": 0.37701736389561064
},
"category_applied_input_types": {
"sexual": [
"image"
],
"sexual/minors": [],
"harassment": [],
"harassment/threatening": [],
"hate": [],
"hate/threatening": [],
"illicit": [],
"illicit/violent": [],
"self-harm": [
"image"
],
"self-harm/intent": [
"image"
],
"self-harm/instructions": [
"image"
],
"violence": [
"image"
],
"violence/graphic": [
"image"
]
}
}
]
}
模型的输出如下所述。JSON 响应包含有关输入中存在哪些 (如果有) 内容类别的信息,以及模型认为它们存在的程度。
输出类别 | 描述 |
---|---|
| 如果模型将内容分类为潜在有害,则设置为 ,否则。 |
| 包含每个类别的冲突标志的字典。对于每个类别,该值是模型是否将相应的类别标记为 violated,否则。 |
| 包含模型输出的每个类别分数的字典,表示模型对输入违反 OpenAI 的类别策略的置信度。该值介于 0 和 1 之间,其中值越高表示置信度越高。 |
| 此属性包含有关响应中为每个类别标记了哪些输入类型的信息。例如,如果模型的图像和文本输入都标记为“violence/graphic”,则该属性将设置为 。这仅适用于 omni 模型。 |
内容分类
下表描述了可以在审核 API 中检测到的内容类型,以及每个类别支持的模型和输入类型。
类别 | 描述 | 模型 | 输入 |
---|---|---|---|
| 表达、煽动或宣扬针对任何目标的骚扰性语言的内容。 | 都 | 纯文本 |
| 骚扰内容还包括对任何目标的暴力或严重伤害。 | 都 | 纯文本 |
| 表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨的内容。针对不受保护的群体(例如棋手)的仇恨内容属于骚扰。 | 都 | 纯文本 |
| 仇恨内容还包括基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓对目标群体的暴力或严重伤害。 | 都 | 纯文本 |
| 就如何实施非法行为提供建议或指示的内容。像 “how to shop lift” 这样的短语就属于这一类。 | 仅限 Omni | 纯文本 |
| 该类别标记的相同类型内容,但也包含对暴力或购买武器的引用。 | 仅限 Omni | 纯文本 |
| 宣扬、鼓励或描述自残行为(例如自杀、割伤和饮食失调)的内容。 | 都 | 文本和图像 |
| 演讲者表示他们正在或打算进行自残行为(例如自杀、割伤和饮食失调)的内容。 | 都 | 文本和图像 |
| 鼓励进行自残行为(例如自杀、割伤和饮食失调)的内容,或者就如何实施此类行为提供指导或建议的内容。 | 都 | 文本和图像 |
| 旨在引起性兴奋的内容,例如对性活动的描述,或宣传性服务(不包括性教育和健康)的内容。 | 都 | 文本和图像 |
| 包含未满 18 周岁的个人的色情内容。 | 都 | 纯文本 |
| 描绘死亡、暴力或人身伤害的内容。 | 都 | 文本和图像 |
| 以生动的细节描绘死亡、暴力或身体伤害的内容。 | 都 | 文本和图像 |