

# Moderação de conteúdo
<a name="prompting-content-moderation"></a>

Este guia fornece as melhores práticas para estimular os modelos da Amazon Nova a realizar a moderação de conteúdo usando o [MLCommons® AIluminate Assessment Standard](https://mlcommons.org/ailuminate/safety-resources/) — uma estrutura abrangente com 12 categorias de risco para a segurança da IA. Embora este guia use o padrão MLCommons como exemplo para ilustrar práticas recomendadas, as técnicas de prompting funcionam com quaisquer categorias e definições de moderação de conteúdo em formato livre ou personalizáveis que você especificar.

## Princípios chave
<a name="cm-key-principles"></a>
+ Use prompts estruturados (XML, JSON) ou de formato livre com base no seu caso de uso
+ Modere qualquer conteúdo de texto: conversas, artigos, publicações em mídias sociais, comentários, avaliações e muito mais
+ Fornecer definições claras da política
+ Solicite explicações sobre transparência

## Configuração recomendada
<a name="cm-recommended-configuration"></a>

Para tarefas de moderação de conteúdo, recomendamos a seguinte configuração de inferência:
+ **Temperatura** — Use o valor padrão de 0,7.
+ **Top P** — Use o valor padrão de 0,9.
+ **Raciocínio** — Desative o raciocínio para moderação de conteúdo para reduzir a latência.

## Taxonomia universal do MLCommons
<a name="cm-mlcommons-taxonomy"></a>

O padrão define 12 categorias de risco:


**MLCommons Iluminate categorias de perigo**  

| Categoria | Definição | Subcategorias principais | 
| --- | --- | --- | 
| Crimes violentos | Conteúdo que permite, encoraja ou endossa a prática de crimes violentos | Violência em massa, Assassinato, Agressão física, Abuso doméstico, Terror, Abuso de animais | 
| Crimes não violentos | Conteúdo que possibilita, encoraja ou endossa atividades criminosas não violentas | Tráfico de mão de obra, fraude, roubo, incêndio criminoso, crimes de drogas, crimes com armas, crimes cibernéticos | 
| Crimes relacionados ao sexo | Conteúdo que permite, encoraja ou endossa crimes relacionados ao sexo | Tráfico sexual, Agressão sexual, Assédio sexual, Conteúdo íntimo não consensual, Bestialidade | 
| Exploração sexual filho | Conteúdo que contém, descreve, possibilita, encoraja ou endossa o abuso sexual de menores | Relações inapropriadas com crianças, Abuso sexual de crianças, CSAM | 
| CELEIRO | Conteúdo que permite, encoraja ou endossa a criação de armas de destruição em massa | Armas químicas, armas biológicas, armas radiológicas, armas nucleares, explosivos de alto rendimento | 
| Suicídio e automutilação | Conteúdo que permite, encoraja ou endossa a automutilação intencional | Suicídio, Automutilação, Transtornos alimentares, Desafios perigosos | 
| Ódio | Conteúdo que rebaixa ou desumaniza pessoas com base em características protegidas | Observações humilhantes, infligindo danos físicos/emocionais, exclusão e isolamento | 
| Assessoria especializada | Assessoria não qualificada em domínios confidenciais sem isenções de responsabilidade apropriadas | Assessoria financeira, Assessoria médica, Assessoria jurídica, Aconselhamento eleitoral, Alegações de segurança | 
| Privacidade | Conteúdo contendo informações pessoais confidenciais não públicas | Segurança física (endereços), Segurança digital (credenciais), Segurança financeira (números de contas) | 
| propriedade intelectual | Conteúdo que viole ou incentive a violação dos direitos de propriedade intelectual | Violação de direitos autorais, violação de marca comercial, violação de patente | 
| Difamação | Conteúdo comprovadamente falso e suscetível de prejudicar a reputação de alguém | Difamação, calúnia, depreciação | 
| Conteúdo sexual | Conteúdo erótico, incluindo pornografia e cibersexo | Pornografia (descrições sexuais gráficas), Chat erótico direto | 

Fonte: Padrão de Avaliação MLCommons® AIluminate (Documentação)

## Exemplos de log de prompts
<a name="cm-prompting-examples"></a>

### estrutura de formato
<a name="cm-structured-format"></a>

Ideal para sistemas automatizados que exigem saída analisável. Esses exemplos usam o aprendizado de poucas etapas, em que você fornece exemplos de pares de entrada-saída no prompt para orientar as respostas do modelo. Os exemplos abaixo incluem uma única demonstração, mas você pode incluir vários exemplos para melhorar a precisão no seu caso de uso específico.

#### Estrutura (XML)
<a name="cm-structured-format-structure"></a>

`User:`

```
You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<EXAMPLE>
<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
</EXAMPLE>

Now, please moderate the following input policy and text.

<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
```

`Assistant:`

```
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
```

#### Estrutura do JSON
<a name="cm-structured-format-json"></a>

`User:`

```
You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will check if there is unsafe content in the below text snippet
in accordance with our safety policy.
Your moderation response should be in JSON format with the following structure:
{
  "policy_violation": "Yes or No",
  "category_list": ["List of violated category codes"],
  "explanation": "Reason for the decision"
}

If there is no violation, use "C0" as the category code.

IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else.

Here is an example:

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
{
  "policy_violation": "Yes or No",
  "category_list": ["Violated category codes or C0"],
  "explanation": "Explanation"
}

Now, please moderate the following input.

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
```

`Assistant:`

```
{
  "policy_violation": "No",
  "category_list": ["C0"],
  "explanation": "The text is a casual personal question with no policy violations."
}
```

#### Exemplo de solicitação e resposta de moderação de conteúdo
<a name="cm-structured-few-shot"></a>

`User:`

```
You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<POLICY>
The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes,
Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice,
Privacy, Intellectual Property, Defamation, Sexual Content.
If none apply, label as C0.
</POLICY>

<EXAMPLE>
<TEXT>
"To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse.
Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly."
</TEXT>
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN>
</EXAMPLE>

<TEXT>
DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio.
Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry
</TEXT>
```

`Assistant:`

```
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>
The text provides specific instructions for creating ANFO explosives, including precise
mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives
subcategory) as it enables dangerous weapons creation with actionable technical details.
</EXPLAIN>
```

### Moderação de conteúdo de forma livre
<a name="cm-free-form"></a>

Os prompts de formato livre podem ter muitas estruturas diversas além dos exemplos abaixo. Os exemplos a seguir utilizam intencionalmente diferentes estilos de formatação para ilustrar a flexibilidade do prompting em formato livre. Você pode adaptar a estrutura, o fraseado e o formato para se adequar ao seu caso de uso específico.

#### Exemplo 1: pergunta Sim/Não (suicídio e automutilação)
<a name="cm-free-form-yes-no"></a>

**Example Sim/Não moderação de conteúdo**  
`User:`  

```
Please stick to the following policy for content moderation. {{user_policy}}
Does this text promote harmful activities?

Best way to hurt yourself without leaving marks?
Asking for tips on methods that work.
```
`Assistant:`  

```
Yes. This text explicitly requests methods for self-harm,
falling under the Suicide & Self-Harm category. The intent to
conceal evidence ("without leaving marks") indicates deliberate
harmful behavior.
```

#### Exemplo 2: Identificação e raciocínio da categoria (ódio)
<a name="cm-free-form-category"></a>

**Example Moderação de conteúdo de identificação de categorias**  
`User:`  

```
You are a professional content moderator. Please stick to the
following policy for content moderation. {{user_policy}}
Which category does this text violate and why?

Text: "Women are naturally worse at mathematics than men,
according to my personal observations. They should stick to
arts and humanities."
```
`Assistant:`  

```
Hate. This text makes demeaning generalizations about women
based on gender (a protected characteristic), promoting exclusion
from STEM fields. The claim lacks scientific basis and perpetuates
harmful stereotypes.
```

#### Exemplo 3: Classificação de severidade (privacidade)
<a name="cm-free-form-severity"></a>

**Example Moderação de conteúdo com classificação de severidade**  
`User:`  

```
Content moderation task
---
Policy: {{user_policy}}
---
Rate the severity of the following content as "none", "low", "medium", or "high"
and identify any violated categories.

Content: "John Smith lives at 742 Evergreen Terrace, Springfield.
His SSN is 123-45-6789 and his bank account number is 9876543210."
```
`Assistant:`  

```
Severity: High

Violated category: Privacy

This content exposes multiple forms of sensitive personal information
including a full name, home address, Social Security number, and bank
account number. This falls under the Privacy category, specifically
the physical security, digital security, and financial security
subcategories. The combination of identifiers creates a significant
risk of identity theft and financial fraud.
```