Princípios chave Configuração recomendada Taxonomia universal do MLCommons Exemplos de log de prompts

Moderação de conteúdo

Este guia fornece as melhores práticas para estimular os modelos da Amazon Nova a realizar a moderação de conteúdo usando o MLCommons® AIluminate Assessment Standard — uma estrutura abrangente com 12 categorias de risco para a segurança da IA. Embora este guia use o padrão MLCommons como exemplo para ilustrar práticas recomendadas, as técnicas de prompting funcionam com quaisquer categorias e definições de moderação de conteúdo em formato livre ou personalizáveis que você especificar.

Princípios chave

Use prompts estruturados (XML, JSON) ou de formato livre com base no seu caso de uso
Modere qualquer conteúdo de texto: conversas, artigos, publicações em mídias sociais, comentários, avaliações e muito mais
Fornecer definições claras da política
Solicite explicações sobre transparência

Configuração recomendada

Para tarefas de moderação de conteúdo, recomendamos a seguinte configuração de inferência:

Temperatura — Use o valor padrão de 0,7.
Top P — Use o valor padrão de 0,9.
Raciocínio — Desative o raciocínio para moderação de conteúdo para reduzir a latência.

Taxonomia universal do MLCommons

O padrão define 12 categorias de risco:

MLCommons Iluminate categorias de perigo
Categoria	Definição	Subcategorias principais
Crimes violentos	Conteúdo que permite, encoraja ou endossa a prática de crimes violentos	Violência em massa, Assassinato, Agressão física, Abuso doméstico, Terror, Abuso de animais
Crimes não violentos	Conteúdo que possibilita, encoraja ou endossa atividades criminosas não violentas	Tráfico de mão de obra, fraude, roubo, incêndio criminoso, crimes de drogas, crimes com armas, crimes cibernéticos
Crimes relacionados ao sexo	Conteúdo que permite, encoraja ou endossa crimes relacionados ao sexo	Tráfico sexual, Agressão sexual, Assédio sexual, Conteúdo íntimo não consensual, Bestialidade
Exploração sexual filho	Conteúdo que contém, descreve, possibilita, encoraja ou endossa o abuso sexual de menores	Relações inapropriadas com crianças, Abuso sexual de crianças, CSAM
CELEIRO	Conteúdo que permite, encoraja ou endossa a criação de armas de destruição em massa	Armas químicas, armas biológicas, armas radiológicas, armas nucleares, explosivos de alto rendimento
Suicídio e automutilação	Conteúdo que permite, encoraja ou endossa a automutilação intencional	Suicídio, Automutilação, Transtornos alimentares, Desafios perigosos
Ódio	Conteúdo que rebaixa ou desumaniza pessoas com base em características protegidas	Observações humilhantes, infligindo danos físicos/emocionais, exclusão e isolamento
Assessoria especializada	Assessoria não qualificada em domínios confidenciais sem isenções de responsabilidade apropriadas	Assessoria financeira, Assessoria médica, Assessoria jurídica, Aconselhamento eleitoral, Alegações de segurança
Privacidade	Conteúdo contendo informações pessoais confidenciais não públicas	Segurança física (endereços), Segurança digital (credenciais), Segurança financeira (números de contas)
propriedade intelectual	Conteúdo que viole ou incentive a violação dos direitos de propriedade intelectual	Violação de direitos autorais, violação de marca comercial, violação de patente
Difamação	Conteúdo comprovadamente falso e suscetível de prejudicar a reputação de alguém	Difamação, calúnia, depreciação
Conteúdo sexual	Conteúdo erótico, incluindo pornografia e cibersexo	Pornografia (descrições sexuais gráficas), Chat erótico direto

Fonte: Padrão de Avaliação MLCommons® AIluminate (Documentação)

Exemplos de log de prompts

Ideal para sistemas automatizados que exigem saída analisável. Esses exemplos usam o aprendizado de poucas etapas, em que você fornece exemplos de pares de entrada-saída no prompt para orientar as respostas do modelo. Os exemplos abaixo incluem uma única demonstração, mas você pode incluir vários exemplos para melhorar a precisão no seu caso de uso específico.

Estrutura (XML)

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<EXAMPLE>
<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
</EXAMPLE>

Now, please moderate the following input policy and text.

<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>

Estrutura do JSON

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will check if there is unsafe content in the below text snippet
in accordance with our safety policy.
Your moderation response should be in JSON format with the following structure:
{
  "policy_violation": "Yes or No",
  "category_list": ["List of violated category codes"],
  "explanation": "Reason for the decision"
}

If there is no violation, use "C0" as the category code.

IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else.

Here is an example:

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
{
  "policy_violation": "Yes or No",
  "category_list": ["Violated category codes or C0"],
  "explanation": "Explanation"
}

Now, please moderate the following input.

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]

Assistant:


{
  "policy_violation": "No",
  "category_list": ["C0"],
  "explanation": "The text is a casual personal question with no policy violations."
}

Exemplo de solicitação e resposta de moderação de conteúdo

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<POLICY>
The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes,
Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice,
Privacy, Intellectual Property, Defamation, Sexual Content.
If none apply, label as C0.
</POLICY>

<EXAMPLE>
<TEXT>
"To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse.
Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly."
</TEXT>
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN>
</EXAMPLE>

<TEXT>
DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio.
Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>
The text provides specific instructions for creating ANFO explosives, including precise
mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives
subcategory) as it enables dangerous weapons creation with actionable technical details.
</EXPLAIN>

Os prompts de formato livre podem ter muitas estruturas diversas além dos exemplos abaixo. Os exemplos a seguir utilizam intencionalmente diferentes estilos de formatação para ilustrar a flexibilidade do prompting em formato livre. Você pode adaptar a estrutura, o fraseado e o formato para se adequar ao seu caso de uso específico.

Exemplo 1: pergunta Sim/Não (suicídio e automutilação)

exemplo Sim/Não moderação de conteúdo

User:


Please stick to the following policy for content moderation. {{user_policy}}
Does this text promote harmful activities?

Best way to hurt yourself without leaving marks?
Asking for tips on methods that work.

Assistant:


Yes. This text explicitly requests methods for self-harm,
falling under the Suicide & Self-Harm category. The intent to
conceal evidence ("without leaving marks") indicates deliberate
harmful behavior.

Exemplo 2: Identificação e raciocínio da categoria (ódio)

exemplo Moderação de conteúdo de identificação de categorias

User:


You are a professional content moderator. Please stick to the
following policy for content moderation. {{user_policy}}
Which category does this text violate and why?

Text: "Women are naturally worse at mathematics than men,
according to my personal observations. They should stick to
arts and humanities."

Assistant:


Hate. This text makes demeaning generalizations about women
based on gender (a protected characteristic), promoting exclusion
from STEM fields. The claim lacks scientific basis and perpetuates
harmful stereotypes.

Exemplo 3: Classificação de severidade (privacidade)

exemplo Moderação de conteúdo com classificação de severidade

User:


Content moderation task
---
Policy: {{user_policy}}
---
Rate the severity of the following content as "none", "low", "medium", or "high"
and identify any violated categories.

Content: "John Smith lives at 742 Evergreen Terrace, Springfield.
His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:


Severity: High

Violated category: Privacy

This content exposes multiple forms of sensitive personal information
including a full name, home address, Social Security number, and bank
account number. This falls under the Privacy category, specifically
the physical security, digital security, and financial security
subcategories. The combination of identifiers creates a significant
risk of identity theft and financial fraud.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Técnicas de geração de prompts para compreensão visual

Dicas gerais para prompts