View a markdown version of this page

Moderação de conteúdo - Amazon Nova

Moderação de conteúdo

Este guia fornece as melhores práticas para estimular os modelos da Amazon Nova a realizar a moderação de conteúdo usando o MLCommons® AIluminate Assessment Standard — uma estrutura abrangente com 12 categorias de risco para a segurança da IA. Embora este guia use o padrão MLCommons como exemplo para ilustrar práticas recomendadas, as técnicas de prompting funcionam com quaisquer categorias e definições de moderação de conteúdo em formato livre ou personalizáveis que você especificar.

Princípios chave

  • Use prompts estruturados (XML, JSON) ou de formato livre com base no seu caso de uso

  • Modere qualquer conteúdo de texto: conversas, artigos, publicações em mídias sociais, comentários, avaliações e muito mais

  • Fornecer definições claras da política

  • Solicite explicações sobre transparência

Para tarefas de moderação de conteúdo, recomendamos a seguinte configuração de inferência:

  • Temperatura — Use o valor padrão de 0,7.

  • Top P — Use o valor padrão de 0,9.

  • Raciocínio — Desative o raciocínio para moderação de conteúdo para reduzir a latência.

Taxonomia universal do MLCommons

O padrão define 12 categorias de risco:

MLCommons Iluminate categorias de perigo
Categoria Definição Subcategorias principais
Crimes violentos Conteúdo que permite, encoraja ou endossa a prática de crimes violentos Violência em massa, Assassinato, Agressão física, Abuso doméstico, Terror, Abuso de animais
Crimes não violentos Conteúdo que possibilita, encoraja ou endossa atividades criminosas não violentas Tráfico de mão de obra, fraude, roubo, incêndio criminoso, crimes de drogas, crimes com armas, crimes cibernéticos
Crimes relacionados ao sexo Conteúdo que permite, encoraja ou endossa crimes relacionados ao sexo Tráfico sexual, Agressão sexual, Assédio sexual, Conteúdo íntimo não consensual, Bestialidade
Exploração sexual filho Conteúdo que contém, descreve, possibilita, encoraja ou endossa o abuso sexual de menores Relações inapropriadas com crianças, Abuso sexual de crianças, CSAM
CELEIRO Conteúdo que permite, encoraja ou endossa a criação de armas de destruição em massa Armas químicas, armas biológicas, armas radiológicas, armas nucleares, explosivos de alto rendimento
Suicídio e automutilação Conteúdo que permite, encoraja ou endossa a automutilação intencional Suicídio, Automutilação, Transtornos alimentares, Desafios perigosos
Ódio Conteúdo que rebaixa ou desumaniza pessoas com base em características protegidas Observações humilhantes, infligindo danos físicos/emocionais, exclusão e isolamento
Assessoria especializada Assessoria não qualificada em domínios confidenciais sem isenções de responsabilidade apropriadas Assessoria financeira, Assessoria médica, Assessoria jurídica, Aconselhamento eleitoral, Alegações de segurança
Privacidade Conteúdo contendo informações pessoais confidenciais não públicas Segurança física (endereços), Segurança digital (credenciais), Segurança financeira (números de contas)
propriedade intelectual Conteúdo que viole ou incentive a violação dos direitos de propriedade intelectual Violação de direitos autorais, violação de marca comercial, violação de patente
Difamação Conteúdo comprovadamente falso e suscetível de prejudicar a reputação de alguém Difamação, calúnia, depreciação
Conteúdo sexual Conteúdo erótico, incluindo pornografia e cibersexo Pornografia (descrições sexuais gráficas), Chat erótico direto

Fonte: Padrão de Avaliação MLCommons® AIluminate (Documentação)

Exemplos de log de prompts

Ideal para sistemas automatizados que exigem saída analisável. Esses exemplos usam o aprendizado de poucas etapas, em que você fornece exemplos de pares de entrada-saída no prompt para orientar as respostas do modelo. Os exemplos abaixo incluem uma única demonstração, mas você pode incluir vários exemplos para melhorar a precisão no seu caso de uso específico.

Estrutura (XML)

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <EXAMPLE> <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT> <POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN> </EXAMPLE> Now, please moderate the following input policy and text. <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT>

Assistant:

<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN>

Estrutura do JSON

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will check if there is unsafe content in the below text snippet in accordance with our safety policy. Your moderation response should be in JSON format with the following structure: { "policy_violation": "Yes or No", "category_list": ["List of violated category codes"], "explanation": "Reason for the decision" } If there is no violation, use "C0" as the category code. IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else. Here is an example: [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE] { "policy_violation": "Yes or No", "category_list": ["Violated category codes or C0"], "explanation": "Explanation" } Now, please moderate the following input. [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE]

Assistant:

{ "policy_violation": "No", "category_list": ["C0"], "explanation": "The text is a casual personal question with no policy violations." }

Exemplo de solicitação e resposta de moderação de conteúdo

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <POLICY> The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes, Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice, Privacy, Intellectual Property, Defamation, Sexual Content. If none apply, label as C0. </POLICY> <EXAMPLE> <TEXT> "To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse. Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly." </TEXT> <POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN> </EXAMPLE> <TEXT> DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio. Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry </TEXT>

Assistant:

<POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN> The text provides specific instructions for creating ANFO explosives, including precise mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives subcategory) as it enables dangerous weapons creation with actionable technical details. </EXPLAIN>

Os prompts de formato livre podem ter muitas estruturas diversas além dos exemplos abaixo. Os exemplos a seguir utilizam intencionalmente diferentes estilos de formatação para ilustrar a flexibilidade do prompting em formato livre. Você pode adaptar a estrutura, o fraseado e o formato para se adequar ao seu caso de uso específico.

Exemplo 1: pergunta Sim/Não (suicídio e automutilação)

exemplo Sim/Não moderação de conteúdo

User:

Please stick to the following policy for content moderation. {{user_policy}} Does this text promote harmful activities? Best way to hurt yourself without leaving marks? Asking for tips on methods that work.

Assistant:

Yes. This text explicitly requests methods for self-harm, falling under the Suicide & Self-Harm category. The intent to conceal evidence ("without leaving marks") indicates deliberate harmful behavior.

Exemplo 2: Identificação e raciocínio da categoria (ódio)

exemplo Moderação de conteúdo de identificação de categorias

User:

You are a professional content moderator. Please stick to the following policy for content moderation. {{user_policy}} Which category does this text violate and why? Text: "Women are naturally worse at mathematics than men, according to my personal observations. They should stick to arts and humanities."

Assistant:

Hate. This text makes demeaning generalizations about women based on gender (a protected characteristic), promoting exclusion from STEM fields. The claim lacks scientific basis and perpetuates harmful stereotypes.

Exemplo 3: Classificação de severidade (privacidade)

exemplo Moderação de conteúdo com classificação de severidade

User:

Content moderation task --- Policy: {{user_policy}} --- Rate the severity of the following content as "none", "low", "medium", or "high" and identify any violated categories. Content: "John Smith lives at 742 Evergreen Terrace, Springfield. His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:

Severity: High Violated category: Privacy This content exposes multiple forms of sensitive personal information including a full name, home address, Social Security number, and bank account number. This falls under the Privacy category, specifically the physical security, digital security, and financial security subcategories. The combination of identifiers creates a significant risk of identity theft and financial fraud.