# Moderação de conteúdo Este guia fornece as melhores práticas para estimular os modelos da Amazon Nova a realizar a moderação de conteúdo usando o [MLCommons® AIluminate Assessment Standard](https://mlcommons.org/ailuminate/safety-resources/) — uma estrutura abrangente com 12 categorias de risco para a segurança da IA. Embora este guia use o padrão MLCommons como exemplo para ilustrar práticas recomendadas, as técnicas de prompting funcionam com quaisquer categorias e definições de moderação de conteúdo em formato livre ou personalizáveis que você especificar. ## Princípios chave + Use prompts estruturados (XML, JSON) ou de formato livre com base no seu caso de uso + Modere qualquer conteúdo de texto: conversas, artigos, publicações em mídias sociais, comentários, avaliações e muito mais + Fornecer definições claras da política + Solicite explicações sobre transparência ## Configuração recomendada Para tarefas de moderação de conteúdo, recomendamos a seguinte configuração de inferência: + **Temperatura** — Use o valor padrão de 0,7. + **Top P** — Use o valor padrão de 0,9. + **Raciocínio** — Desative o raciocínio para moderação de conteúdo para reduzir a latência. ## Taxonomia universal do MLCommons O padrão define 12 categorias de risco: **MLCommons Iluminate categorias de perigo** | Categoria | Definição | Subcategorias principais | | --- | --- | --- | | Crimes violentos | Conteúdo que permite, encoraja ou endossa a prática de crimes violentos | Violência em massa, Assassinato, Agressão física, Abuso doméstico, Terror, Abuso de animais | | Crimes não violentos | Conteúdo que possibilita, encoraja ou endossa atividades criminosas não violentas | Tráfico de mão de obra, fraude, roubo, incêndio criminoso, crimes de drogas, crimes com armas, crimes cibernéticos | | Crimes relacionados ao sexo | Conteúdo que permite, encoraja ou endossa crimes relacionados ao sexo | Tráfico sexual, Agressão sexual, Assédio sexual, Conteúdo íntimo não consensual, Bestialidade | | Exploração sexual filho | Conteúdo que contém, descreve, possibilita, encoraja ou endossa o abuso sexual de menores | Relações inapropriadas com crianças, Abuso sexual de crianças, CSAM | | CELEIRO | Conteúdo que permite, encoraja ou endossa a criação de armas de destruição em massa | Armas químicas, armas biológicas, armas radiológicas, armas nucleares, explosivos de alto rendimento | | Suicídio e automutilação | Conteúdo que permite, encoraja ou endossa a automutilação intencional | Suicídio, Automutilação, Transtornos alimentares, Desafios perigosos | | Ódio | Conteúdo que rebaixa ou desumaniza pessoas com base em características protegidas | Observações humilhantes, infligindo danos físicos/emocionais, exclusão e isolamento | | Assessoria especializada | Assessoria não qualificada em domínios confidenciais sem isenções de responsabilidade apropriadas | Assessoria financeira, Assessoria médica, Assessoria jurídica, Aconselhamento eleitoral, Alegações de segurança | | Privacidade | Conteúdo contendo informações pessoais confidenciais não públicas | Segurança física (endereços), Segurança digital (credenciais), Segurança financeira (números de contas) | | propriedade intelectual | Conteúdo que viole ou incentive a violação dos direitos de propriedade intelectual | Violação de direitos autorais, violação de marca comercial, violação de patente | | Difamação | Conteúdo comprovadamente falso e suscetível de prejudicar a reputação de alguém | Difamação, calúnia, depreciação | | Conteúdo sexual | Conteúdo erótico, incluindo pornografia e cibersexo | Pornografia (descrições sexuais gráficas), Chat erótico direto | Fonte: Padrão de Avaliação MLCommons® AIluminate (Documentação) ## Exemplos de log de prompts ### estrutura de formato Ideal para sistemas automatizados que exigem saída analisável. Esses exemplos usam o aprendizado de poucas etapas, em que você fornece exemplos de pares de entrada-saída no prompt para orientar as respostas do modelo. Os exemplos abaixo incluem uma única demonstração, mas você pode incluir vários exemplos para melhorar a precisão no seu caso de uso específico. #### Estrutura (XML) `User:` ``` You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either Yes for content that violates policies, or No for content that does not violate policies. Then, list the specific violation categories between and tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in tags. Here is an example. {{Policy definitions and categories}} {{Content to moderate}} Yes/No Categories or C0 Explanation Now, please moderate the following input policy and text. {{Policy definitions and categories}} {{Content to moderate}} ``` `Assistant:` ``` Yes/No Categories or C0 Explanation ``` #### Estrutura do JSON `User:` ``` You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will check if there is unsafe content in the below text snippet in accordance with our safety policy. Your moderation response should be in JSON format with the following structure: { "policy_violation": "Yes or No", "category_list": ["List of violated category codes"], "explanation": "Reason for the decision" } If there is no violation, use "C0" as the category code. IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else. Here is an example: [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE] { "policy_violation": "Yes or No", "category_list": ["Violated category codes or C0"], "explanation": "Explanation" } Now, please moderate the following input. [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE] ``` `Assistant:` ``` { "policy_violation": "No", "category_list": ["C0"], "explanation": "The text is a casual personal question with no policy violations." } ``` #### Exemplo de solicitação e resposta de moderação de conteúdo `User:` ``` You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either Yes for content that violates policies, or No for content that does not violate policies. Then, list the specific violation categories between and tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in tags. Here is an example. The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes, Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice, Privacy, Intellectual Property, Defamation, Sexual Content. If none apply, label as C0. "To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse. Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly." Yes CBRNE Provides instructions for creating explosives, enabling dangerous weapons creation. DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio. Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry ``` `Assistant:` ``` Yes CBRNE The text provides specific instructions for creating ANFO explosives, including precise mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives subcategory) as it enables dangerous weapons creation with actionable technical details. ``` ### Moderação de conteúdo de forma livre Os prompts de formato livre podem ter muitas estruturas diversas além dos exemplos abaixo. Os exemplos a seguir utilizam intencionalmente diferentes estilos de formatação para ilustrar a flexibilidade do prompting em formato livre. Você pode adaptar a estrutura, o fraseado e o formato para se adequar ao seu caso de uso específico. #### Exemplo 1: pergunta Sim/Não (suicídio e automutilação) **Example Sim/Não moderação de conteúdo** `User:` ``` Please stick to the following policy for content moderation. {{user_policy}} Does this text promote harmful activities? Best way to hurt yourself without leaving marks? Asking for tips on methods that work. ``` `Assistant:` ``` Yes. This text explicitly requests methods for self-harm, falling under the Suicide & Self-Harm category. The intent to conceal evidence ("without leaving marks") indicates deliberate harmful behavior. ``` #### Exemplo 2: Identificação e raciocínio da categoria (ódio) **Example Moderação de conteúdo de identificação de categorias** `User:` ``` You are a professional content moderator. Please stick to the following policy for content moderation. {{user_policy}} Which category does this text violate and why? Text: "Women are naturally worse at mathematics than men, according to my personal observations. They should stick to arts and humanities." ``` `Assistant:` ``` Hate. This text makes demeaning generalizations about women based on gender (a protected characteristic), promoting exclusion from STEM fields. The claim lacks scientific basis and perpetuates harmful stereotypes. ``` #### Exemplo 3: Classificação de severidade (privacidade) **Example Moderação de conteúdo com classificação de severidade** `User:` ``` Content moderation task --- Policy: {{user_policy}} --- Rate the severity of the following content as "none", "low", "medium", or "high" and identify any violated categories. Content: "John Smith lives at 742 Evergreen Terrace, Springfield. His SSN is 123-45-6789 and his bank account number is 9876543210." ``` `Assistant:` ``` Severity: High Violated category: Privacy This content exposes multiple forms of sensitive personal information including a full name, home address, Social Security number, and bank account number. This falls under the Privacy category, specifically the physical security, digital security, and financial security subcategories. The combination of identifiers creates a significant risk of identity theft and financial fraud. ```