View a markdown version of this page

Moderación de contenido - Amazon Nova

Moderación de contenido

Esta guía presenta las prácticas recomendadas para formular peticiones en los modelos de Amazon Nova con el fin de realizar la moderación de contenido utilizando la MLCommons® AILuminate Assessment Standard, un marco integral con 12 categorías de riesgos para la seguridad de la IA. Si bien esta guía utiliza la norma de MLCommons como ejemplo para mostrar las prácticas recomendadas, las técnicas de formulación de peticiones son aplicables a cualquier definición y categoría de moderación de contenido personalizable o de formato libre que usted configure.

Principios clave

  • Usar peticiones estructuradas (XML, JSON) o de formato libre según el caso de uso

  • Moderar cualquier contenido de texto: conversaciones, artículos, publicaciones en redes sociales, comentarios, reseñas y más

  • Entregar definiciones claras de política

  • Pedir explicaciones en aras de la transparencia

Recomendamos la siguiente configuración de inferencia para las tareas de moderación de contenido:

  • Temperatura: utilice el valor predeterminado de 0,7.

  • Top P: utilice el valor predeterminado de 0,9.

  • Razonamiento: deshabilite el razonamiento para la moderación de contenido y así reducir la latencia.

Taxonomía universal de MLCommons

La norma define 12 categorías de riesgos:

Categorías de riesgos de MLCommons AILuminate
Categoría Definición Subcategorías clave
Delitos violentos Contenido que permita, facilite o apoye la comisión de delitos violentos. Violencia masiva, asesinato, agresión física, violencia intrafamiliar, terror, maltrato animal
Delitos no violentos Contenido que permita, facilite o apoye los delitos no violentos Trabajo forzado, fraude, robo, incendio provocado, delitos relacionados con las drogas, delitos relacionados con armas y delitos cibernéticos
Delitos sexuales Contenido que permita, facilite o apoye los delitos sexuales Tráfico sexual, agresión sexual, acoso sexual, contenido íntimo no consensual, bestialidad
Explotación sexual infantil Contenido que contenga, describa, permita, facilite o apoye el abuso sexual de menores Relaciones inapropiadas con niños, abuso sexual de niños, material de abuso sexual infantil
CBRNE (Armas químicas, biológicas, radiológicas, nucleares y explosivos de alto rendimiento) Contenido que permita, facilite o apoye la creación de armas de destrucción masiva Armas químicas, armas biológicas, armas radiológicas, armas nucleares, explosivos de alto rendimiento
Suicidio y autolesión Contenido que permita, facilite o apoye la autolesión intencional Suicidio, autolesión, trastornos de la alimentación, desafíos peligrosos
Odio Contenido que degrada o deshumaniza a las personas según características protegidas Comentarios denigrantes, infligir daños físicos o emocionales, exclusión y aislamiento
Asesoramiento especializado Asesoramiento no calificado en dominios sensibles sin las debidas exenciones de responsabilidad Asesoramiento financiero, asesoramiento médico, asesoramiento legal, asesoramiento electoral, afirmaciones de seguridad
Privacidad Contenido que contenga información personal confidencial no pública Seguridad física (direcciones), seguridad digital (credenciales), seguridad financiera (números de cuenta)
Propiedad intelectual Contenido que infrinja o fomente la violación de los derechos de propiedad intelectual Infracción de derechos de autor, de marca registrada, de patente
Difamación Contenido falsificado verificable que pueda perjudicar la reputación de una persona. Difamación, calumnia, denigración
Contenido sexual Contenido erótico, como la pornografía y el cibersexo Pornografía (descripciones sexuales gráficas), chat erótico directo

Fuente: MLCommons® AILuminate Assessment Standard (documentación)

Ejemplos de peticiones

Ideal para sistemas automatizados que requieren una salida analizable. Estos ejemplos utilizan el aprendizaje con pocos ejemplos (few-shot), en el que se proporcionan pares de entrada-salida de ejemplo en la petición para guiar las respuestas del modelo. Los siguientes ejemplos incluyen una sola demostración, pero es posible incluir varios ejemplos para mejorar la precisión en su caso de uso específico.

Estructura (XML)

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <EXAMPLE> <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT> <POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN> </EXAMPLE> Now, please moderate the following input policy and text. <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT>

Assistant:

<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN>

Estructura (JSON)

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will check if there is unsafe content in the below text snippet in accordance with our safety policy. Your moderation response should be in JSON format with the following structure: { "policy_violation": "Yes or No", "category_list": ["List of violated category codes"], "explanation": "Reason for the decision" } If there is no violation, use "C0" as the category code. IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else. Here is an example: [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE] { "policy_violation": "Yes or No", "category_list": ["Violated category codes or C0"], "explanation": "Explanation" } Now, please moderate the following input. [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE]

Assistant:

{ "policy_violation": "No", "category_list": ["C0"], "explanation": "The text is a casual personal question with no policy violations." }

Ejemplo de petición y respuesta para la moderación de contenido

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <POLICY> The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes, Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice, Privacy, Intellectual Property, Defamation, Sexual Content. If none apply, label as C0. </POLICY> <EXAMPLE> <TEXT> "To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse. Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly." </TEXT> <POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN> </EXAMPLE> <TEXT> DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio. Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry </TEXT>

Assistant:

<POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN> The text provides specific instructions for creating ANFO explosives, including precise mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives subcategory) as it enables dangerous weapons creation with actionable technical details. </EXPLAIN>

Las peticiones de formato libre pueden tener estructuras muy variadas, además de las que se presentan a continuación. En los siguientes ejemplos se utilizan intencionalmente diferentes estilos de formato para ilustrar la flexibilidad de la formulación de peticiones de formato libre. Puede adaptar la estructura, la redacción y el formato para adaptarlos a su caso de uso específico.

Ejemplo 1: Pregunta de sí o no (suicidio y autolesión)

ejemplo Moderación de contenido para preguntas de sí o no

User:

Please stick to the following policy for content moderation. {{user_policy}} Does this text promote harmful activities? Best way to hurt yourself without leaving marks? Asking for tips on methods that work.

Assistant:

Yes. This text explicitly requests methods for self-harm, falling under the Suicide & Self-Harm category. The intent to conceal evidence ("without leaving marks") indicates deliberate harmful behavior.

Ejemplo 2: Identificación y razonamiento de categorías (odio)

ejemplo Moderación de contenido para la identificación de categoría

User:

You are a professional content moderator. Please stick to the following policy for content moderation. {{user_policy}} Which category does this text violate and why? Text: "Women are naturally worse at mathematics than men, according to my personal observations. They should stick to arts and humanities."

Assistant:

Hate. This text makes demeaning generalizations about women based on gender (a protected characteristic), promoting exclusion from STEM fields. The claim lacks scientific basis and perpetuates harmful stereotypes.

Ejemplo 3: Clasificación de gravedad (privacidad)

ejemplo Moderación de contenido para la clasificación de gravedad

User:

Content moderation task --- Policy: {{user_policy}} --- Rate the severity of the following content as "none", "low", "medium", or "high" and identify any violated categories. Content: "John Smith lives at 742 Evergreen Terrace, Springfield. His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:

Severity: High Violated category: Privacy This content exposes multiple forms of sensitive personal information including a full name, home address, Social Security number, and bank account number. This falls under the Privacy category, specifically the physical security, digital security, and financial security subcategories. The combination of identifiers creates a significant risk of identity theft and financial fraud.