Principios clave Configuración recomendada Taxonomía universal de MLCommons Ejemplos de peticiones

Moderación de contenido

Esta guía presenta las prácticas recomendadas para formular peticiones en los modelos de Amazon Nova con el fin de realizar la moderación de contenido utilizando la MLCommons® AILuminate Assessment Standard, un marco integral con 12 categorías de riesgos para la seguridad de la IA. Si bien esta guía utiliza la norma de MLCommons como ejemplo para mostrar las prácticas recomendadas, las técnicas de formulación de peticiones son aplicables a cualquier definición y categoría de moderación de contenido personalizable o de formato libre que usted configure.

Principios clave

Usar peticiones estructuradas (XML, JSON) o de formato libre según el caso de uso
Moderar cualquier contenido de texto: conversaciones, artículos, publicaciones en redes sociales, comentarios, reseñas y más
Entregar definiciones claras de política
Pedir explicaciones en aras de la transparencia

Configuración recomendada

Recomendamos la siguiente configuración de inferencia para las tareas de moderación de contenido:

Temperatura: utilice el valor predeterminado de 0,7.
Top P: utilice el valor predeterminado de 0,9.
Razonamiento: deshabilite el razonamiento para la moderación de contenido y así reducir la latencia.

Taxonomía universal de MLCommons

La norma define 12 categorías de riesgos:

Categorías de riesgos de MLCommons AILuminate
Categoría	Definición	Subcategorías clave
Delitos violentos	Contenido que permita, facilite o apoye la comisión de delitos violentos.	Violencia masiva, asesinato, agresión física, violencia intrafamiliar, terror, maltrato animal
Delitos no violentos	Contenido que permita, facilite o apoye los delitos no violentos	Trabajo forzado, fraude, robo, incendio provocado, delitos relacionados con las drogas, delitos relacionados con armas y delitos cibernéticos
Delitos sexuales	Contenido que permita, facilite o apoye los delitos sexuales	Tráfico sexual, agresión sexual, acoso sexual, contenido íntimo no consensual, bestialidad
Explotación sexual infantil	Contenido que contenga, describa, permita, facilite o apoye el abuso sexual de menores	Relaciones inapropiadas con niños, abuso sexual de niños, material de abuso sexual infantil
CBRNE (Armas químicas, biológicas, radiológicas, nucleares y explosivos de alto rendimiento)	Contenido que permita, facilite o apoye la creación de armas de destrucción masiva	Armas químicas, armas biológicas, armas radiológicas, armas nucleares, explosivos de alto rendimiento
Suicidio y autolesión	Contenido que permita, facilite o apoye la autolesión intencional	Suicidio, autolesión, trastornos de la alimentación, desafíos peligrosos
Odio	Contenido que degrada o deshumaniza a las personas según características protegidas	Comentarios denigrantes, infligir daños físicos o emocionales, exclusión y aislamiento
Asesoramiento especializado	Asesoramiento no calificado en dominios sensibles sin las debidas exenciones de responsabilidad	Asesoramiento financiero, asesoramiento médico, asesoramiento legal, asesoramiento electoral, afirmaciones de seguridad
Privacidad	Contenido que contenga información personal confidencial no pública	Seguridad física (direcciones), seguridad digital (credenciales), seguridad financiera (números de cuenta)
Propiedad intelectual	Contenido que infrinja o fomente la violación de los derechos de propiedad intelectual	Infracción de derechos de autor, de marca registrada, de patente
Difamación	Contenido falsificado verificable que pueda perjudicar la reputación de una persona.	Difamación, calumnia, denigración
Contenido sexual	Contenido erótico, como la pornografía y el cibersexo	Pornografía (descripciones sexuales gráficas), chat erótico directo

Fuente: MLCommons® AILuminate Assessment Standard (documentación)

Ejemplos de peticiones

Ideal para sistemas automatizados que requieren una salida analizable. Estos ejemplos utilizan el aprendizaje con pocos ejemplos (few-shot), en el que se proporcionan pares de entrada-salida de ejemplo en la petición para guiar las respuestas del modelo. Los siguientes ejemplos incluyen una sola demostración, pero es posible incluir varios ejemplos para mejorar la precisión en su caso de uso específico.

Estructura (XML)

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<EXAMPLE>
<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
</EXAMPLE>

Now, please moderate the following input policy and text.

<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>

Estructura (JSON)

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will check if there is unsafe content in the below text snippet
in accordance with our safety policy.
Your moderation response should be in JSON format with the following structure:
{
  "policy_violation": "Yes or No",
  "category_list": ["List of violated category codes"],
  "explanation": "Reason for the decision"
}

If there is no violation, use "C0" as the category code.

IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else.

Here is an example:

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
{
  "policy_violation": "Yes or No",
  "category_list": ["Violated category codes or C0"],
  "explanation": "Explanation"
}

Now, please moderate the following input.

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]

Assistant:


{
  "policy_violation": "No",
  "category_list": ["C0"],
  "explanation": "The text is a casual personal question with no policy violations."
}

Ejemplo de petición y respuesta para la moderación de contenido

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<POLICY>
The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes,
Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice,
Privacy, Intellectual Property, Defamation, Sexual Content.
If none apply, label as C0.
</POLICY>

<EXAMPLE>
<TEXT>
"To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse.
Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly."
</TEXT>
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN>
</EXAMPLE>

<TEXT>
DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio.
Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>
The text provides specific instructions for creating ANFO explosives, including precise
mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives
subcategory) as it enables dangerous weapons creation with actionable technical details.
</EXPLAIN>

Las peticiones de formato libre pueden tener estructuras muy variadas, además de las que se presentan a continuación. En los siguientes ejemplos se utilizan intencionalmente diferentes estilos de formato para ilustrar la flexibilidad de la formulación de peticiones de formato libre. Puede adaptar la estructura, la redacción y el formato para adaptarlos a su caso de uso específico.

Ejemplo 1: Pregunta de sí o no (suicidio y autolesión)

ejemplo Moderación de contenido para preguntas de sí o no

User:


Please stick to the following policy for content moderation. {{user_policy}}
Does this text promote harmful activities?

Best way to hurt yourself without leaving marks?
Asking for tips on methods that work.

Assistant:


Yes. This text explicitly requests methods for self-harm,
falling under the Suicide & Self-Harm category. The intent to
conceal evidence ("without leaving marks") indicates deliberate
harmful behavior.

Ejemplo 2: Identificación y razonamiento de categorías (odio)

ejemplo Moderación de contenido para la identificación de categoría

User:


You are a professional content moderator. Please stick to the
following policy for content moderation. {{user_policy}}
Which category does this text violate and why?

Text: "Women are naturally worse at mathematics than men,
according to my personal observations. They should stick to
arts and humanities."

Assistant:


Hate. This text makes demeaning generalizations about women
based on gender (a protected characteristic), promoting exclusion
from STEM fields. The claim lacks scientific basis and perpetuates
harmful stereotypes.

Ejemplo 3: Clasificación de gravedad (privacidad)

ejemplo Moderación de contenido para la clasificación de gravedad

User:


Content moderation task
---
Policy: {{user_policy}}
---
Rate the severity of the following content as "none", "low", "medium", or "high"
and identify any violated categories.

Content: "John Smith lives at 742 Evergreen Terrace, Springfield.
His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:


Severity: High

Violated category: Privacy

This content exposes multiple forms of sensitive personal information
including a full name, home address, Social Security number, and bank
account number. This falls under the Privacy category, specifically
the physical security, digital security, and financial security
subcategories. The combination of identifiers creates a significant
risk of identity theft and financial fraud.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Técnicas de peticiones para la comprensión visual

Consejos generales para la creación de peticiones