Detención del contenido dañino en los modelos que utilizan barreras de protección de Amazon Bedrock

Modo de enfoque

Detención del contenido dañino en los modelos que utilizan barreras de protección de Amazon Bedrock - Amazon Bedrock

Amazon Bedrock Guardrails puede implementar medidas de seguridad para sus aplicaciones de IA generativa en función de sus casos de uso y de las políticas de IA responsables. Puede crear varias barreras de protección adaptadas a diferentes casos de uso y aplicarlas en varios modelos fundacionales (FM), lo que proporciona una experiencia de usuario uniforme y estandariza los controles de seguridad y privacidad en todas las aplicaciones de IA generativa. Puede utilizar barandillas tanto para las entradas de los usuarios como para modelar las respuestas con un lenguaje natural.

Las barreras de protección se pueden utilizar de varias formas para ayudar a proteger las aplicaciones de IA generativa. Por ejemplo:

Una aplicación de chatbot puede utilizar barreras de protección para ayudar a filtrar las entradas dañinas de los usuarios y las respuestas tóxicas de los modelos.
Una aplicación bancaria puede utilizar barreras de protección para bloquear las consultas de los usuarios o las respuestas del modelo relacionadas con la búsqueda o la prestación de asesoramiento en materia de inversiones.
Una aplicación de centro de llamadas para resumir las transcripciones de las conversaciones entre usuarios y agentes puede utilizar barreras de protección para redactar la información de identificación personal (PII) de los usuarios a fin de proteger su privacidad.

Amazon Bedrock Guardrails admite las siguientes políticas:

Filtros de contenido: ajuste la intensidad de los filtros para ayudar a bloquear las peticiones de entrada o las respuestas de los modelos que contengan contenido dañino. El filtrado se realiza en función de la detección de determinadas categorías de contenido dañino predefinidas: odio, insultos, contenido sexual, violencia, mala conducta y ataque inmediato.
Temas denegados: defina un conjunto de temas no deseables en el contexto de su solicitud. El filtro ayudará a bloquearlos si se detectan en las consultas de los usuarios o en las respuestas del modelo.
Filtros de palabras: configure los filtros para bloquear palabras, frases y blasfemias no deseadas (coincidencias exactas). Estas palabras pueden incluir términos ofensivos, nombres de la competencia, etc.
Filtros de información confidencial: configure filtros para bloquear o enmascarar información confidencial, como la información de identificación personal (PII), o personalice las expresiones regulares en las entradas de los usuarios y en las respuestas del modelo. El bloqueo o el enmascaramiento se realizan en función de la detección probabilística de información confidencial en formatos estándar en entidades como el número de seguro social, la fecha de nacimiento, la dirección, etc. Esto también permite configurar la detección de patrones de identificadores basada en expresiones regulares.
Verificación de fundamento contextual: ayude a detectar y filtrar las alucinaciones en las respuestas del modelo según el fundamento en un origen y su relevancia para la consulta del usuario.
Filtro de contenido de imagen: ayuda a detectar y filtrar contenido de imágenes inapropiado o tóxico. Los usuarios pueden configurar filtros para categorías específicas y establecer la intensidad del filtro.

Además de las políticas anteriores, también puede configurar los mensajes para que se devuelvan al usuario en caso de que una entrada del usuario o una respuesta del modelo infrinjan las políticas definidas en la barrera de protección.

Experimente y realice pruebas comparativas con diferentes configuraciones y utilice la ventana de prueba integrada para asegurarse de que los resultados cumplen con los requisitos de su caso de uso. Al crear una barrera de protección, hay un borrador de trabajo disponible automáticamente para que lo modifique de forma iterativa. Experimente con diferentes configuraciones y utilice la ventana de prueba integrada para comprobar si son adecuadas para su caso de uso. Si le satisface el conjunto de configuraciones, puede crear una versión de la barrera de protección y utilizarla con los modelos fundacionales compatibles.

Las barandillas se pueden usar directamente FMs durante la invocación de la API de inferencia especificando el ID de la barandilla y la versión. Las barandillas también se pueden usar directamente a través de la API sin invocar los modelos básicos. ApplyGuardrail Si se utiliza una barrera de protección, esta evaluará las peticiones de entrada y la finalización del FM comparándolas con las políticas definidas.

En el caso de las aplicaciones de generación aumentada por recuperación (RAG) o conversacionales, es posible que tenga que evaluar únicamente la entrada del usuario en la petición de entrada y, al mismo tiempo, descartar las instrucciones del sistema, los resultados de la búsqueda, el historial de conversaciones o algunos ejemplos breves. Para evaluar una sección de la petición de entrada de forma selectiva, consulte Aplicación de etiquetas a las entradas de usuarios para filtrar el contenido.

importante

Amazon Bedrock Guardrails admite inglés, francés y español en lenguaje natural. Los guardrails no serán efectivos en ningún otro idioma.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejecución de ejemplos de código

Tema siguiente:

Tema anterior:

Ejecución de ejemplos de código

¿Necesita ayuda?

Privacidad Términos del sitio Preferencias de cookies

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies