Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Capacidad 2. Proporcionar acceso, uso e implementación seguros a las técnicas de IA RAG generativa
El siguiente diagrama ilustra los AWS servicios recomendados para la cuenta de IA generativa para la capacidad de generación aumentada () RAG de recuperación. El objetivo de este escenario es garantizar RAG la funcionalidad.
La cuenta Generative AI incluye los servicios necesarios para almacenar las incrustaciones en una base de datos vectorial, almacenar las conversaciones de los usuarios y mantener un almacenamiento rápido, junto con un conjunto de servicios de seguridad necesarios para implementar barreras de seguridad y una gobernanza de seguridad centralizada. Debe crear puntos de enlace de Amazon S3 para los registros de invocación del modelo, el almacén de solicitudes y los depósitos de fuentes de datos de la base de conocimientos en Amazon S3 a los que el VPC entorno está configurado para acceder. También debe crear un punto de enlace de CloudWatch Logs Gateway para los CloudWatch registros a los que el VPC entorno está configurado para acceder.
Justificación
La generación aumentada de recuperación (RAG)
Al dar a los usuarios acceso a las bases de conocimiento de Amazon Bedrock, debe tener en cuenta estas consideraciones clave de seguridad:
-
Acceso seguro a la invocación del modelo, a las bases de conocimiento, al historial de conversaciones y al almacén de mensajes
-
Cifrado de conversaciones, almacenamiento rápido y bases de conocimiento
-
Alertas sobre posibles riesgos de seguridad, como la inyección inmediata o la divulgación de información confidencial
En la siguiente sección, se analizan estas consideraciones de seguridad y la funcionalidad generativa de la IA.
Consideraciones sobre el diseño
Le recomendamos que evite personalizar un FM con datos confidenciales (consulte la sección sobre la personalización del modelo de IA generativa más adelante en esta guía). En su lugar, utilice la RAG técnica para interactuar con información confidencial. Este método ofrece varias ventajas:
-
Control y visibilidad más estrictos. Al mantener los datos confidenciales separados del modelo, puede ejercer un mayor control y visibilidad sobre la información confidencial. Los datos se pueden editar, actualizar o eliminar fácilmente según sea necesario, lo que ayuda a garantizar una mejor gobernanza de los datos.
-
Mitigar la divulgación de información confidencial. RAGpermite interacciones más controladas con datos confidenciales durante la invocación del modelo. Esto ayuda a reducir el riesgo de divulgación involuntaria de información confidencial, lo que podría ocurrir si los datos se incorporaran directamente a los parámetros del modelo.
-
Flexibilidad y adaptabilidad. Separar los datos confidenciales del modelo proporciona una mayor flexibilidad y adaptabilidad. A medida que cambian los requisitos o las normativas en materia de datos, la información confidencial se puede actualizar o modificar sin necesidad de volver a entrenar o reconstruir todo el modelo lingüístico.
Bases de conocimiento de Amazon Bedrock
Puede utilizar las bases de conocimiento de Amazon Bedrock para crear RAG aplicaciones conectándose FMs con sus propias fuentes de datos de forma segura y eficiente. Esta función utiliza Amazon OpenSearch Serverless como almacén vectorial para recuperar información relevante de sus datos de manera eficiente. Luego, el FM utiliza los datos para generar respuestas. Los datos se sincronizan desde Amazon S3 con la base de conocimientos y se generan incrustaciones
Consideraciones de seguridad
RAGLas cargas de trabajo generativas de IA se enfrentan a riesgos únicos, como la exfiltración de datos de las fuentes de datos y el envenenamiento de las fuentes de RAG datos con inyecciones rápidas o malware por parte de RAG los actores de amenazas. Las bases de conocimiento de Amazon Bedrock ofrecen controles de seguridad sólidos para la protección de datos, el control de acceso, la seguridad de la red, el registro y la supervisión y la validación de entrada/salida que pueden ayudar a mitigar estos riesgos.
Remediaciones
Protección de los datos
Cifre los datos inactivos de su base de conocimientos mediante una AWS clave gestionada por el cliente del Servicio de administración de claves (AWSKMS) que usted cree, posea y gestione. Cuando configure un trabajo de ingesta de datos para su base de conocimientos, cifre el trabajo con una clave gestionada por el cliente. Si opta por permitir que Amazon Bedrock cree una tienda vectorial en Amazon OpenSearch Service para su base de conocimientos, Amazon Bedrock puede pasar una AWS KMS clave de su elección a Amazon OpenSearch Service para su cifrado.
Puede cifrar las sesiones en las que genere respuestas consultando una base de conocimientos con una clave. AWS KMS Las fuentes de datos de la base de conocimientos se almacenan en el bucket de S3. Si cifra sus fuentes de datos en Amazon S3 con una clave gestionada por el cliente, adjunte una política a su función de servicio de Knowledge Base. Si el almacén vectorial que contiene su base de conocimientos está configurado con un secreto de AWS Secrets Manager, cifre el secreto con una clave gestionada por el cliente.
Para obtener más información y las políticas que se deben utilizar, consulte Cifrado de los recursos de la base de conocimientos en la documentación de Amazon Bedrock.
Administración de identidades y accesos
Cree un rol de servicio personalizado para las bases de conocimiento de Amazon Bedrock siguiendo el principio de privilegios mínimos. Cree una relación de confianza que permita a Amazon Bedrock asumir esta función y crear y gestionar bases de conocimiento. Adjunte las siguientes políticas de identidad a la función personalizada de servicio de la base de conocimientos:
-
Permisos para acceder a los modelos de Amazon Bedrock
-
Permisos para acceder a sus fuentes de datos en Amazon S3
-
Permisos para acceder a su base de datos vectorial en OpenSearch Service
-
Permisos para acceder a su clúster de base de datos de Amazon Aurora (opcional)
-
Permisos para acceder a una base de datos vectorial configurada con un secreto de AWS Secrets Manager (opcional)
-
Permisos AWS para administrar una AWS KMS clave para el almacenamiento transitorio de datos durante la ingesta de datos
-
Permisos para chatear con tu documento
-
Permisos AWS para gestionar una fuente de datos desde la AWS cuenta de otro usuario (opcional).
Las bases de conocimiento admiten configuraciones de seguridad para configurar políticas de acceso a datos para su base de conocimientos y políticas de acceso a la red para su base de conocimiento privada de Amazon OpenSearch Serverless. Para obtener más información, consulte Crear una base de conocimientos y funciones de servicio en la documentación de Amazon Bedrock.
Validación de entradas y salidas
La validación de las entradas es crucial para las bases de conocimiento de Amazon Bedrock. Utilice la protección contra malware de Amazon S3 para analizar los archivos en busca de contenido malicioso antes de subirlos a una fuente de datos. Para obtener más información, consulte la entrada del AWS blog Integrating Malware Scanning in Your Data Ingestion Pipeline with Antivirus for Amazon S3
Identifique y filtre las posibles inyecciones rápidas en las subidas por los usuarios a las fuentes de datos de la base de conocimientos. Además, detecte y redacte la información de identificación personal (PII) como otro control de validación de entradas en su proceso de ingesta de datos. Amazon Comprehend puede ayudar a detectar y redactar los datos de las cargas de los usuarios a las fuentes de PII datos de la base de conocimientos. Para obtener más información, consulte Detección de PII entidades en la documentación de Amazon Comprehend.
También le recomendamos que utilice Amazon Macie para detectar y generar alertas sobre posibles datos confidenciales en las fuentes de datos de la base de conocimientos, a fin de mejorar la seguridad y el cumplimiento generales. Implemente Guardrails for Amazon Bedrock para ayudar a aplicar las políticas de contenido, bloquear las entradas y salidas no seguras y ayudar a controlar el comportamiento de los modelos en función de sus requisitos.
Servicios recomendados AWS
Amazon OpenSearch Serverless
Amazon OpenSearch Serverless es una configuración de autoescalado bajo demanda para Amazon OpenSearch Service. Una colección OpenSearch sin servidor es un OpenSearch clúster que escala la capacidad de cómputo en función de las necesidades de la aplicación. Las bases de conocimiento de Amazon Bedrock utilizan Amazon OpenSearch Serverless para las incrustaciones y
Implemente una autenticación y una autorización sólidas para su almacén vectorial sin servidor. OpenSearch Implemente el principio de privilegios mínimos, que otorga solo los permisos necesarios a los usuarios y roles.
Con el control de acceso a los datos de OpenSearch Serverless, puede permitir que los usuarios accedan a las colecciones e índices independientemente de sus mecanismos de acceso o fuentes de red. Los permisos de acceso se administran mediante políticas de acceso a los datos, que se aplican a las colecciones y a los recursos de indexación. Cuando utilice este patrón, compruebe que la aplicación propague la identidad del usuario a la base de conocimientos y que la base de conocimientos aplique sus controles de acceso basados en roles o atributos. Esto se consigue configurando la función de servicio de Knowledge Base con el principio de privilegios mínimos y controlando estrictamente el acceso a la función.
OpenSearch Serverless admite el cifrado del lado del servidor AWS KMS para proteger los datos en reposo. Use una clave administrada por el cliente para cifrar esos datos. Para permitir la creación de una AWS KMS clave para el almacenamiento de datos transitorio en el proceso de ingesta de su fuente de datos, adjunte una política a sus bases de conocimiento para el rol de servicio de Amazon Bedrock.
El acceso privado se puede aplicar a uno o ambos de los siguientes: VPC puntos de conexión OpenSearch administrados sin servidor y servicios compatibles, AWS como Amazon Bedrock. Úselo AWS PrivateLinkpara crear una conexión privada entre sus servicios de punto final y los servicios de punto final sin servidor. VPC OpenSearch Utilice las reglas de la política de red para especificar el acceso a Amazon Bedrock.
Supervise OpenSearch Serverless con Amazon CloudWatch, que recopila datos sin procesar y los procesa en métricas legibles prácticamente en tiempo real. OpenSearch Serverless está integrado con Serverless AWS CloudTrail, lo que captura API las llamadas de OpenSearch Serverless como eventos. OpenSearch El servicio se integra con Amazon EventBridge para notificarle ciertos eventos que afectan a sus dominios. Los auditores externos pueden evaluar la seguridad y el cumplimiento de OpenSearch Serverless como parte de varios programas de AWS cumplimiento.
Amazon S3
Guarde las fuentes de datos para su base de conocimientos en un depósito de S3. Si ha cifrado sus fuentes de datos en Amazon S3 mediante una AWS KMS clave personalizada (se recomienda), adjunte una política a su función de servicio de Knowledge Base. Utilice la protección contra malware de Amazon S3 para analizar los archivos en
Amazon Comprehend
Amazon Comprehend utiliza el procesamiento del lenguaje natural (NLP) para extraer información del contenido de los documentos. Puede usar Amazon Comprehend para detectar y redactar PII entidades en documentos de texto en inglés o español. Integre Amazon Comprehend en su proceso de ingesta de datos para detectar
Amazon S3 le permite cifrar los documentos de entrada al crear un análisis de texto, un modelado de temas o un trabajo personalizado de Amazon Comprehend. Amazon Comprehend se integra AWS KMS para cifrar los datos del volumen de almacenamiento de los trabajos Start* y Create*, y cifra los resultados de salida de los trabajos Start* mediante una clave administrada por el cliente. Le recomendamos que utilice las claves de contexto aws: SourceArn y aws: SourceAccount global condition en las políticas de recursos para limitar los permisos que Amazon Comprehend concede a otro servicio al recurso. Úselo AWS PrivateLinkpara crear una conexión privada entre sus servicios de punto final de Amazon Comprehend VPC y Amazon Comprehend. Implemente políticas basadas en la identidad para Amazon Comprehend con el principio del mínimo privilegio. Amazon Comprehend está integrado con AWS CloudTrail, lo que captura las API llamadas de Amazon Comprehend como eventos. Los auditores externos pueden evaluar la seguridad y el cumplimiento de Amazon Comprehend como parte de varios programas de AWScumplimiento.
Amazon Macie
Macie puede ayudarlo a identificar los datos confidenciales de sus bases de conocimiento que se almacenan como fuentes de datos, modelan los registros de invocación y se almacenan rápidamente en depósitos de S3. Para conocer las mejores prácticas de seguridad de Macie, consulte la sección sobre Macie que aparece anteriormente en esta guía.
AWS KMS
Utilice claves administradas por el cliente para cifrar lo siguiente: trabajos de ingesta de datos para su base de conocimientos, la base de datos vectorial de Amazon OpenSearch Service, sesiones en las que genera respuestas a partir de consultas en una base de conocimientos, registros de invocación de modelos en Amazon S3 y el bucket de S3 que aloja las fuentes de datos.
Utilice Amazon CloudWatch y Amazon CloudTrail como se explica en la sección de inferencia de modelos anterior.