Terminología de aprendizaje automático de AWS Clean Rooms Cómo funciona AWS Clean Rooms ML con AWS los modelos Cómo funciona AWS Clean Rooms ML con modelos personalizados

AWS Clean Rooms ML

El aprendizaje automático de AWS Clean Rooms permite a dos o más partes ejecutar modelos de aprendizaje automático en sus datos sin necesidad de compartirlos entre sí. El servicio proporciona controles que mejoran la privacidad y permiten a los propietarios de los datos proteger sus datos y la IP de su modelo. Puede usar modelos AWS creados o traer su propio modelo personalizado.

Para obtener una explicación más detallada de cómo funciona esto, consulte Cross-account trabajos

Para obtener más información sobre las capacidades de los modelos Clean Rooms ML, consulte los siguientes temas.

Temas

Terminología de aprendizaje automático de AWS Clean Rooms
Cómo funciona AWS Clean Rooms ML con AWS los modelos
Cómo funciona AWS Clean Rooms ML con modelos personalizados
AWS modelos en Clean Rooms ML
Modelos personalizados en Clean Rooms ML

Terminología de aprendizaje automático de AWS Clean Rooms

Es importante entender la siguiente terminología al utilizar Clean Rooms ML:

Proveedor de datos de entrenamiento: la parte que aporta los datos de entrenamiento, crea y configura un modelo similar y, a continuación, lo asocia a una colaboración.
Proveedor de datos iniciales: la parte que aporta los datos iniciales, genera un segmento similar y exporta su segmento similar.
Datos de entrenamiento: los datos del proveedor de datos de entrenamiento, que se utilizan para generar un modelo similar. Los datos de entrenamiento se utilizan para medir la similitud en los comportamientos de los usuarios.

Los datos de entrenamiento deben contener un ID de usuario, un ID de elemento y una columna de marca de tiempo. De forma opcional, los datos de entrenamiento pueden contener otras interacciones, como características numéricas o categóricas. Algunos ejemplos de interacciones son una lista de los vídeos visualizados, los artículos comprados o los artículos leídos.
Datos iniciales: los datos del proveedor de datos iniciales, que se utilizan para crear un segmento similar. Los datos iniciales se pueden proporcionar directamente o pueden provenir de los resultados de una AWS Clean Rooms consulta. El resultado del segmento similar es un conjunto de usuarios a partir de los datos de entrenamiento que se parece más a los usuarios iniciales.
Modelo similar: un modelo de machine learning de los datos de entrenamiento que se utiliza para encontrar usuarios similares en otros conjuntos de datos.

Cuando se utiliza la API, el término modelo de audiencia se utiliza de manera equivalente a modelo similar. Por ejemplo, se utiliza la CreateAudienceModelAPI para crear un modelo similar.
Segmento similar: es un subconjunto de los datos de entrenamiento que se parecen más a los datos iniciales.

Al utilizar la API, se crea un segmento similar con la StartAudienceGenerationJobAPI.

Los datos del proveedor de datos de entrenamiento nunca se comparten con el proveedor de datos iniciales, y viceversa. La salida del segmento similar se comparte con el proveedor de datos de entrenamiento, pero nunca con el proveedor de datos iniciales.

Cómo funciona AWS Clean Rooms ML con AWS los modelos

Para trabajar con modelos similares, es necesario que dos partes, un proveedor de datos de formación y un proveedor de datos iniciales, trabajen secuencialmente AWS Clean Rooms para integrar sus datos en una colaboración. Este es el flujo de trabajo que el proveedor de datos de entrenamiento debe completar primero:

Los datos del proveedor de datos de formación deben almacenarse en una tabla de catálogo de AWS Glue datos con las interacciones entre usuarios y elementos. Como mínimo, los datos de entrenamiento deben contener una columna de ID de usuario, una columna de ID de interacción y una columna de marca temporal.
El proveedor de datos de entrenamiento registra los datos de entrenamiento con AWS Clean Rooms.
El proveedor de datos de entrenamiento crea un modelo similar que se puede compartir con varios proveedores de datos iniciales. El modelo similar es una red neuronal profunda que puede tardar hasta 24 horas en entrenarse. No se reentrena automáticamente y le recomendamos que vuelva a entrenar el modelo una vez por semana.
El proveedor de datos de entrenamiento configura el modelo similar, que incluye si desea compartir las métricas de relevancia y la ubicación en Amazon S3 de los segmentos de salida. El proveedor de datos de entrenamiento puede crear varios modelos similares configurados a partir de un único modelo similar.
El proveedor de datos de entrenamiento asocia el modelo de audiencia configurado a una colaboración que se comparte con un proveedor de datos iniciales.

Este es el flujo de trabajo que el proveedor de datos iniciales debe completar a continuación:

Los datos del proveedor de datos iniciales se pueden almacenar en un bucket de Amazon S3 o pueden provenir de los resultados de una consulta.
El proveedor de datos iniciales comienza la colaboración que comparte con el proveedor de datos de entrenamiento.
El proveedor de datos iniciales crea un segmento similar en la pestaña de Clean Rooms ML de la página de colaboración.
El proveedor de datos iniciales puede evaluar las métricas de relevancia, en caso de que se hayan compartido, y exportar el segmento similar para su uso fuera de AWS Clean Rooms.

Cómo funciona AWS Clean Rooms ML con modelos personalizados

Con Clean Rooms ML, los miembros de una colaboración pueden utilizar un algoritmo de modelo personalizado dockerizado que se almacena en Amazon ECR para analizar sus datos de forma conjunta. Para ello, el proveedor del modelo debe crear una imagen y almacenarla en Amazon ECR. Siga los pasos de la Guía del usuario de Amazon Elastic Container Registry para crear un repositorio privado que contendrá el modelo de aprendizaje automático personalizado.

Cualquier miembro de una colaboración puede ser el proveedor del modelo, siempre que cuente con los permisos correctos. Todos los miembros de una colaboración pueden aportar datos de entrenamiento, datos de inferencia o ambos al modelo. A los efectos de esta guía, los miembros que aportan datos se denominan proveedores de datos. El miembro que crea la colaboración es el creador de la colaboración y puede ser el proveedor del modelo, uno de los proveedores de datos o ambos.

En el nivel más alto, estos son los pasos que se deben completar para realizar un modelado de aprendizaje automático personalizado:

El creador de la colaboración crea una colaboración y asigna a cada miembro las capacidades y la configuración de pago adecuadas. En este paso, el creador de la colaboración debe asignar al miembro la capacidad de recibir los resultados del modelo o los resultados de las inferencias al miembro correspondiente, ya que no se puede actualizar una vez creada la colaboración. Para obtener más información, consulte Crear y unirse a la colaboración en AWS Clean Rooms ML.
El proveedor del modelo configura y asocia su modelo de aprendizaje automático en contenedores a la colaboración y se asegura de que se establezcan restricciones de privacidad para los datos exportados. Para obtener más información, consulte Configuración de un algoritmo modelo en AWS Clean Rooms ML.
Los proveedores de datos aportan sus datos a la colaboración y se aseguran de que se especifiquen sus necesidades de privacidad. Los proveedores de datos deben permitir que el modelo acceda a sus datos. Para obtener más información, consulte Contribución de datos de formación en AWS Clean Rooms ML y Asociación del algoritmo del modelo configurado en AWS Clean Rooms ML.
Un miembro de la colaboración crea la configuración de aprendizaje automático, que define a dónde se exportan los artefactos del modelo o los resultados de las inferencias.
Un miembro de la colaboración crea un canal de entrada de aprendizaje automático que proporciona información al contenedor de formación o al contenedor de inferencias. El canal de entrada de ML es una consulta que define los datos que se utilizarán en el contexto del algoritmo del modelo.
Un miembro de la colaboración invoca el entrenamiento del modelo mediante el canal de entrada ML y el algoritmo del modelo configurado. Para obtener más información, consulte Creación de un modelo entrenado en AWS Clean Rooms ML.
(Opcional) El entrenador de modelos invoca el trabajo de exportación del modelo y los artefactos del modelo se envían al receptor de resultados del modelo. Solo los miembros con una configuración de aprendizaje automático válida y con la capacidad de recibir la salida del modelo pueden recibir artefactos del modelo. Para obtener más información, consulte Exportación de artefactos modelo desde AWS Clean Rooms ML.
(Opcional) Un miembro de la colaboración invoca la inferencia del modelo mediante el canal de entrada ML, el ARN del modelo entrenado y el algoritmo del modelo configurado por inferencia. Los resultados de la inferencia se envían al receptor de salida de la inferencia. Solo los miembros con una configuración de aprendizaje automático válida y con la capacidad de recibir los resultados de la inferencia pueden recibir los resultados de la inferencia.

Estos son los pasos que debe completar el proveedor del modelo:

Cree una imagen de docker de Amazon ECR compatible con SageMaker IA. Clean Rooms ML solo admite imágenes de docker compatibles con SageMaker IA.
Una vez que haya creado una imagen de docker compatible con SageMaker IA, envíe la imagen a Amazon ECR. Siga las instrucciones de la Guía del usuario de Amazon Elastic Container Registry para crear una imagen de formación sobre contenedores.
Configure el algoritmo del modelo para usarlo en Clean Rooms ML.
1. Proporcione el enlace al repositorio de Amazon ECR y todos los argumentos necesarios para configurar el algoritmo del modelo.
2. Proporcione un rol de acceso al servicio que permita a Clean Rooms ML acceder al repositorio de Amazon ECR.
3. Asocie el algoritmo del modelo configurado a la colaboración. Esto incluye proporcionar una política de privacidad que defina los controles para los registros de contenedores, los registros de errores, CloudWatch las métricas y los límites sobre la cantidad de datos que se pueden exportar de los resultados del contenedor.

Estos son los pasos que debe completar el proveedor de datos para colaborar con un modelo de aprendizaje automático personalizado:

Configure una AWS Glue tabla existente con una regla de análisis personalizada. Esto permite que un conjunto específico de consultas preaprobadas o cuentas preaprobadas utilice sus datos.
Asocie la tabla configurada a una colaboración y proporcione un rol de acceso al servicio que pueda acceder a sus AWS Glue tablas.
Agregue una regla de análisis de colaboración a la tabla que permita a la asociación de algoritmos del modelo configurado acceder a la tabla configurada.
Una vez que el modelo y los datos están asociados y configurados en Clean Rooms ML, el miembro con capacidad para ejecutar consultas proporciona una consulta SQL y selecciona el algoritmo del modelo que va a utilizar.

Una vez finalizado el entrenamiento del modelo, ese miembro inicia la exportación de los artefactos del entrenamiento del modelo o de los resultados de las inferencias. Estos artefactos o resultados se envían al miembro para que pueda recibir los resultados del modelo entrenado. El receptor de los resultados debe configurarlos MachineLearningConfiguration antes de poder recibir la salida del modelo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Limitaciones

AWS modelos en Clean Rooms ML