AWS Clean Rooms ML - AWS Clean Rooms

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Clean Rooms ML

AWS Clean Rooms Le machine learning permet à deux ou plusieurs parties d'exécuter des modèles d'apprentissage automatique sur leurs données sans avoir à partager leurs données entre elles. Le service fournit des contrôles renforçant la confidentialité qui permettent aux propriétaires de données de protéger leurs données et leur adresse IP de modèle. Vous pouvez utiliser des AWS modèles créés par des créateurs ou apporter votre propre modèle personnalisé.

Pour une explication plus détaillée de son fonctionnement, voirEmplois multi-comptes.

Pour plus d'informations sur les fonctionnalités des modèles Clean Rooms ML, consultez les rubriques suivantes.

Comment le AWS Clean Rooms ML fonctionne avec les AWS modèles

Vue d'ensemble de la façon dont le AWS Clean Rooms ML fonctionne avec AWS les modèles.

L'utilisation de modèles similaires nécessite que deux parties, un fournisseur de données de formation et un fournisseur de données de départ, travaillent de manière séquentielle AWS Clean Rooms pour intégrer leurs données dans une collaboration. Voici le flux de travail que le fournisseur de données de formation doit effectuer en premier :

  1. Les données du fournisseur de données de formation doivent être stockées dans une table de catalogue de AWS Glue données répertoriant les interactions entre les utilisateurs et les éléments. Les données d'entraînement doivent au minimum contenir une colonne d'ID utilisateur, une colonne d'identifiant d'interaction et une colonne d'horodatage.

  2. Le fournisseur de données de formation enregistre les données de formation auprès de AWS Clean Rooms.

  3. Le fournisseur de données de formation crée un modèle similaire qui peut être partagé avec plusieurs fournisseurs de données de départ. Le modèle similaire est un réseau neuronal profond dont l'entraînement peut prendre jusqu'à 24 heures. Il n'est pas automatiquement réentraîné et nous vous recommandons de le réentraîner chaque semaine.

  4. Le fournisseur de données de formation configure le modèle de similarité, notamment en indiquant s'il convient de partager les indicateurs de pertinence et l'emplacement des segments de sortie sur Amazon S3. Le fournisseur de données de formation peut créer plusieurs modèles similaires configurés à partir d'un seul modèle similaire.

  5. Le fournisseur de données de formation associe le modèle d'audience configuré à une collaboration partagée avec un fournisseur de données de départ.

Il s'agit du flux de travail que le fournisseur de données de départ doit effectuer ensuite :

  1. Les données du fournisseur de données de base peuvent être stockées dans un compartiment Amazon S3 ou peuvent provenir des résultats d'une requête.

  2. Le fournisseur de données de départ ouvre la collaboration qu'il partage avec le fournisseur de données de formation.

  3. Le fournisseur de données de départ crée un segment similaire à partir de l'onglet Clean Rooms ML de la page de collaboration.

  4. Le fournisseur de données de base peut évaluer les indicateurs de pertinence, s'ils ont été partagés, et exporter le segment similaire pour une utilisation en dehors AWS Clean Rooms.

Comment fonctionne le AWS Clean Rooms ML avec les modèles personnalisés

Avec Clean Rooms ML, les membres d'une collaboration peuvent utiliser un algorithme de modèle personnalisé dockerisé stocké dans Amazon ECR pour analyser conjointement leurs données. Pour ce faire, le fournisseur de modèles doit créer une image et la stocker dans Amazon ECR. Suivez les étapes décrites dans le guide de l'utilisateur d'Amazon Elastic Container Registry pour créer un référentiel privé qui contiendra le modèle de ML personnalisé.

Tout membre d'une collaboration peut être le fournisseur de modèles, à condition de disposer des autorisations appropriées. Tous les membres d'une collaboration peuvent apporter des données d'entraînement, des données d'inférence ou les deux au modèle. Aux fins du présent guide, les membres fournissant des données sont appelés fournisseurs de données. Le membre qui crée la collaboration est le créateur de la collaboration, et ce membre peut être soit le fournisseur de modèles, soit l'un des fournisseurs de données, soit les deux.

Au plus haut niveau, voici les étapes à suivre pour effectuer une modélisation ML personnalisée :

  1. Le créateur de la collaboration crée une collaboration et attribue à chaque membre les capacités et la configuration de paiement appropriées. Le créateur de la collaboration doit attribuer au membre la capacité de recevoir les sorties du modèle ou de recevoir les résultats d'inférence au membre approprié au cours de cette étape, car il ne peut pas être mis à jour une fois la collaboration créée. Pour de plus amples informations, veuillez consulter Création de la collaboration.

  2. Le fournisseur de modèles configure et associe son modèle de machine learning conteneurisé à la collaboration et veille à ce que des contraintes de confidentialité soient définies pour les données exportées. Pour de plus amples informations, veuillez consulter Configuration d'un algorithme de modèle.

  3. Les fournisseurs de données fournissent leurs données à la collaboration et veillent à ce que leurs besoins en matière de confidentialité soient spécifiés. Les fournisseurs de données doivent autoriser le modèle à accéder à leurs données. Pour plus d’informations, consultez Données de formation contributives et Associer l'algorithme du modèle configuré.

  4. Un membre de la collaboration crée la configuration ML, qui définit l'endroit vers lequel les artefacts du modèle ou les résultats d'inférence sont exportés.

  5. Un membre de la collaboration crée un canal d'entrée ML qui fournit des informations au conteneur de formation ou au conteneur d'inférence. Le canal d'entrée ML est une requête qui définit les données à utiliser dans le contexte de l'algorithme du modèle.

  6. Un membre de la collaboration invoque l'entraînement du modèle à l'aide du canal d'entrée ML et de l'algorithme de modèle configuré. Pour de plus amples informations, veuillez consulter Création d'un modèle entraîné.

  7. (Facultatif) Le modèle d'entraînement lance la tâche d'exportation du modèle et les artefacts du modèle sont envoyés au récepteur des résultats du modèle. Seuls les membres dotés d'une configuration ML valide et capables de recevoir les résultats du modèle peuvent recevoir des artefacts du modèle. Pour de plus amples informations, veuillez consulter Exportation d'artefacts du modèle.

  8. (Facultatif) Un membre de la collaboration invoque l'inférence de modèle à l'aide du canal d'entrée ML, de l'ARN du modèle entraîné et de l'algorithme de modèle configuré par inférence. Les résultats d'inférence sont envoyés au récepteur de sortie d'inférence. Seuls les membres dotés d'une configuration ML valide et capables de recevoir des résultats d'inférence peuvent recevoir des résultats d'inférence.

Voici les étapes qui doivent être effectuées par le fournisseur de modèles :

  1. Créez une image docker Amazon ECR compatible avec l' SageMaker IA. Clean Rooms ML ne prend en charge que les images docker compatibles avec l' SageMaker IA.

  2. Après avoir créé une image docker compatible avec l' SageMaker IA, transférez-la vers Amazon ECR. Suivez les instructions du guide de l'utilisateur d'Amazon Elastic Container Registry pour créer une image de formation sur les conteneurs.

  3. Configurez l'algorithme du modèle à utiliser dans Clean Rooms ML.

    1. Fournissez le lien du référentiel Amazon ECR et tous les arguments nécessaires pour configurer l'algorithme du modèle.

    2. Fournissez un rôle d'accès au service qui permet à Clean Rooms ML d'accéder au référentiel Amazon ECR.

    3. Associez l'algorithme du modèle configuré à la collaboration. Cela inclut la fourniture d'une politique de confidentialité qui définit les contrôles pour les journaux des conteneurs, les journaux des défaillances, CloudWatch les métriques et les limites relatives à la quantité de données pouvant être exportées à partir des résultats des conteneurs.

Voici les étapes que le fournisseur de données doit suivre pour collaborer avec un modèle de machine learning personnalisé :

  1. Configurez une AWS Glue table existante avec une règle d'analyse personnalisée. Cela permet à un ensemble spécifique de requêtes préapprouvées ou de comptes préapprouvés d'utiliser vos données.

  2. Associez votre table configurée à une collaboration et fournissez un rôle d'accès au service qui peut accéder à vos AWS Glue tables.

  3. Ajoutez une règle d'analyse de collaboration à la table qui permet à l'association d'algorithmes du modèle configuré d'accéder à la table configurée.

  4. Une fois le modèle et les données associés et configurés dans Clean Rooms ML, le membre capable d'exécuter des requêtes fournit une requête SQL et sélectionne l'algorithme du modèle à utiliser.

Une fois l'entraînement du modèle terminé, ce membre lance l'exportation des artefacts d'entraînement du modèle ou des résultats d'inférence. Ces artefacts ou résultats sont envoyés au membre capable de recevoir la sortie du modèle entraîné. Le récepteur des résultats doit les configurer MachineLearningConfiguration avant de pouvoir recevoir la sortie du modèle.