Travailler avec l'apprentissage automatique transforme - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Travailler avec l'apprentissage automatique transforme

Vous pouvez l'utiliser AWS Glue pour créer des transformations d'apprentissage automatique personnalisées qui peuvent être utilisées pour nettoyer vos données. Vous pouvez utiliser ces transformations lorsque vous créez une tâche sur la console AWS Glue .

Pour de plus amples informations sur la création d'une transformation Machine Learning, veuillez consulter Correspondance d'enregistrements avec FindMatches AWS Lake Formation.

Propriétés de transformation

Pour consulter une transformation d'apprentissage automatique existante, connectez-vous à la AWS Management ConsoleAWS Glue console et ouvrez-la à l'adresse https://console.aws.amazon.com/glue/. Dans le volet de navigation, sous Intégration des données ETL, sélectionnez Outils de classification des données > Record Matching.

Les propriétés de chaque transformation :

Nom de transformation

Nom unique donné à la transformation lors de sa création.

ID

Identifiant unique de la transformation.

Nombre d'étiquettes

Le nombre d'étiquettes dans le fichier d'étiquetage qui a été fourni pour aider à entraîner la transformation.

Statut

Indique si la transformation a le statut Ready (Prêt) ou Needs teaching (Entraînement nécessaire). Pour qu'une transformation machine learning puisse s'exécuter dans une tâche, elle doit avoir le statut Ready (Prêt).

Créé

Date de création de la transformation.

Modifié

Date de la dernière mise à jour de la transformation.

Description

Description fournie pour la transformation, le cas échéant.

Version de AWS Glue

La version de AWS Glue utilisée.

ID d'exécution

Nom unique donné à la transformation lors de sa création.

Type de tâche

Type de transformation Machine Learning ; par exemple, Find matching records (Rechercher des enregistrements correspondants).

Statut

Indique le statut de l'exécution de la tâche. Les statuts possibles incluent :

  • Démarrage en cours

  • En cours d'exécution

  • Arrêt en cours

  • Arrêté(e)

  • Réussi

  • Échec

  • Expiration

Erreur

Si le statut est Échec, un message d'erreur indiquant la raison de l'échec s'affiche.

Ajout et modification de transformations Machine Learning

Vous pouvez afficher, supprimer, configurer et entraîner, ou encore régler une transformation sur la console AWS Glue. Cochez la case en regard de la transformation dans la liste, choisissez Action, puis choisissez l'action que vous souhaitez effectuer.

Création d'une nouvelle transformation ML

Pour ajouter une nouvelle transformation machine learning, choisissez Créer une transformation. Suivez les instructions fournies dans l'assistant Ajouter une tâche. Pour de plus amples informations, veuillez consulter Correspondance d'enregistrements avec FindMatches AWS Lake Formation.

Étape 1. Définissez les propriétés de la transformation.

  1. Saisissez un nom et une description de la tâche (facultatif).

  2. Définissez éventuellement la configuration de sécurité. Consultez Utilisation du chiffrement des données avec les transformations machine learning.

  3. Définissez éventuellement les paramètres d'exécution des tâches. Les paramètres d'exécution des tâches vous permettent de personnaliser le mode d'exécution de la tâche. Sélectionnez le type de travailleur, le nombre de travailleurs, le délai d'expiration de la tâche (en minutes), le nombre de tentatives et la version de AWS Glue.

  4. Vous pouvez éventuellement définir des balises. Les balises sont des étiquettes que vous pouvez attribuer à une AWS ressource. Chaque balise est constituée d’une clé et d’une valeur facultative. Les balises peuvent être utilisées pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.

Étape 2. Choisissez la table et la clé primaire.

  1. Choisissez la base de données et la table du catalogue AWS Glue.

  2. Choisissez une clé primaire dans le tableau sélectionné. La colonne de clé primaire contient généralement un identifiant unique pour chaque enregistrement de la source de données.

Étape 3. Sélectionnez les options de réglage.

  1. Pour Rappel ou précision, choisissez la valeur de réglage pour ajuster la transformation afin de favoriser le rappel ou la précision. Par défaut, Équilibré est sélectionné, mais vous pouvez choisir de privilégier le rappel ou la précision, ou choisir Personnalisé et saisir une valeur comprise entre 0,0 et 1,0 (inclus).

  2. Pour Réduire le coût ou la précision, choisissez la valeur de réglage qui favorise la réduction des coûts ou de la précision, ou choisissez Personnalisé et saisissez une valeur comprise entre 0,0 et 1,0 (inclus).

  3. Pour Application de la correspondance, choisissez Forcer la sortie à correspondre aux étiquettes si vous souhaitez entraîner la transformation ML en forçant la sortie à correspondre aux étiquettes utilisées.

Étape 4 : Vérifiez et créez.

  1. Passez en revue les options des étapes 1 à 3.

  2. Choisissez Modifier pour chaque étape qui doit être modifiée. Choisissez Créer une transformation pour terminer l'assistant de création de transformation.

Utilisation du chiffrement des données avec les transformations machine learning

Lors de l'ajout d'une transformation Machine Learning à AWS Glue, vous pouvez éventuellement spécifier une configuration de sécurité associée à la source de données ou à la cible de données. Si le compartiment Amazon S3 utilisé pour stocker les données est chiffré avec une configuration de sécurité, spécifiez la même configuration de sécurité lors de la création de la transformation.

Vous pouvez également choisir d'utiliser le chiffrement côté serveur avec AWS KMS (SSE-KMS) pour chiffrer le modèle et les étiquettes afin d'empêcher des personnes non autorisées de l'inspecter. Si vous choisissez cette option, vous êtes invité à en choisir un AWS KMS key par son nom, ou vous pouvez choisir Entrer une clé ARN. Si vous choisissez de saisir ARN la KMS clé, un deuxième champ apparaît dans lequel vous pouvez saisir la KMS cléARN.

Note

Actuellement, les transformations ML utilisant une clé de chiffrement personnalisée ne sont pas prises en charge dans les régions suivantes :

  • Asie-Pacifique (Osaka) - ap-northeast-3

Affichage des détails d'une transformation

Affichage des propriétés de transformation

La page Propriété de transformation inclut les attributs de votre transformation. Il affiche les détails relatifs à la définition de transformation, y compris les éléments suivants :

  • Transform name (Nom de la transformation) indique le nom de la transformation.

  • Type répertorie le type de la transformation.

  • Status (État) affiche si la transformation est prête à être utilisée dans un script ou une tâche.

  • Force output to match labels (Forcer la sortie pour faire correspondre les étiquettes) affiche si la transformation force la sortie afin qu'elle fasse correspondre les étiquettes fournies par l'utilisateur.

  • La version Spark est liée à la version AWS Glue que vous avez choisie dans Task run properties (Propriétés d'exécution de la tâche) lors de l'ajout de la transformation. AWS Glue 1.0 et Spark 2.4 sont recommandés pour la plupart des clients. Pour plus d'informations, consultez Version de AWS Glue.

Onglets Historique, Estimation de la qualité et Balises

Les détails d'une transformation incluent les informations que vous avez définies lors de la création de cette transformation. Pour afficher les détails d'une transformation, sélectionnez la transformation dans la liste Machine learning transforms (Transformations Machine learning), puis consultez les informations sur les onglets suivants :

  • Historique

  • Estimation de la qualité

  • Balises

Historique

L'onglet History (Historique) affiche l'historique d'exécution de votre tâche de transformation. Plusieurs types de tâches sont exécutées pour entraîner une transformation. Pour chaque tâche, les métriques d'exécution sont les suivantes :

  • Run ID (ID d'exécution) est un identifiant créé par AWS Glue pour chaque exécution de cette tâche.

  • Task type (Type de tâche) affiche le type de l'exécution de tâche.

  • Run status (Statut d'exécution) indique la réussite de chaque tâche répertoriée avec l'exécution la plus récente en haut de la liste.

  • Error (Erreur) affiche les détails d'un message d'erreur si l'exécution a échoué..

  • Start time (Heure de début) indique la date et l'heure (heure locale) auxquelles la tâche a démarré.

  • Heure de fin indique la date et l'heure (heure locale) auxquelles la tâche s'est terminée.

  • Logs (Journaux) fournit des liens vers les journaux écrits sur stdout pour cette exécution de tâche.

    Le lien Logs permet d'accéder à Amazon CloudWatch Logs. Vous pouvez y consulter les détails relatifs aux tables créées dans le AWS Glue Data Catalog et aux éventuelles erreurs rencontrées. Vous pouvez gérer la période de conservation des journaux sur la CloudWatch console. La conservation des journaux par défaut est Never Expire. Pour plus d'informations sur la modification de la période de conservation, consultez la section Conservation des données du journal des modifications dans CloudWatch les journaux dans le guide de l'utilisateur Amazon CloudWatch Logs.

  • Fichier d'étiquettes fournit un lien vers Amazon S3 pour un fichier d'étiquetage généré.

Estimation de la qualité

L'onglet Estimate quality (Estimation de la qualité) affiche les métriques que vous utilisez pour mesurer la qualité de la transformation. Les estimations sont calculées en comparant les prédictions de correspondance de transformation à l'aide d'un sous-ensemble de vos données étiquetées par rapport aux étiquettes que vous avez fournies. Ces estimations sont approximatives. Vous pouvez appeler une tâche Estimate quality (Estimation de la qualité) exécutée à partir de cet onglet.

L'onglet Estimate quality (Estimation de la qualité) affiche les métriques de la dernière estimation de la qualité, y compris les propriétés suivantes :

  • Area under the Precision-Recall curve (Zone sous la courbe de précision-rappel est un nombre unique qui estime la limite supérieure de la qualité globale de la transformation. Il est indépendant du choix effectué pour le paramètre de précision-rappel. Des valeurs plus élevées indiquent que vous avez un compromis précision-rappel plus attractif.

  • Precision (Précision) évalue la fréquence à laquelle la transformation est correcte lorsqu'elle prédit une correspondance.

  • Recall upper limit (Limite supérieure de rappel) évalue, pour une correspondance réelle, la fréquence à laquelle la transformation prédit la correspondance.

  • F1 évalue la précision de la transformation comprise entre 0 et 1, où 1 est la meilleure précision. Pour plus d'informations, consultez la page Wikipedia relative au score F1.

  • La table Column importance (Importance de la colonne) affiche les noms de colonnes et le score d'importance de chaque colonne. L'importance des colonnes vous aide à comprendre comment elles contribuent à votre modèle, en identifiant les colonnes de vos enregistrements qui sont le plus utilisées pour effectuer la correspondance. Ces données peuvent vous inciter à ajouter ou à modifier votre jeu d'étiquettes pour augmenter ou réduire l'importance des colonnes.

    La colonne Importance fournit un score numérique pour chaque colonne, sous la forme d'une décimale ne dépassant pas 1,0.

Pour de plus amples informations sur la compréhension des estimations de qualité et de la qualité réelle, veuillez consulter Estimations de la qualité par rapport à la end-to-end (vraie) qualité.

Pour de plus amples informations sur le réglage de votre transformation, veuillez consulter Réglage des transformations Machine Learning dans AWS Glue.

Estimations de la qualité par rapport à la end-to-end (vraie) qualité

AWS Glue estime la qualité de vos transformations en présentant le modèle interne appris par machine learning avec un certain nombre de paires d'enregistrements pour lesquels vous avez fourni des étiquettes correspondantes, mais que le modèle n'a jamais vus auparavant. Ces estimations de qualité sont une fonction de la qualité du modèle appris par la machine (qui est influencé par le nombre d'enregistrements que vous étiquetez pour « entraîner » la transformation). Le rappel end-to-end, ou véritable rappel (qui n'est pas automatiquement calculé par leML transform) est également influencé par le mécanisme de ML transform filtrage qui propose une grande variété de correspondances possibles avec le modèle appris par machine.

Vous pouvez régler cette méthode de filtrage essentiellement en spécifiant la valeur de réglage Réduction coût-précision. À mesure que la valeur de réglage se rapproche de Précision, le système effectue une recherche plus approfondie et plus coûteuse des paires d'enregistrements qui pourraient être des correspondances. Un plus grand nombre de paires d'enregistrements sont introduites dans votre modèle d'apprentissage automatique, et votre ML transform rappel réel se rapproche de la métrique de rappel estimée. end-to-end Par conséquent, les modifications de la end-to-end qualité de vos correspondances résultant de modifications du compromis coût/précision de vos correspondances ne seront généralement pas prises en compte dans l'estimation de la qualité.

Balises

Les balises sont des étiquettes que vous pouvez attribuer à une AWS ressource. Chaque balise est constituée d’une clé et d’une valeur facultative. Les balises peuvent être utilisées pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.

Entraîner les transformations à l'aide d'étiquettes

Vous pouvez entraîner votre transformation ML à l'aide d'étiquettes (exemples) en choisissant Entraîner une transformation sur la page de détails de la transformation ML. Lorsque vous entraînez votre algorithme de machine learning en fournissant des exemples (appelés étiquettes), vous pouvez choisir les étiquettes existantes à utiliser ou créer un fichier d'étiquetage.

La capture d'écran montre un écran d'assistant pour Entraîner les transformations à l'aide d'étiquettes.
  • Étiquetage : si vous avez des étiquettes, choisissez J'ai des étiquettes. Si vous n'avez pas d'étiquettes, vous pouvez toujours passer à l'étape suivante pour générer un fichier d'étiquettes.

  • Générer un fichier d'étiquetage : AWS Glue extrait les enregistrements de vos données sources et suggère des enregistrements correspondants potentiels. Vous choisissez le compartiment Amazon S3 pour stocker le fichier d'étiquette généré. Choisissez Générer un fichier d'étiquetage pour démarrer le processus. Lorsque vous avez terminé, choisissez Télécharger le fichier d'étiquetage. Le fichier téléchargé comportera une colonne pour les étiquettes dans laquelle vous pourrez remplir les étiquettes.

  • Charger des étiquettes depuis Amazon S3 : choisissez le fichier d'étiquetage complet dans le compartiment Amazon S3 dans lequel le fichier d'étiquetage est stocké. Choisissez ensuite d'ajouter les étiquettes à vos étiquettes existantes ou de les remplacer. Choisissez Charger le fichier d'étiquetage depuis Amazon S3.