API de Machine Learning - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

API de Machine Learning

L'API Machine learning décrit les types de données du machine learning et inclut l'API de création, suppression ou mise à jour d'une transformation, ou de démarrage de l'exécution d'une tâche de machine learning.

Types de données

TransformParameters structure

Paramètres propres à l'algorithme associés à la transformation Machine Learning.

Champs
  • TransformTypeObligatoire : Chaîne UTF-8 (valeurs valides : FIND_MATCHES).

    Type de transformation du Machine Learning.

    Pour de plus amples informations sur les types de transformation du Machine Learning, veuillez consulter Création de transformations du Machine Learning.

  • FindMatchesParameters – Un objet FindMatchesParamètres.

    Paramètres de l'algorithme de recherche de correspondances.

EvaluationMetrics structure

Les métriques d'évaluation fournissent une estimation de la qualité de votre transformation du Machine Learning.

Champs
  • TransformTypeObligatoire : Chaîne UTF-8 (valeurs valides : FIND_MATCHES).

    Type de transformation du Machine Learning.

  • FindMatchesMetrics – Un objet FindMatchesMétriques.

    Métriques d'évaluation de l'algorithme de recherche de correspondances.

Structure MLTransform

Structure d'une transformation du Machine Learning.

Champs
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID de transformation unique généré pour la transformation du Machine Learning. L'ID est garanti être unique et ne pas changer.

  • Name – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom défini par l'utilisateur de la transformation Machine Learning. Les noms ne sont pas garantis être uniques et peuvent être modifiés à tout moment.

  • Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Longue description définie par l'utilisateur de la transformation Machine Learning. Les descriptions ne sont pas garanties être uniques et peuvent être modifiées à tout moment.

  • Status – Chaîne UTF-8 (valeurs valides : NOT_READY | READY | DELETING).

    Statut actuel de la transformation du Machine Learning.

  • CreatedOn – Horodatage.

    Horodatage. Heure et date auxquelles la transformation du Machine Learning a été créée.

  • LastModifiedOn – Horodatage.

    Horodatage. Dernier moment auquel cette transformation du Machine Learning a été modifiée.

  • InputRecordTables – Un tableau d'objets GlueTable, 10 structures au maximum.

    Liste des définitions de AWS Glue table utilisées par la transformation.

  • Parameters – Un objet TransformParameters.

    Un objet TransformParameters. Vous pouvez utiliser des paramètres pour ajuster (personnaliser) le comportement de la transformation du Machine Learning : à cette fin, spécifiez les données apprises du Machine Learning, ainsi que vos préférences quant aux différents compromis à faire (valeur versus rappel, ou précision versus coût, par exemple).

  • EvaluationMetrics – Un objet EvaluationMetrics.

    Un objet EvaluationMetrics. Les métriques d'évaluation fournissent une estimation de la qualité de votre transformation du Machine Learning.

  • LabelCount – Nombre (entier).

    Identifiant de comptage pour les fichiers d'étiquetage générés par AWS Glue cette transformation. Au fur et à mesure que vous créez une transformation de meilleure qualité, vous pouvez, de manière itérative, télécharger, étiqueter et charger le fichier d'étiquetage.

  • Schema – Un tableau d'objets SchemaColumn, 100 structures au maximum.

    Carte de paires clé-valeur correspondant aux colonnes et aux types de données sur lesquels la transformation peut s'exécuter. Comporte une limite supérieure de 100 colonnes.

  • Role – Chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM avec les autorisations requises. Les autorisations requises incluent à la fois les autorisations de rôle de AWS Glue service sur les AWS Glue ressources et les autorisations Amazon S3 requises par la transformation.

    • Ce rôle nécessite des autorisations AWS Glue de rôle de service pour autoriser l'accès aux ressources dans AWS Glue. Veuillez consulter la rubrique Attacher une politique aux utilisateurs IAM accédant à AWS Glue.

    • Ce rôle a besoin d'une autorisation pour vos sources, vos cibles, votre répertoire temporaire et vos scripts Amazon Simple Storage Service (Amazon S3), ainsi que pour les bibliothèques utilisées par l'exécution de la tâche dans le cadre de cette transformation.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Cette valeur détermine la version compatible avec laquelle AWS Glue cette transformation de machine learning est compatible. Glue 1.0 est recommandé pour la plupart des clients. Si la valeur n'est pas définie, la compatibilité Glue par défaut est Glue 0.9. Pour plus d'informations, veuillez consulter la rubrique Versions AWS Glue dans le guide du développeur.

  • MaxCapacity – Nombre (double).

    Nombre d'unités de traitement de AWS Glue données (DPU) allouées aux exécutions de tâches pour cette transformation. Vous pouvez allouer de 2 à 100 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    MaxCapacity est une option mutuellement exclusive avec NumberOfWorkers et WorkerType.

    • Si NumberOfWorkers ou WorkerType est défini, ne MaxCapacity peut pas être défini.

    • Si MaxCapacity est défini, ni NumberOfWorkers ni WorkerType ne peuvent être définis.

    • Si WorkerType est défini, NumberOfWorkers est obligatoire (et inversement).

    • MaxCapacity et NumberOfWorkers doivent être au moins égal à 1.

    Lorsque le champ WorkerType est défini sur une valeur autre que Standard, le champ MaxCapacity est défini automatiquement et passe en lecture seule.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type d'exécuteur prédéfini qui est alloué lorsqu'une tâche de cette transformation s'exécute. Accepte la valeur Standard, G.1X ou G.2X.

    • Pour le type de travail Standard, chaque travail fournit 4 vCPU, 16 Go de mémoire et 50 Go de disque, ainsi que 2 exécuteurs par travail.

    • Pour le type de travail G.1X, chaque travail fournit 4 vCPU, 16 Go de mémoire et 64 Go de disque, ainsi que 1 exécuteur par travail.

    • Pour le type de travail G.2X, chaque travail fournit 8 vCPU, 32 Go de mémoire et 128 Go de disque, ainsi que 1 exécuteur par travail.

    MaxCapacity est une option mutuellement exclusive avec NumberOfWorkers et WorkerType.

    • Si NumberOfWorkers ou WorkerType est défini, ne MaxCapacity peut pas être défini.

    • Si MaxCapacity est défini, ni NumberOfWorkers ni WorkerType ne peuvent être définis.

    • Si WorkerType est défini, NumberOfWorkers est obligatoire (et inversement).

    • MaxCapacity et NumberOfWorkers doivent être au moins égal à 1.

  • NumberOfWorkers – Nombre (entier).

    Nombre d'exécuteurs d'un workerType défini qui sont alloués lorsqu'une tâche de la transformation s'exécute.

    Si WorkerType est défini, NumberOfWorkers est obligatoire (et inversement).

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration en minutes de la transformation Machine Learning.

  • MaxRetries – Nombre (entier).

    Nombre maximal de tentatives autorisées après l'échec d'une exécution MLTaskRun de la transformation Machine Learning.

  • TransformEncryption – Un objet TransformEncryption.

    Les encryption-at-rest paramètres de la transformation qui s'appliquent à l'accès aux données utilisateur. Les transformations de machine learning peuvent accéder aux données utilisateur chiffrées dans Amazon S3 à l'aide de KMS.

FindMatchesParameters structure

Paramètres de configuration de la transformation de la recherche des correspondances.

Champs
  • PrimaryKeyColumnName – Chaîne UTF-8, d'une longueur comprise entre 1 et 1024 octets, correspondant au Single-line string pattern.

    Nom d'une colonne qui identifie de façon unique les lignes de la table source. Utilisé pour vous aider à identifier les enregistrements correspondants.

  • PrecisionRecallTradeoff – Nombre (double), au plus égal à 1,0.

    Valeur sélectionnée lors du paramétrage de votre transformation pour un équilibre entre la précision et le rappel. Une valeur de 0,5 signifie aucune préférence ; une valeur de 1.0 signifie un écart uniquement pour la précision, et une valeur de 0,0 un écart pour le rappel. Comme il s'agit d'un compromis, le choix de valeurs proches de 1.0 signifie un rappel très faible et le choix de valeurs proches de 0.0 une très faible précision.

    La précision métrique indique la fréquence à laquelle votre modèle est correct lorsqu'il prédit une correspondance.

    La métrique de rappel indique que pour une correspondance réelle, la fréquence à laquelle votre modèle prédit la correspondance.

  • AccuracyCostTradeoff – Nombre (double), au plus égal à 1,0.

    Valeur sélectionnée lors du paramétrage de votre transformation pour un équilibre entre la précision et le coût. Une valeur de 0,5 signifie que le système équilibre les préoccupations de précision et de coût. Une valeur de 1.0 signifie un biais uniquement pour la précision, ce qui entraîne généralement un coût plus élevé, et parfois beaucoup plus élevé. Une valeur de 0,0 signifie un biais uniquement pour le coût, ce qui se traduit par une transformation FindMatches moins précise, et parfois une précision inacceptable.

    La précision mesure la façon dont la transformation trouve les vrais positifs et les vrais négatifs. L'augmentation de la précision nécessite plus de ressources machine et des coûts supérieurs. Mais elle entraîne également une augmentation du rappel.

    Le coût mesure le nombre de ressources de calcul, et donc le montant, consommées pour exécuter la transformation.

  • EnforceProvidedLabels – Booléen.

    La valeur à activer ou désactiver pour forcer la sortie afin qu'elle corresponde aux étiquettes fournies par les utilisateurs. Si la valeur est True, la transformation find matches oblige la sortie à correspondre aux étiquettes fournies. Les résultats remplacent les résultats de combinaison normaux. Si la valeur est False, la transformation find matches ne garantit pas que toutes les étiquettes fournies sont respectées, et les résultats s'appuient sur le modèle formé.

    Notez que la définition de cette valeur sur true peut augmenter la durée d'exécution de la combinaison.

FindMatchesMetrics structure

Métriques d'évaluation de l'algorithme de recherche de correspondances. La qualité de votre transformation Machine Learning est mesurée en obtenant que votre transformation prédise certaines correspondances et en comparant les résultats pour connaître les correspondances du même jeu de données. Les métriques de qualité sont basées sur un sous-ensemble de vos données, afin qu'ils ne soient pas précis.

Champs
  • AreaUnderPRCurve – Nombre (double), au plus égal à 1,0.

    La surface sous la courbe précision/rappel (AUPRC) est un seul numéro mesurant la qualité globale de la transformation, laquelle est indépendante du choix effectué pour la précision vs. le rappel. Les valeurs élevées indiquent que vous avez un compromis précision vs. rappel plus attrayant.

    Pour en savoir plus, consultez Précision et rappel dans Wikipédia.

  • Precision – Nombre (double), au plus égal à 1,0.

    La précision métrique indique à quelle fréquence votre transformation est correcte lorsqu'elle prédit une correspondance. Plus précisément, elle évalue la fréquence à laquelle la transformation trouve de vrais positifs à partir du total de vrais positifs possible.

    Pour en savoir plus, consultez Précision et rappel dans Wikipédia.

  • Recall – Nombre (double), au plus égal à 1,0.

    La sensibilité métrique indique pour une correspondance réelle, la fréquence à laquelle votre transformation prédit la correspondance. Plus précisément, elle évalue la fréquence à laquelle la transformation trouve de vrais positifs à partir du total des enregistrements de la source de données.

    Pour en savoir plus, consultez Précision et rappel dans Wikipédia.

  • F1 – Nombre (double), au plus égal à 1,0.

    La métrique F1 maximale indique la précision de la transformation entre 0 et 1, où 1 est la meilleure précision.

    Pour plus d'informations, consultez la page Wikipedia relative au score F1.

  • ConfusionMatrix – Un objet ConfusionMatrix.

    La matrice de confusion vous explique ce que votre transformation prédit avec précision et quels types d'erreurs elle effectue.

    Pour plus d'informations, consultez Matrice de confusion dans Wikipédia.

  • ColumnImportances – Un tableau d'objets ColumnImportance, 100 structures au maximum.

    Une liste de structures ColumnImportance contenant des métriques d'importance de colonne, triées par ordre d'importance décroissant.

ConfusionMatrix structure

La matrice de confusion vous explique ce que votre transformation prédit avec précision et quels types d'erreurs elle effectue.

Pour plus d'informations, consultez Matrice de confusion dans Wikipédia.

Champs
  • NumTruePositives – Nombre (long).

    Nombre de correspondances dans les données que la transformation a trouvées correctement, dans la matrice de confusion de votre transformation.

  • NumFalsePositives – Nombre (long).

    Le nombre de non-correspondances dans les données que la transformation a classées de manière incorrecte comme correspondance, dans la matrice de confusion de votre transformation.

  • NumTrueNegatives – Nombre (long).

    Nombre de non-correspondances dans les données que la transformation a rejetées correctement, dans la matrice de confusion de votre transformation.

  • NumFalseNegatives – Nombre (long).

    Nombre de correspondances dans les données que la transformation n'a pas trouvées, dans la matrice de confusion de votre transformation.

GlueTable structure

Base de données et table utilisées pour AWS Glue Data Catalog les données d'entrée ou de sortie.

Champs
  • DatabaseNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la base de données dans le AWS Glue Data Catalog.

  • TableNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la table dans AWS Glue Data Catalog.

  • CatalogId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique pour AWS Glue Data Catalog.

  • ConnectionName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la connexion à AWS Glue Data Catalog.

  • AdditionalOptions – Tableau de mappage de paires valeur-clé, pas moins de 1 ou plus de 10 paires..

    Chaque clé est une chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Chaque valeur est une chaîne Description, d'une longueur ne dépassant pas 2048 octets, correspondant au URI address multi-line string pattern.

    Options supplémentaires pour la table. Actuellement, deux clés sont prises en charge :

    • pushDownPredicate : pour filtrer les partitions sans avoir à répertorier ni lire tous les fichiers de votre jeu de données.

    • catalogPartitionPredicate : pour utiliser le nettoyage de partition côté serveur à l'aide des index de partition du AWS Glue Data Catalog.

TaskRun structure

Paramètres d'échantillonnage qui sont associés à la transformation du Machine Learning.

Champs
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation.

  • TaskRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la tâche exécutée.

  • Status – Chaîne UTF-8 (valeurs valides: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Statut actuel de la tâche demandée.

  • LogGroupName – Chaîne UTF-8.

    Nom du groupe de journaux pour une journalisation sécurisée, associée à la tâche exécutée.

  • Properties – Un objet TaskRunPropriétés.

    Spécifie les propriétés de configuration associées à la tâche exécutée.

  • ErrorString – Chaîne UTF-8.

    Liste des chaînes d'erreur associées à la tâche exécutée.

  • StartedOn – Horodatage.

    Date et heure auxquelles la tâche exécutée a démarré.

  • LastModifiedOn – Horodatage.

    Dernière date de modification de la tâche exécutée demandée.

  • CompletedOn – Horodatage.

    Heure à laquelle l'exécution de la tâche demandée s'est terminée.

  • ExecutionTime – Nombre (entier).

    Durée (en secondes) pendant laquelle la tâche exécutée a consommé des ressources.

TransformFilterCriteria structure

Critères utilisés pour filtrer les transformations du Machine Learning.

Champs
  • Name – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de transformation unique qui est utilisé pour filtrer les transformations du Machine Learning.

  • TransformType – Chaîne UTF-8 (valeurs valides : FIND_MATCHES).

    Type de transformation du Machine Learning utilisé pour filtrer les transformations du Machine Learning.

  • Status – Chaîne UTF-8 (valeurs valides : NOT_READY | READY | DELETING).

    Filtre la liste des transformations du Machine Learning sur le dernier état connu des transformations (pour indiquer si une transformation peut être utilisée ou non). L'un des états « NOT_READY », « READY » ou « DELETING ».

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Cette valeur détermine la version compatible avec laquelle AWS Glue cette transformation de machine learning est compatible. Glue 1.0 est recommandé pour la plupart des clients. Si la valeur n'est pas définie, la compatibilité Glue par défaut est Glue 0.9. Pour plus d'informations, veuillez consulter la rubrique Versions AWS Glue dans le guide du développeur.

  • CreatedBefore – Horodatage.

    Heure et date avant lesquelles les transformations ont été créées.

  • CreatedAfter – Horodatage.

    Heure et date après lesquelles les transformations ont été créées.

  • LastModifiedBefore – Horodatage.

    Filtre sur les dernières transformations modifiées avant cette date.

  • LastModifiedAfter – Horodatage.

    Filtre sur les dernières transformations modifiées après cette date.

  • Schema – Un tableau d'objets SchemaColumn, 100 structures au maximum.

    Filtre sur les ensembles de données avec un schéma spécifique. L'objet Map<Column, Type> est un tableau de paires clé-valeur qui représente le schéma que cette transformation accepte, où Column est le nom d'une colonne, et Type le type de données, comme nombre entier ou chaîne. Comporte une limite supérieure de 100 colonnes.

TransformSortCriteria structure

Critères de tri associés à la transformation du Machine Learning.

Champs
  • ColumnObligatoire : Chaîne UTF-8 (valeurs valides : NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED).

    La colonne doit être utilisée dans les critères de tri associés à la transformation du Machine Learning.

  • SortDirectionObligatoire : Chaîne UTF-8 (valeurs valides : DESCENDING | ASCENDING).

    La direction de tri doit être utilisée dans les critères de tri associés à la transformation du Machine Learning.

TaskRunFilterCriteria structure

Critères utilisés pour filtrer les exécutions de tâche pour la transformation du Machine Learning.

Champs
  • TaskRunType – Chaîne UTF-8 (valeurs valides : EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    Type de tâche exécutée.

  • Status – Chaîne UTF-8 (valeurs valides: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Statut actuel de la tâche exécutée.

  • StartedBefore – Horodatage.

    Filtre sur les exécutions de tâche démarrées avant cette date.

  • StartedAfter – Horodatage.

    Filtre sur les exécutions de tâche démarrées après cette date.

TaskRunSortCriteria structure

Critères de tri utilisés pour trier la liste des exécutions de tâche pour la transformation du Machine Learning.

Champs
  • ColumnObligatoire : Chaîne UTF-8 (valeurs valides : TASK_RUN_TYPE | STATUS | STARTED).

    La colonne doit être utilisé pour trier la liste des exécutions de tâche pour la transformation du Machine Learning.

  • SortDirectionObligatoire : Chaîne UTF-8 (valeurs valides : DESCENDING | ASCENDING).

    La direction de tri doit être utilisé pour trier la liste des exécutions de tâche pour la transformation du Machine Learning.

TaskRunProperties structure

Propriétés de configuration pour la tâche exécutée.

Champs
  • TaskType – Chaîne UTF-8 (valeurs valides : EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    Type de tâche exécutée.

  • ImportLabelsTaskRunProperties – Un objet ImportLabelsTaskRunPropriétés.

    Propriétés de configuration d'une exécution de tâche d'importation des étiquettes.

  • ExportLabelsTaskRunProperties – Un objet ExportLabelsTaskRunPropriétés.

    Propriétés de configuration d'une exécution de tâche d'exportation des étiquettes.

  • LabelingSetGenerationTaskRunProperties – Un objet LabelingSetGenerationTaskRunProperties.

    Propriétés de configuration pour une exécution de tâches de génération d'ensemble d'étiquetage.

  • FindMatchesTaskRunProperties – Un objet FindMatchesTaskRunPropriétés.

    Propriétés de configuration pour une exécution de tâche de recherche de correspondances.

FindMatchesTaskRunProperties structure

Spécifie les propriétés de configuration d'une exécution de tâche de recherche de correspondances.

Champs
  • JobId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID de tâche d'une exécution de tâche de recherche de correspondances.

  • JobName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom attribué à la tâche pour l'exécution de tâche de recherche de correspondances.

  • JobRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID d'exécution de tâche d'une exécution de tâche de recherche de correspondances.

ImportLabelsTaskRunProperties structure

Spécifie les propriétés de configuration d'une exécution de tâche de l'importation des étiquettes.

Champs
  • InputS3Path – Chaîne UTF-8.

    Chemin Amazon Simple Storage Service (Amazon S3) à partir d'où vous allez importer les étiquettes.

  • Replace – Booléen.

    Indique si vous souhaitez remplacer vos étiquettes existantes.

ExportLabelsTaskRunProperties structure

Spécifie les propriétés de configuration d'une exécution de tâche d'exportation des étiquettes.

Champs
  • OutputS3Path – Chaîne UTF-8.

    Chemin Amazon Simple Storage Service (Amazon S3) où vous allez exporter les étiquettes.

LabelingSetGenerationTaskRunProperties structure

Spécifie les propriétés de configuration pour une exécution de tâches de génération d'ensemble d'étiquetage.

Champs
  • OutputS3Path – Chaîne UTF-8.

    Chemin Amazon Simple Storage Service (Amazon S3) où vous allez générer l'ensemble d'étiquetage.

SchemaColumn structure

Paire clé-valeur qui représente une colonne et type de données sur lesquels cette transformation peut être exécuté. Le paramètre Schema de la MLTransform peut contenir jusqu'à 100 de ces structures.

Champs
  • Name – Chaîne UTF-8, d'une longueur comprise entre 1 et 1024 octets, correspondant au Single-line string pattern.

    Le nom de la colonne.

  • DataType – Chaîne UTF-8, d'une longueur maximale de 131 072 octets, correspondant au Single-line string pattern.

    Type de données de la colonne.

TransformEncryption structure

Les encryption-at-rest paramètres de la transformation qui s'appliquent à l'accès aux données utilisateur. Les transformations de machine learning peuvent accéder aux données utilisateur chiffrées dans Amazon S3 à l'aide de KMS.

De plus, les étiquettes importées et les transformations formées peuvent désormais être chiffrées à l'aide d'une clé KMS fournie par le client.

Champs
  • MlUserDataEncryption – Un objet UserDataChiffrement ML.

    Objet MLUserDataEncryption contenant le mode de chiffrement et l'ID de la clé KMS fournie par le client.

  • TaskRunSecurityConfigurationName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la configuration de sécurité.

UserDataEncryption Structure du ML

Les encryption-at-rest paramètres de la transformation qui s'appliquent à l'accès aux données utilisateur.

Champs
  • MlUserDataEncryptionModeObligatoire : Chaîne UTF-8 (valeurs valides : DISABLED | SSE-KMS="SSEKMS").

    Mode de chiffrement appliqué aux données utilisateur. Les valeurs valides sont :

    • DISABLED : le chiffrement est désactivé

    • SSEKMS : utilisation du chiffrement côté serveur avec AWS Key Management Service (SSE-KMS) pour les données utilisateur stockées dans Amazon S3.

  • KmsKeyId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID de la clé KMS fournie par le client.

ColumnImportance structure

Structure contenant le nom de colonne et son score d'importance de colonne.

L'importance des colonnes vous aide à comprendre comment elles contribuent à votre modèle, en identifiant les colonnes de vos enregistrements qui sont plus importantes que les autres.

Champs
  • ColumnName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d'une colonne.

  • Importance – Nombre (double), au plus égal à 1,0.

    Score d'importance de colonne pour la colonne, sous la forme d'une décimale.

Opérations

CreateMLTransform Action (Python : create_ml_transform)

Crée une transformation basée sur le AWS Glue machine learning. Cette opération crée la transformation et tous les paramètres nécessaires pour la former.

Appelez cette opération comme première étape du processus d'utilisation d'une transformation du Machine Learning (comme la transformation FindMatches) pour la déduplication des données. Vous pouvez fournir une Description facultative, en plus des paramètres que vous souhaitez utiliser pour votre algorithme.

Vous devez également définir certains paramètres pour les tâches exécutées en votre nom AWS Glue dans le cadre de l'apprentissage à partir de vos données et de la création d'une transformation d'apprentissage automatique de haute qualité. Ces paramètres incluent Role et, le cas échéant, AllocatedCapacity, Timeout et MaxRetries. Pour en savoir plus, consultez Jobs (Tâches).

Demande
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom unique que vous attribuez à la transformation lorsque vous la créez.

  • Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la transformation du Machine Learning qui est définie. La valeur par défaut est une chaîne vide.

  • InputRecordTablesObligatoire : Un tableau d'objets GlueTable, 10 structures au maximum.

    Liste des définitions de AWS Glue table utilisées par la transformation.

  • ParametersObligatoire : un objet TransformParameters.

    Paramètres algorithmiques spécifiques au type de transformation utilisé. Dépendant de façon conditionnelle du type de transformation.

  • RoleObligatoire : chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM avec les autorisations requises. Les autorisations requises incluent à la fois les autorisations de rôle de AWS Glue service sur les AWS Glue ressources et les autorisations Amazon S3 requises par la transformation.

    • Ce rôle nécessite des autorisations AWS Glue de rôle de service pour autoriser l'accès aux ressources dans AWS Glue. Veuillez consulter la rubrique Attacher une politique aux utilisateurs IAM accédant à AWS Glue.

    • Ce rôle a besoin d'une autorisation pour vos sources, vos cibles, votre répertoire temporaire et vos scripts Amazon Simple Storage Service (Amazon S3), ainsi que pour les bibliothèques utilisées par l'exécution de la tâche dans le cadre de cette transformation.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Cette valeur détermine la version compatible avec laquelle AWS Glue cette transformation de machine learning est compatible. Glue 1.0 est recommandé pour la plupart des clients. Si la valeur n'est pas définie, la compatibilité Glue par défaut est Glue 0.9. Pour plus d'informations, veuillez consulter la rubrique Versions AWS Glue dans le guide du développeur.

  • MaxCapacity – Nombre (double).

    Nombre d'unités de traitement de AWS Glue données (DPU) allouées aux exécutions de tâches pour cette transformation. Vous pouvez allouer de 2 à 100 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    MaxCapacity est une option mutuellement exclusive avec NumberOfWorkers et WorkerType.

    • Si NumberOfWorkers ou WorkerType est défini, ne MaxCapacity peut pas être défini.

    • Si MaxCapacity est défini, ni NumberOfWorkers ni WorkerType ne peuvent être définis.

    • Si WorkerType est défini, NumberOfWorkers est obligatoire (et inversement).

    • MaxCapacity et NumberOfWorkers doivent être au moins égal à 1.

    Lorsque le champ WorkerType est défini sur une valeur autre que Standard, le champ MaxCapacity est défini automatiquement et passe en lecture seule.

    Lorsque le champ WorkerType est défini sur une valeur autre que Standard, le champ MaxCapacity est défini automatiquement et passe en lecture seule.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte la valeur Standard, G.1X ou G.2X.

    • Pour le type de travail Standard, chaque travail fournit 4 vCPU, 16 Go de mémoire et 50 Go de disque, ainsi que 2 exécuteurs par travail.

    • Pour le type de travail G.1X, chaque travail fournit 4 vCPU, 16 Go de mémoire et 64 Go de disque, ainsi que 1 exécuteur par travail.

    • Pour le type de travail G.2X, chaque travail fournit 8 vCPU, 32 Go de mémoire et 128 Go de disque, ainsi que 1 exécuteur par travail.

    MaxCapacity est une option mutuellement exclusive avec NumberOfWorkers et WorkerType.

    • Si NumberOfWorkers ou WorkerType est défini, ne MaxCapacity peut pas être défini.

    • Si MaxCapacity est défini, ni NumberOfWorkers ni WorkerType ne peuvent être définis.

    • Si WorkerType est défini, NumberOfWorkers est obligatoire (et inversement).

    • MaxCapacity et NumberOfWorkers doivent être au moins égal à 1.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

    Si WorkerType est défini, NumberOfWorkers est obligatoire (et inversement).

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de la tâche exécutée pour cette transformation en minutes. Durée maximale pendant laquelle l'exécution d'une tâche pour cette transformation peut utiliser des ressources avant qu'elle ne soit mise hors service et passe à l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).

  • MaxRetries – Nombre (entier).

    Nombre maximal de nouvelles tentatives d'une tâche de cette transformation après l'échec de l'exécution d'une tâche.

  • Tags – Tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

    Chaque clé est une chaîne UTF-8, d'une longueur comprise entre 1 et 128 octets.

    Chaque valeur est une chaîne UTF-8, d'une longueur maximale de 256 octets.

    Balises à utiliser avec cette transformation de Machine Learning. Vous pouvez utiliser des balises pour limiter l'accès à la transformation de Machine Learning. Pour plus d'informations sur les tags in AWS Glue, voir AWS Tags in AWS Glue dans le guide du développeur.

  • TransformEncryption – Un objet TransformEncryption.

    Les encryption-at-rest paramètres de la transformation qui s'appliquent à l'accès aux données utilisateur. Les transformations de machine learning peuvent accéder aux données utilisateur chiffrées dans Amazon S3 à l'aide de KMS.

Réponse
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique généré pour la transformation.

Erreurs
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

Action UpdateMLTransform (Python : update_ml_transform)

Met à jour une transformation du Machine Learning existante. Appelez cette opération pour ajuster les paramètres de l'algorithme afin d'obtenir de meilleurs résultats.

Après l'appel de cette opération, vous pouvez appeler l'opération StartMLEvaluationTaskRun pour évaluer comment vos nouveaux paramètres ont atteint vos objectifs (par exemple, améliorer la qualité de votre transformation Machine Learning, ou la rendre plus rentable).

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique qui a été généré lorsque la transformation a été créée.

  • Name – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom unique que vous avez donné à la transformation lorsque vous l'avez créée.

  • Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la transformation. La valeur par défaut est une chaîne vide.

  • Parameters – Un objet TransformParameters.

    Paramètres de configuration spécifiques au type de transformation (algorithme) utilisé. Dépendant de façon conditionnelle du type de transformation.

  • Role – Chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM avec les autorisations requises.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Cette valeur détermine la version compatible avec laquelle AWS Glue cette transformation de machine learning est compatible. Glue 1.0 est recommandé pour la plupart des clients. Si la valeur n'est pas définie, la compatibilité Glue par défaut est Glue 0.9. Pour plus d'informations, veuillez consulter la rubrique Versions AWS Glue dans le guide du développeur.

  • MaxCapacity – Nombre (double).

    Nombre d'unités de traitement de AWS Glue données (DPU) allouées aux exécutions de tâches pour cette transformation. Vous pouvez allouer de 2 à 100 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Lorsque le champ WorkerType est défini sur une valeur autre que Standard, le champ MaxCapacity est défini automatiquement et passe en lecture seule.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte la valeur Standard, G.1X ou G.2X.

    • Pour le type de travail Standard, chaque travail fournit 4 vCPU, 16 Go de mémoire et 50 Go de disque, ainsi que 2 exécuteurs par travail.

    • Pour le type de travail G.1X, chaque travail fournit 4 vCPU, 16 Go de mémoire et 64 Go de disque, ainsi que 1 exécuteur par travail.

    • Pour le type de travail G.2X, chaque travail fournit 8 vCPU, 32 Go de mémoire et 128 Go de disque, ainsi que 1 exécuteur par travail.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'attente (en minutes) d'une tâche exécutée pour cette transformation. Durée maximale pendant laquelle l'exécution d'une tâche pour cette transformation peut utiliser des ressources avant qu'elle ne soit mise hors service et passe à l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).

  • MaxRetries – Nombre (entier).

    Nombre maximal de nouvelles tentatives d'une tâche de cette transformation après l'échec de l'exécution d'une tâche.

Réponse
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation qui a été mise à jour.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

Action DeleteMLTransform (Python : delete_ml_transform)

Supprime toute transformation AWS Glue de machine learning. Les transformations Machine Learning sont un type spécial de transformation qui utilisent le Machine Learning pour découvrir les détails de la transformation à exécuter par l'apprentissage à partir d'exemples fournis par les humains. Ces transformations sont ensuite enregistrées par AWS Glue. Si vous n'avez plus besoin d'une transformation, vous pouvez la supprimer en appelant DeleteMLTransforms. Cependant, les AWS Glue tâches qui font toujours référence à la transformation supprimée ne seront plus couronnées de succès.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation à supprimer.

Réponse
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation qui a été supprimée.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Action GetMLTransform (Python : get_ml_transform)

Récupère un artefact de transformation basé sur le AWS Glue machine learning et toutes les métadonnées correspondantes. Les transformations Machine Learning sont un type spécial de transformation qui utilisent le Machine Learning pour découvrir les détails de la transformation à exécuter par l'apprentissage à partir d'exemples fournis par les humains. Ces transformations sont ensuite enregistrées par AWS Glue. Vous pouvez récupérer leurs métadonnées en appelant GetMLTransform.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation, générée à l'heure à laquelle la transformation a été créée.

Réponse
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation, générée à l'heure à laquelle la transformation a été créée.

  • Name – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom unique donné à la transformation lors de sa création.

  • Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la transformation.

  • Status – Chaîne UTF-8 (valeurs valides : NOT_READY | READY | DELETING).

    Dernier état connu de la transformation (pour indiquer si elle peut être utilisée ou non). L'un des états « NOT_READY », « READY » ou « DELETING ».

  • CreatedOn – Horodatage.

    Date et heure de création de la transformation.

  • LastModifiedOn – Horodatage.

    Date et heure de la dernière modification de la transformation.

  • InputRecordTables – Un tableau d'objets GlueTable, 10 structures au maximum.

    Liste des définitions de AWS Glue table utilisées par la transformation.

  • Parameters – Un objet TransformParameters.

    Paramètres de configuration spécifiques à l'algorithme utilisé.

  • EvaluationMetrics – Un objet EvaluationMetrics.

    Dernières métriques d'évaluation.

  • LabelCount – Nombre (entier).

    Nombre d'étiquettes disponibles pour cette transformation.

  • Schema – Un tableau d'objets SchemaColumn, 100 structures au maximum.

    Objet Map<Column, Type> qui représente le schéma que cette transformation accepte. Comporte une limite supérieure de 100 colonnes.

  • Role – Chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM avec les autorisations requises.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Cette valeur détermine la version compatible avec laquelle AWS Glue cette transformation de machine learning est compatible. Glue 1.0 est recommandé pour la plupart des clients. Si la valeur n'est pas définie, la compatibilité Glue par défaut est Glue 0.9. Pour plus d'informations, veuillez consulter la rubrique Versions AWS Glue dans le guide du développeur.

  • MaxCapacity – Nombre (double).

    Nombre d'unités de traitement de AWS Glue données (DPU) allouées aux exécutions de tâches pour cette transformation. Vous pouvez allouer de 2 à 100 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Lorsque le champ WorkerType est défini sur une valeur autre que Standard, le champ MaxCapacity est défini automatiquement et passe en lecture seule.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte la valeur Standard, G.1X ou G.2X.

    • Pour le type de travail Standard, chaque travail fournit 4 vCPU, 16 Go de mémoire et 50 Go de disque, ainsi que 2 exécuteurs par travail.

    • Pour le type de travail G.1X, chaque travail fournit 4 vCPU, 16 Go de mémoire et 64 Go de disque, ainsi que 1 exécuteur par travail.

    • Pour le type de travail G.2X, chaque travail fournit 8 vCPU, 32 Go de mémoire et 128 Go de disque, ainsi que 1 exécuteur par travail.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'attente (en minutes) d'une tâche exécutée pour cette transformation. Durée maximale pendant laquelle l'exécution d'une tâche pour cette transformation peut utiliser des ressources avant qu'elle ne soit mise hors service et passe à l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).

  • MaxRetries – Nombre (entier).

    Nombre maximal de nouvelles tentatives d'une tâche de cette transformation après l'échec de l'exécution d'une tâche.

  • TransformEncryption – Un objet TransformEncryption.

    Les encryption-at-rest paramètres de la transformation qui s'appliquent à l'accès aux données utilisateur. Les transformations de machine learning peuvent accéder aux données utilisateur chiffrées dans Amazon S3 à l'aide de KMS.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Action GetMLTransforms (Python : get_ml_transforms)

Obtient une liste triable et filtrable des transformations d'apprentissage AWS Glue automatique existantes. Les transformations Machine Learning sont un type spécial de transformation qui utilisent le Machine Learning pour découvrir les détails de la transformation à exécuter par l'apprentissage à partir d'exemples fournis par les humains. Ces transformations sont ensuite enregistrées par AWS Glue, et vous pouvez récupérer leurs métadonnées en appelantGetMLTransforms.

Demande
  • NextToken – Chaîne UTF-8.

    Jeton de pagination pour décaler les résultats.

  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    Nombre maximal de résultats à renvoyer.

  • Filter – Un objet TransformFilterCritères.

    Critères de transformation du filtre.

  • Sort – Un objet TransformSortCritères.

    Critères de tri.

Réponse
  • TransformsObligatoire : Un tableau d'objets MLTransform.

    Liste de transformations du Machine Learning.

  • NextToken – Chaîne UTF-8.

    Un jeton de pagination, si d'autres résultats sont disponibles.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms Action (Python: list_ml_transforms)

Récupère une liste triable et filtrable des transformations de AWS Glue machine learning existantes dans ce AWS compte, ou des ressources avec le tag spécifié. Cette opération accepte le champ Tags facultatif que vous pouvez utiliser comme filtre sur les réponses, afin que les ressources balisées puissent être récupérées en tant que groupe. Si vous choisissez d'utiliser le filtrage des balises, seules les ressources avec les balises sont récupérées.

Demande
  • NextToken – Chaîne UTF-8.

    Jeton de continuation, s'il s'agit d'une requête de continuation.

  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    La taille maximale d'une liste à renvoyer.

  • Filter – Un objet TransformFilterCritères.

    Élément TransformFilterCriteria utilisé pour filtrer les transformations de Machine Learning.

  • Sort – Un objet TransformSortCritères.

    Élément TransformSortCriteria utilisé pour trier les transformations de Machine Learning.

  • Tags – Tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

    Chaque clé est une chaîne UTF-8, d'une longueur comprise entre 1 et 128 octets.

    Chaque valeur est une chaîne UTF-8, d'une longueur maximale de 256 octets.

    Spécifie de renvoyer uniquement les ressources balisées.

Réponse
  • TransformIdsObligatoire : Tableau de chaînes UTF-8.

    Identifiants de toutes les transformations de Machine Learning dans le compte, ou les transformations de Machine Learning avec les balises spécifiées.

  • NextToken – Chaîne UTF-8.

    Jeton continuation, si la liste renvoyée ne contient pas la dernière métrique disponible.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

EvaluationTaskRun Action StartML (Python : start_ml_evaluation_task_run)

Démarre une tâche pour estimer la qualité de la transformation.

Lorsque vous fournissez des ensembles d'étiquettes comme exemples de vérité, l'apprentissage AWS Glue automatique utilise certains de ces exemples pour en tirer des leçons. Le reste des étiquettes est utilisé en tant que test pour estimer la qualité.

Retourne un identifiant unique pour l'exécution. Vous pouvez appeler GetMLTaskRun pour obtenir plus d'informations sur les statistiques de EvaluationTaskRun.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

Réponse
  • TaskRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique associé à cette exécution.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

LabelingSetGenerationTaskRun Action StartML (Python : start_ml_labeling_set_generation_task_run)

Démarre le flux de travail de l'apprentissage actif d'apprentissage automatique pour votre transformation de Machine Learning afin d'améliorer la qualité de la transformation en générant des ensembles d'étiquette et en ajoutant des étiquettes.

Quand StartMLLabelingSetGenerationTaskRun a pris fin, AWS Glue aura généré un « jeu d'étiquetage » ou un ensemble de questions auxquelles les humains devront répondre.

Dans le cas de la transformation FindMatches, ces questions prennent la forme : « Quel est le bon moyen de regrouper conjointement ces lignes en groupes composés d'enregistrements correspondants ? »

Une fois que le processus d'étiquetage est terminé, vous pouvez charger vos étiquettes avec un appel à StartImportLabelsTaskRun. Une fois StartImportLabelsTaskRun terminé, toutes les futures exécutions de la transformation du Machine Learning utiliseront les nouvelles étiquettes améliorées et effectueront une transformation de meilleure qualité.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

  • OutputS3PathObligatoire : chaîne UTF-8.

    Chemin Amazon Simple Storage Service (Amazon S3) sur lequel vous générez l'ensemble d'étiquetage.

Réponse
  • TaskRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant d'exécution unique associé à cette exécution de tâche.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

TaskRun Action GetML (Python : get_ml_task_run)

Permet d'obtenir les détails d'une exécution de tâche spécifique sur une transformation du Machine Learning. Les exécutions de tâches d'apprentissage automatique sont des tâches asynchrones exécutées AWS Glue en votre nom dans le cadre de différents flux de travail d'apprentissage automatique. Vous pouvez vérifier les statistiques de toutes les tâches exécutées en appelant GetMLTaskRun avec le TaskRunID et le TransformID de la transformation parent.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

  • TaskRunIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la tâche exécutée.

Réponse
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la tâche exécutée.

  • TaskRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant d'exécution unique associé à cette exécution.

  • Status – Chaîne UTF-8 (valeurs valides: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Statut de la tâche exécutée.

  • LogGroupName – Chaîne UTF-8.

    Noms des groupes de journaux associés à la tâche exécutée.

  • Properties – Un objet TaskRunPropriétés.

    Liste des propriétés associés à la tâche exécutée.

  • ErrorString – Chaîne UTF-8.

    Chaînes d'erreur associées à la tâche exécutée.

  • StartedOn – Horodatage.

    Date et heure de l'exécution de cette tâche.

  • LastModifiedOn – Horodatage.

    Date et heure de la dernière modification de cette exécution de tâche.

  • CompletedOn – Horodatage.

    Date et heure de fin de la dernière exécution de cette tâche.

  • ExecutionTime – Nombre (entier).

    Durée (en secondes) pendant laquelle la tâche exécutée a consommé des ressources.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

TaskRuns Action GetML (Python : get_ml_task_runs)

Permet d'obtenir la liste des exécutions d'une transformation du Machine Learning. Les exécutions de tâches d'apprentissage automatique sont des tâches asynchrones exécutées AWS Glue en votre nom dans le cadre de différents flux de travail d'apprentissage automatique. Vous pouvez obtenir une liste triable et filtrable des exécutions de tâche du Machine Learning en appelant GetMLTaskRuns avec le TransformID de sa transformation parent et d'autres paramètres facultatifs, comme décrit dans cette section.

Cette opération renvoie la liste des exécutions historiques et doit être paginée.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

  • NextToken – Chaîne UTF-8.

    Jeton pour la pagination des résultats. La valeur par défaut est vide.

  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    Nombre maximal de résultats à renvoyer.

  • Filter – Un objet TaskRunFilterCriteria.

    Critères de filtre, dans la structure TaskRunFilterCriteria, pour la tâche exécutée.

  • Sort – Un objet TaskRunSortCriteria.

    Critères de tri, dans la structure TaskRunSortCriteria, pour la tâche exécutée.

Réponse
  • TaskRuns – Un tableau d'objets TaskRun.

    Liste des exécutions de tâches associées à la transformation.

  • NextToken – Chaîne UTF-8.

    Un jeton de pagination, si d'autres résultats sont disponibles.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

TaskRun Action CancelML (Python : cancel_ml_task_run)

Annule (arrête) une exécution de tâche. Les exécutions de tâches d'apprentissage automatique sont des tâches asynchrones exécutées AWS Glue en votre nom dans le cadre de différents flux de travail d'apprentissage automatique. Vous pouvez annuler une exécution de tâche du Machine Learning à tout moment en appelant CancelMLTaskRun avec le TransformID d'une transformation parent de la tâche exécutée et le TaskRunId de la tâche exécutée.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

  • TaskRunIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la tâche exécutée.

Réponse
  • TransformId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

  • TaskRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de l'exécution de la tâche.

  • Status – Chaîne UTF-8 (valeurs valides: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Statut de cette exécution.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun action (Python : start_export_labels_task_run)

Commence une tâche asynchrone pour exporter toutes les données étiquetées pour une transformation particulière. Cette tâche est le seul appel d'API lié à l'étiquetage qui ne fasse pas partie du flux de travail d'apprentissage actif classique. Vous utilisez généralement StartExportLabelsTaskRun lorsque vous souhaitez utiliser tous vos étiquettes existantes en même temps, par exemple lorsque vous souhaitez supprimer ou modifier les étiquettes qui ont été soumises précédemment comme vraies. Cette opération d'API accepte le TransformId dont vous souhaitez exporter les étiquettes et un chemin Amazon Simple Storage Service (Amazon S3) vers lequel exporter les étiquettes. L'opération renvoie un TaskRunId. Vous pouvez vérifier le statut de votre tâche d'exécuter en appelant l'API GetMLTaskRun.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

  • OutputS3PathObligatoire : chaîne UTF-8.

    Chemin Amazon S3 où vous exportez les étiquettes.

Réponse
  • TaskRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de l'exécution de la tâche.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun action (Python : start_import_labels_task_run)

Vous permet de fournir des étiquettes supplémentaires (exemples de vérité) à utiliser afin d'enseigner la transformation du Machine Learning et d'améliorer sa qualité. Cette opération d'API est généralement utilisée dans le cadre du processus d'apprentissage active qui commence par l'appel StartMLLabelingSetGenerationTaskRun et qui se traduit finalement par l'amélioration de la qualité de votre transformation de Machine Learning.

Une fois StartMLLabelingSetGenerationTaskRun terminé, le machine learning AWS Glue aura généré une série de questions pour que les humains y répondent. (La réponse à ces questions est souvent appelé « étiquette » dans les flux de travail du Machine Learning). Dans le cas de la transformation FindMatches, ces questions prennent la forme : « Quel est le bon moyen de regrouper conjointement ces lignes en groupes composés d'enregistrements correspondants ? » Une fois que le processus d'étiquetage est terminé, les utilisateurs chargent leurs réponses/étiquettes avec un appel à StartImportLabelsTaskRun. Une fois StartImportLabelsTaskRun terminé, toutes les exécutions futures de la transformation du Machine Learning utilisent les nouvelles étiquettes améliorées et effectuent une transformation de meilleure qualité.

Par défaut, StartMLLabelingSetGenerationTaskRun apprend en permanence et associe toutes les étiquettes que vous chargez, sauf si vous définissez Replace sur true. Si vous définissez Replace sur true, StartImportLabelsTaskRun supprime et oublie toutes les étiquettes précédemment chargées et apprend uniquement à partir de l'ensemble exact que vous chargez. Le remplacement des étiquettes peuvent être utiles si vous vous rendez compte que vous avez précédemment téléchargé les étiquettes incorrectes et que vous pensez qu'elles ont une incidence négative sur la qualité de votre transformation.

Vous pouvez vérifier le statut de votre exécution de tâche en appelant l'opération GetMLTaskRun.

Demande
  • TransformIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de la transformation du Machine Learning.

  • InputS3PathObligatoire : chaîne UTF-8.

    Chemin Amazon Simple Storage Service (Amazon S3) à partir duquel vous importez les étiquettes.

  • ReplaceAllLabels – Booléen.

    Indique si vous souhaitez remplacer vos étiquettes existantes.

Réponse
  • TaskRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Identifiant unique de l'exécution de la tâche.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException