API du classifieur - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

API du classifieur

L'API Classifier décrit les types de données du AWS Glue classificateur et inclut l'API permettant de créer, de supprimer, de mettre à jour et de répertorier les classificateurs.

Types de données

Structure du classifieur

Les classifieurs sont déclenchés durant une tâche d'analyse. Un classifieur vérifie si un fichier donné est dans un format qu'il peut gérer. Si c'est le cas, le classifieur crée un schéma sous la forme d'un objet StructType correspondant à ce format de données.

Vous pouvez utiliser les classificateurs standard AWS Glue fournis, ou vous pouvez écrire vos propres classificateurs pour classer au mieux vos sources de données et spécifier les schémas appropriés à utiliser pour celles-ci. Un classifieur peut être un classifieur grok, un classifieur XML, un classifieur JSON ou un classifieur CSV personnalisé, selon ce qui est spécifié dans l'un des champs de l'objet Classifier.

Champs
  • GrokClassifier – Un objet GrokClassifier.

    Classificateur qui utilise grok.

  • XMLClassifier – Un objet XMLClassifier.

    Classificateur de contenu XML.

  • JsonClassifier – Un objet JsonClassifier.

    Classificateur de contenu JSON.

  • CsvClassifier – Un objet CsvClassifier.

    Classificateur pour les valeurs séparées par des virgules (CSV).

GrokClassifier structure

Classifieur qui utilise des modèles grok.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format des données auquel le classifieur correspond, comme les journaux Twitter, JSON, Omniture, etc.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • GrokPatternObligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.

    Modèle grok appliqué à un magasin de données par ce classifieur. Pour plus d'informations, consultez les modèles intégrés dans Writing Custom Classifiers (Écriture de classifieurs personnalisés).

  • CustomPatterns – Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.

    Modèles grok personnalisés facultatifs définis par ce classifieur. Pour plus d'informations, consultez les modèles personnalisés dans Writing Custom Classifiers (Écriture de classifieurs personnalisés).

XMLClassifier structure

Classifieur de contenu XML.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format des données que le classifieur fait correspondre.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • RowTag – Chaîne UTF-8.

    Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d'identifier un élément à fermeture automatique (fermé par />). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple, <row item_a="A" item_b="B"></row> est correct, mais <row item_a="A" item_b="B" /> ne l'est pas).

JsonClassifier structure

Classifieur de contenu JSON.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • JsonPathObligatoire : chaîne UTF-8.

    JsonPathChaîne définissant les données JSON à classer par le classificateur. AWS Glue prend en charge un sous-ensemble de JsonPath, comme décrit dans la section Écrire des JsonPath classificateurs personnalisés.

CsvClassifier structure

Classifieur de contenu CSV personnalisé.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • Delimiter – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.

    Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.

  • QuoteSymbol – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.

    Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.

  • ContainsHeader – Chaîne UTF-8 (valeurs valides : UNKNOWN | PRESENT | ABSENT).

    Indique si le fichier CSV contient un en-tête.

  • Header – Tableau de chaînes UTF-8.

    Liste des chaînes représentant les noms des colonnes.

  • DisableValueTrimming – Booléen.

    Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est true.

  • AllowSingleColumn – Booléen.

    Active le traitement des fichiers qui ne contiennent qu'une seule colonne.

  • CustomDatatypeConfigured – Booléen.

    Permet de configurer le type de données personnalisé.

  • CustomDatatypes – Tableau de chaînes UTF-8.

    Liste de types de données personnalisés, notamment « BINARY », « BOOLEAN », « DATE », « DECIMAL », « DOUBLE », « FLOAT », « INT », « LONG », « SHORT », « STRING », « TIMESTAMP ».

  • Serde – Chaîne UTF-8 (valeurs valides : OpenCSVSerDe | LazySimpleSerDe | None).

    Définit le CSV SerDe pour le traitement dans le classificateur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont OpenCSVSerDe, LazySimpleSerDe et None. Vous pouvez spécifier la valeur None lorsque vous souhaitez que le Crawler effectue la détection.

CreateGrokClassifierRequest structure

Spécifie un classifieur grok que CreateClassifier doit créer.

Champs
  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format de données auquel le classificateur correspond, tel que Twitter, JSON, Omniture CloudWatch logs, Amazon Logs, etc.

  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du nouveau classifieur.

  • GrokPatternObligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.

    Modèle grok utilisé par ce classifieur.

  • CustomPatterns – Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.

    Modèles grok personnalisés facultatifs utilisés par ce classifieur.

UpdateGrokClassifierRequest structure

Spécifie un classifieur grok à mettre à jour lorsqu'il est transmis à UpdateClassifier.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Le nom de l'GrokClassifier.

  • Classification – Chaîne UTF-8.

    Identifiant du format de données auquel le classificateur correspond, tel que Twitter, JSON, Omniture CloudWatch logs, Amazon Logs, etc.

  • GrokPattern – Chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.

    Modèle grok utilisé par ce classifieur.

  • CustomPatterns – Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.

    Modèles grok personnalisés facultatifs utilisés par ce classifieur.

Créer une structure XMLClassifier de demande

Spécifie un classifieur XML que CreateClassifier doit créer.

Champs
  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format des données que le classifieur fait correspondre.

  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • RowTag – Chaîne UTF-8.

    Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d'identifier un élément à fermeture automatique (fermé par />). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple, <row item_a="A" item_b="B"></row> est correct, mais <row item_a="A" item_b="B" /> ne l'est pas).

Structure de XMLClassifier demande de mise à jour

Spécifie un classifieur XML à mettre à jour.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • Classification – Chaîne UTF-8.

    Identifiant du format des données que le classifieur fait correspondre.

  • RowTag – Chaîne UTF-8.

    Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d’identifier un élément à fermeture automatique (fermé par />). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple, <row item_a="A" item_b="B"></row> est correct, mais <row item_a="A" item_b="B" /> ne l'est pas).

CreateJsonClassifierRequest structure

Spécifie un classifieur JSON que CreateClassifier doit créer.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • JsonPathObligatoire : chaîne UTF-8.

    JsonPathChaîne définissant les données JSON à classer par le classificateur. AWS Glue prend en charge un sous-ensemble de JsonPath, comme décrit dans la section Écrire des JsonPath classificateurs personnalisés.

UpdateJsonClassifierRequest structure

Spécifie un classifieur JSON à mettre à jour.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • JsonPath – Chaîne UTF-8.

    JsonPathChaîne définissant les données JSON à classer par le classificateur. AWS Glue prend en charge un sous-ensemble de JsonPath, comme décrit dans la section Écrire des JsonPath classificateurs personnalisés.

CreateCsvClassifierRequest structure

Spécifie un classifieur CSV personnalisé que CreateClassifier doit créer.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • Delimiter – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.

    Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.

  • QuoteSymbol – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.

    Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.

  • ContainsHeader – Chaîne UTF-8 (valeurs valides : UNKNOWN | PRESENT | ABSENT).

    Indique si le fichier CSV contient un en-tête.

  • Header – Tableau de chaînes UTF-8.

    Liste des chaînes représentant les noms des colonnes.

  • DisableValueTrimming – Booléen.

    Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est True.

  • AllowSingleColumn – Booléen.

    Active le traitement des fichiers qui ne contiennent qu'une seule colonne.

  • CustomDatatypeConfigured – Booléen.

    Permet la configuration du type de données personnalisé.

  • CustomDatatypes – Tableau de chaînes UTF-8.

    Crée une liste des types de données personnalisés pris en charge.

  • Serde – Chaîne UTF-8 (valeurs valides : OpenCSVSerDe | LazySimpleSerDe | None).

    Définit le CSV SerDe pour le traitement dans le classificateur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont OpenCSVSerDe, LazySimpleSerDe et None. Vous pouvez spécifier la valeur None lorsque vous souhaitez que le Crawler effectue la détection.

UpdateCsvClassifierRequest structure

Spécifie un classifieur CSV personnalisé à mettre à jour.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • Delimiter – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.

    Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.

  • QuoteSymbol – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.

    Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.

  • ContainsHeader – Chaîne UTF-8 (valeurs valides : UNKNOWN | PRESENT | ABSENT).

    Indique si le fichier CSV contient un en-tête.

  • Header – Tableau de chaînes UTF-8.

    Liste des chaînes représentant les noms des colonnes.

  • DisableValueTrimming – Booléen.

    Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est True.

  • AllowSingleColumn – Booléen.

    Active le traitement des fichiers qui ne contiennent qu'une seule colonne.

  • CustomDatatypeConfigured – Booléen.

    Spécifie la configuration du type de données personnalisé.

  • CustomDatatypes – Tableau de chaînes UTF-8.

    Spécifie une liste des types de données personnalisés pris en charge.

  • Serde – Chaîne UTF-8 (valeurs valides : OpenCSVSerDe | LazySimpleSerDe | None).

    Définit le CSV SerDe pour le traitement dans le classificateur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont OpenCSVSerDe, LazySimpleSerDe et None. Vous pouvez spécifier la valeur None lorsque vous souhaitez que le Crawler effectue la détection.

Opérations

CreateClassifier action (Python : create_classifier)

Crée un classifieur dans le compte de l'utilisateur. Cela peut être un GrokClassifier, un XMLClassifier, un JsonClassifier ou un CsvClassifier, selon le champ de la demande qui est présent.

Demande
Réponse
  • Paramètres d'absence de réponse.

Erreurs
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

DeleteClassifier action (Python : delete_classifier)

Supprime un classifieur du catalogue de données.

Demande
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur à supprimer.

Réponse
  • Paramètres d'absence de réponse.

Erreurs
  • EntityNotFoundException

  • OperationTimeoutException

GetClassifier action (Python : get_classifier)

Récupérer un classifieur par son nom.

Demande
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur à récupérer.

Réponse
  • Classifier – Un objet Classifieur.

    Classifieur demandé.

Erreurs
  • EntityNotFoundException

  • OperationTimeoutException

GetClassifiers action (Python : get_classifiers)

Répertorie toutes les objets Classifieur du catalogue de données.

Demande
  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    Taille de la liste à renvoyer (facultatif).

  • NextToken – Chaîne UTF-8.

    Jeton de continuation facultatif.

Réponse
  • Classifiers – Un tableau d'objets Classifieur.

    Liste des objets Classifier demandée.

  • NextToken – Chaîne UTF-8.

    Jeton de continuation.

Erreurs
  • OperationTimeoutException

UpdateClassifier action (Python : update_classifier)

Modifie un classifieur existant (GrokClassifier, XMLClassifier, JsonClassifier ou CsvClassifier, selon le champ qui est présent).

Demande
Réponse
  • Paramètres d'absence de réponse.

Erreurs
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • OperationTimeoutException