API du classifieur - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

API du classifieur

L'API Classifieurs décrit les types de données des classifieurs AWS Glue et comprend l'API permettant de créer, supprimer, mettre à jour et répertorier les classifieurs.

Types de données

Structure du classifieur

Les classifieurs sont déclenchés durant une tâche d'analyse. Un classifieur vérifie si un fichier donné est dans un format qu'il peut gérer. Si c'est le cas, le classifieur crée un schéma sous la forme d'un objet StructType correspondant à ce format de données.

Vous pouvez utiliser les classifieurs standard que fournit AWS Glue ou vous pouvez écrire vos propres classifieurs pour catégoriser au mieux vos sources de données et spécifier les schémas appropriés à utiliser pour celles-ci. Un classifieur peut être un classifieur grok, un classifieur XML, un classifieur JSON ou un classifieur CSV personnalisé, selon ce qui est spécifié dans l'un des champs de l'objet Classifier.

Champs
  • GrokClassifier – Un objet GrokClassifier.

    Classificateur qui utilise grok.

  • XMLClassifier – Un objet XMLClassifier.

    Classificateur de contenu XML.

  • JsonClassifier – Un objet JsonClassifier.

    Classificateur de contenu JSON.

  • CsvClassifier – Un objet CsvClassifier.

    Classificateur pour les valeurs séparées par des virgules (CSV).

Structure du GrokClassifier

Classifieur qui utilise des modèles grok.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format des données auquel le classifieur correspond, comme les journaux Twitter, JSON, Omniture, etc.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • GrokPatternObligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.

    Modèle grok appliqué à un magasin de données par ce classifieur. Pour plus d'informations, consultez les modèles intégrés dans Writing Custom Classifiers (Écriture de classifieurs personnalisés).

  • CustomPatterns – Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.

    Modèles grok personnalisés facultatifs définis par ce classifieur. Pour plus d'informations, consultez les modèles personnalisés dans Writing Custom Classifiers (Écriture de classifieurs personnalisés).

Structure du XMLClassifier

Classifieur de contenu XML.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format des données que le classifieur fait correspondre.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • RowTag – Chaîne UTF-8.

    Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d'identifier un élément à fermeture automatique (fermé par />). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple, <row item_a="A" item_b="B"></row> est correct, mais <row item_a="A" item_b="B" /> ne l'est pas).

Structure du JsonClassifier

Classifieur de contenu JSON.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • JsonPathObligatoire : chaîne UTF-8.

    Une chaîne JsonPath définissant les données JSON que le classifieur doit classer. AWS Glue supporte un sous-ensemble de JsonPath, comme décrit dans la rubrique Rédaction de classifieurs personnalisés JsonPath.

Structure du CsvClassifier

Classifieur de contenu CSV personnalisé.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • CreationTime – Horodatage.

    Heure à laquelle ce classificateur a été enregistré.

  • LastUpdated – Horodatage.

    Heure de la dernière mise à jour de ce classifieur.

  • Version – Nombre (long).

    Version de ce classifieur.

  • Delimiter – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #10.

    Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.

  • QuoteSymbol – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #10.

    Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.

  • ContainsHeader – Chaîne UTF-8 (valeurs valides : UNKNOWN | PRESENT | ABSENT).

    Indique si le fichier CSV contient un en-tête.

  • Header – Tableau de chaînes UTF-8.

    Liste des chaînes représentant les noms des colonnes.

  • DisableValueTrimming – Booléen.

    Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est true.

  • AllowSingleColumn – Booléen.

    Active le traitement des fichiers qui ne contiennent qu'une seule colonne.

  • CustomDatatypeConfigured – Booléen.

    Permet de configurer le type de données personnalisé.

  • CustomDatatypes – Tableau de chaînes UTF-8.

    Liste de types de données personnalisés, notamment « BINARY », « BOOLEAN », « DATE », « DECIMAL », « DOUBLE », « FLOAT », « INT », « LONG », « SHORT », « STRING », « TIMESTAMP ».

  • Serde – Chaîne UTF-8 (valeurs valides : OpenCSVSerDe | LazySimpleSerDe | None).

    Définit le SerDe pour le traitement CSV dans le classifieur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont OpenCSVSerDe, LazySimpleSerDe et None. Vous pouvez spécifier la valeur None lorsque vous souhaitez que le Crawler effectue la détection.

Structure de CreateGrokClassifierRequest

Spécifie un classifieur grok que CreateClassifier doit créer.

Champs
  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format des données auquel le classifieur correspond, comme les journaux Twitter, JSON, Omniture, Amazon CloudWatch Logs, etc.

  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du nouveau classifieur.

  • GrokPatternObligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.

    Modèle grok utilisé par ce classifieur.

  • CustomPatterns – Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.

    Modèles grok personnalisés facultatifs utilisés par ce classifieur.

Structure de UpdateGrokClassifierRequest

Spécifie un classifieur grok à mettre à jour lorsqu'il est transmis à UpdateClassifier.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Le nom de l'GrokClassifier.

  • Classification – Chaîne UTF-8.

    Identifiant du format des données auquel le classifieur correspond, comme les journaux Twitter, JSON, Omniture, Amazon CloudWatch Logs, etc.

  • GrokPattern – Chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.

    Modèle grok utilisé par ce classifieur.

  • CustomPatterns – Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.

    Modèles grok personnalisés facultatifs utilisés par ce classifieur.

Structure de CreateXMLClassifierRequest

Spécifie un classifieur XML que CreateClassifier doit créer.

Champs
  • ClassificationObligatoire : chaîne UTF-8.

    Identifiant du format des données que le classifieur fait correspondre.

  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • RowTag – Chaîne UTF-8.

    Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d'identifier un élément à fermeture automatique (fermé par />). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple, <row item_a="A" item_b="B"></row> est correct, mais <row item_a="A" item_b="B" /> ne l'est pas).

Structure de UpdateXMLClassifierRequest

Spécifie un classifieur XML à mettre à jour.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • Classification – Chaîne UTF-8.

    Identifiant du format des données que le classifieur fait correspondre.

  • RowTag – Chaîne UTF-8.

    Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d’identifier un élément à fermeture automatique (fermé par />). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple, <row item_a="A" item_b="B"></row> est correct, mais <row item_a="A" item_b="B" /> ne l'est pas).

Structure de CreateJsonClassifierRequest

Spécifie un classifieur JSON que CreateClassifier doit créer.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • JsonPathObligatoire : chaîne UTF-8.

    Une chaîne JsonPath définissant les données JSON que le classifieur doit classer. AWS Glue supporte un sous-ensemble de JsonPath, comme décrit dans la rubrique Rédaction de classifieurs personnalisés JsonPath.

Structure de UpdateJsonClassifierRequest

Spécifie un classifieur JSON à mettre à jour.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • JsonPath – Chaîne UTF-8.

    Une chaîne JsonPath définissant les données JSON que le classifieur doit classer. AWS Glue supporte un sous-ensemble de JsonPath, comme décrit dans la rubrique Rédaction de classifieurs personnalisés JsonPath.

Structure de CreateCsvClassifierRequest

Spécifie un classifieur CSV personnalisé que CreateClassifier doit créer.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • Delimiter – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #10.

    Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.

  • QuoteSymbol – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #10.

    Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.

  • ContainsHeader – Chaîne UTF-8 (valeurs valides : UNKNOWN | PRESENT | ABSENT).

    Indique si le fichier CSV contient un en-tête.

  • Header – Tableau de chaînes UTF-8.

    Liste des chaînes représentant les noms des colonnes.

  • DisableValueTrimming – Booléen.

    Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est True.

  • AllowSingleColumn – Booléen.

    Active le traitement des fichiers qui ne contiennent qu'une seule colonne.

  • CustomDatatypeConfigured – Booléen.

    Permet la configuration du type de données personnalisé.

  • CustomDatatypes – Tableau de chaînes UTF-8.

    Crée une liste des types de données personnalisés pris en charge.

  • Serde – Chaîne UTF-8 (valeurs valides : OpenCSVSerDe | LazySimpleSerDe | None).

    Définit le SerDe pour le traitement CSV dans le classifieur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont OpenCSVSerDe, LazySimpleSerDe et None. Vous pouvez spécifier la valeur None lorsque vous souhaitez que le Crawler effectue la détection.

Structure de UpdateCsvClassifierRequest

Spécifie un classifieur CSV personnalisé à mettre à jour.

Champs
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur.

  • Delimiter – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #10.

    Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.

  • QuoteSymbol – Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #10.

    Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.

  • ContainsHeader – Chaîne UTF-8 (valeurs valides : UNKNOWN | PRESENT | ABSENT).

    Indique si le fichier CSV contient un en-tête.

  • Header – Tableau de chaînes UTF-8.

    Liste des chaînes représentant les noms des colonnes.

  • DisableValueTrimming – Booléen.

    Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est True.

  • AllowSingleColumn – Booléen.

    Active le traitement des fichiers qui ne contiennent qu'une seule colonne.

  • CustomDatatypeConfigured – Booléen.

    Spécifie la configuration du type de données personnalisé.

  • CustomDatatypes – Tableau de chaînes UTF-8.

    Spécifie une liste des types de données personnalisés pris en charge.

  • Serde – Chaîne UTF-8 (valeurs valides : OpenCSVSerDe | LazySimpleSerDe | None).

    Définit le SerDe pour le traitement CSV dans le classifieur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont OpenCSVSerDe, LazySimpleSerDe et None. Vous pouvez spécifier la valeur None lorsque vous souhaitez que le Crawler effectue la détection.

Opérations

Action CreateClassifier (Python : create_classifier)

Crée un classifieur dans le compte de l'utilisateur. Cela peut être un GrokClassifier, un XMLClassifier, un JsonClassifier ou un CsvClassifier, selon le champ de la demande qui est présent.

Requête
Réponse
  • Paramètres d'absence de réponse.

Erreurs
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

Action DeleteClassifier (Python : delete_classifier)

Supprime un classifieur du catalogue de données.

Requête
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur à supprimer.

Réponse
  • Paramètres d'absence de réponse.

Erreurs
  • EntityNotFoundException

  • OperationTimeoutException

Action GetClassifier (Python : get_classifier)

Récupérer un classifieur par son nom.

Requête
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du classifieur à récupérer.

Réponse
  • Classifier – Un objet Classifieur.

    Classifieur demandé.

Erreurs
  • EntityNotFoundException

  • OperationTimeoutException

Action GetClassifiers (Python : get_classifiers)

Répertorie toutes les objets Classifieur du catalogue de données.

Requête
  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    Taille de la liste à renvoyer (facultatif).

  • NextToken – Chaîne UTF-8.

    Jeton de continuation facultatif.

Réponse
  • Classifiers – Un tableau d'objets Classifieur.

    Liste des objets Classifier demandée.

  • NextToken – Chaîne UTF-8.

    Jeton de continuation.

Erreurs
  • OperationTimeoutException

Action UpdateClassifier (Python : update_classifier)

Modifie un classifieur existant (GrokClassifier, XMLClassifier, JsonClassifier ou CsvClassifier, selon le champ qui est présent).

Requête
Réponse
  • Paramètres d'absence de réponse.

Erreurs
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • OperationTimeoutException