Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
API du classifieur
L'API Classifier décrit les types de données du AWS Glue classificateur et inclut l'API permettant de créer, de supprimer, de mettre à jour et de répertorier les classificateurs.
Types de données
Structure du classifieur
Les classifieurs sont déclenchés durant une tâche d'analyse. Un classifieur vérifie si un fichier donné est dans un format qu'il peut gérer. Si c'est le cas, le classifieur crée un schéma sous la forme d'un objet StructType
correspondant à ce format de données.
Vous pouvez utiliser les classificateurs standard AWS Glue fournis, ou vous pouvez écrire vos propres classificateurs pour classer au mieux vos sources de données et spécifier les schémas appropriés à utiliser pour celles-ci. Un classifieur peut être un classifieur grok
, un classifieur XML
, un classifieur JSON
ou un classifieur CSV
personnalisé, selon ce qui est spécifié dans l'un des champs de l'objet Classifier
.
Champs
-
GrokClassifier
– Un objet GrokClassifier.Classificateur qui utilise
grok
. -
XMLClassifier
– Un objet XMLClassifier.Classificateur de contenu XML.
-
JsonClassifier
– Un objet JsonClassifier.Classificateur de contenu JSON.
-
CsvClassifier
– Un objet CsvClassifier.Classificateur pour les valeurs séparées par des virgules (CSV).
GrokClassifier structure
Classifieur qui utilise des modèles grok
.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
Classification
– Obligatoire : chaîne UTF-8.Identifiant du format des données auquel le classifieur correspond, comme les journaux Twitter, JSON, Omniture, etc.
-
CreationTime
– Horodatage.Heure à laquelle ce classificateur a été enregistré.
-
LastUpdated
– Horodatage.Heure de la dernière mise à jour de ce classifieur.
-
Version
– Nombre (long).Version de ce classifieur.
-
GrokPattern
– Obligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.Modèle grok appliqué à un magasin de données par ce classifieur. Pour plus d'informations, consultez les modèles intégrés dans Writing Custom Classifiers (Écriture de classifieurs personnalisés).
-
CustomPatterns
– Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.Modèles grok personnalisés facultatifs définis par ce classifieur. Pour plus d'informations, consultez les modèles personnalisés dans Writing Custom Classifiers (Écriture de classifieurs personnalisés).
XMLClassifier structure
Classifieur de contenu XML
.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
Classification
– Obligatoire : chaîne UTF-8.Identifiant du format des données que le classifieur fait correspondre.
-
CreationTime
– Horodatage.Heure à laquelle ce classificateur a été enregistré.
-
LastUpdated
– Horodatage.Heure de la dernière mise à jour de ce classifieur.
-
Version
– Nombre (long).Version de ce classifieur.
-
RowTag
– Chaîne UTF-8.Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d'identifier un élément à fermeture automatique (fermé par
/>
). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple,<row item_a="A" item_b="B"></row>
est correct, mais<row item_a="A" item_b="B" />
ne l'est pas).
JsonClassifier structure
Classifieur de contenu JSON
.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
CreationTime
– Horodatage.Heure à laquelle ce classificateur a été enregistré.
-
LastUpdated
– Horodatage.Heure de la dernière mise à jour de ce classifieur.
-
Version
– Nombre (long).Version de ce classifieur.
-
JsonPath
– Obligatoire : chaîne UTF-8.JsonPath
Chaîne définissant les données JSON à classer par le classificateur. AWS Glue prend en charge un sous-ensemble de JsonPath, comme décrit dans la section Écrire des JsonPath classificateurs personnalisés.
CsvClassifier structure
Classifieur de contenu CSV
personnalisé.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
CreationTime
– Horodatage.Heure à laquelle ce classificateur a été enregistré.
-
LastUpdated
– Horodatage.Heure de la dernière mise à jour de ce classifieur.
-
Version
– Nombre (long).Version de ce classifieur.
-
Delimiter
– Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.
-
QuoteSymbol
– Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.
-
ContainsHeader
– Chaîne UTF-8 (valeurs valides :UNKNOWN
|PRESENT
|ABSENT
).Indique si le fichier CSV contient un en-tête.
-
Header
– Tableau de chaînes UTF-8.Liste des chaînes représentant les noms des colonnes.
-
DisableValueTrimming
– Booléen.Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est
true
. -
AllowSingleColumn
– Booléen.Active le traitement des fichiers qui ne contiennent qu'une seule colonne.
-
CustomDatatypeConfigured
– Booléen.Permet de configurer le type de données personnalisé.
-
CustomDatatypes
– Tableau de chaînes UTF-8.Liste de types de données personnalisés, notamment « BINARY », « BOOLEAN », « DATE », « DECIMAL », « DOUBLE », « FLOAT », « INT », « LONG », « SHORT », « STRING », « TIMESTAMP ».
-
Serde
– Chaîne UTF-8 (valeurs valides :OpenCSVSerDe
|LazySimpleSerDe
|None
).Définit le CSV SerDe pour le traitement dans le classificateur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont
OpenCSVSerDe
,LazySimpleSerDe
etNone
. Vous pouvez spécifier la valeurNone
lorsque vous souhaitez que le Crawler effectue la détection.
CreateGrokClassifierRequest structure
Spécifie un classifieur grok
que CreateClassifier
doit créer.
Champs
-
Classification
– Obligatoire : chaîne UTF-8.Identifiant du format de données auquel le classificateur correspond, tel que Twitter, JSON, Omniture CloudWatch logs, Amazon Logs, etc.
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du nouveau classifieur.
-
GrokPattern
– Obligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.Modèle grok utilisé par ce classifieur.
-
CustomPatterns
– Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.Modèles grok personnalisés facultatifs utilisés par ce classifieur.
UpdateGrokClassifierRequest structure
Spécifie un classifieur grok à mettre à jour lorsqu'il est transmis à UpdateClassifier
.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Le nom de l'
GrokClassifier
. -
Classification
– Chaîne UTF-8.Identifiant du format de données auquel le classificateur correspond, tel que Twitter, JSON, Omniture CloudWatch logs, Amazon Logs, etc.
-
GrokPattern
– Chaîne UTF-8, d'une longueur comprise entre 1 et 2048 octets, correspondant au A Logstash Grok string pattern.Modèle grok utilisé par ce classifieur.
-
CustomPatterns
– Chaîne UTF-8, d'une longueur maximale de 16 000 octets, correspondant au URI address multi-line string pattern.Modèles grok personnalisés facultatifs utilisés par ce classifieur.
Créer une structure XMLClassifier de demande
Spécifie un classifieur XML que CreateClassifier
doit créer.
Champs
-
Classification
– Obligatoire : chaîne UTF-8.Identifiant du format des données que le classifieur fait correspondre.
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
RowTag
– Chaîne UTF-8.Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d'identifier un élément à fermeture automatique (fermé par
/>
). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple,<row item_a="A" item_b="B"></row>
est correct, mais<row item_a="A" item_b="B" />
ne l'est pas).
Structure de XMLClassifier demande de mise à jour
Spécifie un classifieur XML à mettre à jour.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
Classification
– Chaîne UTF-8.Identifiant du format des données que le classifieur fait correspondre.
-
RowTag
– Chaîne UTF-8.Balise XML désignant l'élément contenant chaque enregistrement d'un document XML en cours d'analyse. Cela ne permet pas d’identifier un élément à fermeture automatique (fermé par
/>
). Un élément de ligne vide contenant uniquement des attributs peut être analysé tant qu'il se termine par une balise de fermeture (par exemple,<row item_a="A" item_b="B"></row>
est correct, mais<row item_a="A" item_b="B" />
ne l'est pas).
CreateJsonClassifierRequest structure
Spécifie un classifieur JSON que CreateClassifier
doit créer.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
JsonPath
– Obligatoire : chaîne UTF-8.JsonPath
Chaîne définissant les données JSON à classer par le classificateur. AWS Glue prend en charge un sous-ensemble de JsonPath, comme décrit dans la section Écrire des JsonPath classificateurs personnalisés.
UpdateJsonClassifierRequest structure
Spécifie un classifieur JSON à mettre à jour.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
JsonPath
– Chaîne UTF-8.JsonPath
Chaîne définissant les données JSON à classer par le classificateur. AWS Glue prend en charge un sous-ensemble de JsonPath, comme décrit dans la section Écrire des JsonPath classificateurs personnalisés.
CreateCsvClassifierRequest structure
Spécifie un classifieur CSV personnalisé que CreateClassifier
doit créer.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
Delimiter
– Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.
-
QuoteSymbol
– Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.
-
ContainsHeader
– Chaîne UTF-8 (valeurs valides :UNKNOWN
|PRESENT
|ABSENT
).Indique si le fichier CSV contient un en-tête.
-
Header
– Tableau de chaînes UTF-8.Liste des chaînes représentant les noms des colonnes.
-
DisableValueTrimming
– Booléen.Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est True.
-
AllowSingleColumn
– Booléen.Active le traitement des fichiers qui ne contiennent qu'une seule colonne.
-
CustomDatatypeConfigured
– Booléen.Permet la configuration du type de données personnalisé.
-
CustomDatatypes
– Tableau de chaînes UTF-8.Crée une liste des types de données personnalisés pris en charge.
-
Serde
– Chaîne UTF-8 (valeurs valides :OpenCSVSerDe
|LazySimpleSerDe
|None
).Définit le CSV SerDe pour le traitement dans le classificateur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont
OpenCSVSerDe
,LazySimpleSerDe
etNone
. Vous pouvez spécifier la valeurNone
lorsque vous souhaitez que le Crawler effectue la détection.
UpdateCsvClassifierRequest structure
Spécifie un classifieur CSV personnalisé à mettre à jour.
Champs
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur.
-
Delimiter
– Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.Symbole personnalisé pour indiquer ce qui sépare chaque entrée de colonne dans la ligne.
-
QuoteSymbol
– Chaîne UTF-8, d'une longueur d'au moins 1 ou de plus de 1 octet, correspondant au Custom string pattern #26.Symbole personnalisé pour indiquer ce qui combine le contenu en une seule valeur de colonne. Doit être différent du délimiteur de colonne.
-
ContainsHeader
– Chaîne UTF-8 (valeurs valides :UNKNOWN
|PRESENT
|ABSENT
).Indique si le fichier CSV contient un en-tête.
-
Header
– Tableau de chaînes UTF-8.Liste des chaînes représentant les noms des colonnes.
-
DisableValueTrimming
– Booléen.Spécifie de ne pas couper les valeurs avant d'identifier le type des valeurs de colonne. La valeur par défaut est True.
-
AllowSingleColumn
– Booléen.Active le traitement des fichiers qui ne contiennent qu'une seule colonne.
-
CustomDatatypeConfigured
– Booléen.Spécifie la configuration du type de données personnalisé.
-
CustomDatatypes
– Tableau de chaînes UTF-8.Spécifie une liste des types de données personnalisés pris en charge.
-
Serde
– Chaîne UTF-8 (valeurs valides :OpenCSVSerDe
|LazySimpleSerDe
|None
).Définit le CSV SerDe pour le traitement dans le classificateur, qui sera appliqué dans le catalogue de données. Les valeurs valides sont
OpenCSVSerDe
,LazySimpleSerDe
etNone
. Vous pouvez spécifier la valeurNone
lorsque vous souhaitez que le Crawler effectue la détection.
Opérations
CreateClassifier action (Python : create_classifier)
Crée un classifieur dans le compte de l'utilisateur. Cela peut être un GrokClassifier
, un XMLClassifier
, un JsonClassifier
ou un CsvClassifier
, selon le champ de la demande qui est présent.
Demande
-
GrokClassifier
– Un objet CreateGrokClassifierRequest.Un
GrokClassifier
objet spécifiant le classifieur à créer. -
XMLClassifier
– Un objet Créer une XMLClassifier demande.Un
XMLClassifier
objet spécifiant le classifieur à créer. -
JsonClassifier
– Un objet CreateJsonClassifierRequest.Un
JsonClassifier
objet spécifiant le classifieur à créer. -
CsvClassifier
– Un objet CreateCsvClassifierRequest.Un
CsvClassifier
objet spécifiant le classifieur à créer.
Réponse
Paramètres d'absence de réponse.
Erreurs
AlreadyExistsException
InvalidInputException
OperationTimeoutException
DeleteClassifier action (Python : delete_classifier)
Supprime un classifieur du catalogue de données.
Demande
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur à supprimer.
Réponse
Paramètres d'absence de réponse.
Erreurs
EntityNotFoundException
OperationTimeoutException
GetClassifier action (Python : get_classifier)
Récupérer un classifieur par son nom.
Demande
-
Name
– Obligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.Nom du classifieur à récupérer.
Réponse
-
Classifier
– Un objet Classifieur.Classifieur demandé.
Erreurs
EntityNotFoundException
OperationTimeoutException
GetClassifiers action (Python : get_classifiers)
Répertorie toutes les objets Classifieur du catalogue de données.
Demande
-
MaxResults
– Nombre (entier), compris entre 1 et 1 000.Taille de la liste à renvoyer (facultatif).
-
NextToken
– Chaîne UTF-8.Jeton de continuation facultatif.
Réponse
-
Classifiers
– Un tableau d'objets Classifieur.Liste des objets Classifier demandée.
-
NextToken
– Chaîne UTF-8.Jeton de continuation.
Erreurs
OperationTimeoutException
UpdateClassifier action (Python : update_classifier)
Modifie un classifieur existant (GrokClassifier
, XMLClassifier
, JsonClassifier
ou CsvClassifier
, selon le champ qui est présent).
Demande
-
GrokClassifier
– Un objet UpdateGrokClassifierRequest.Un objet
GrokClassifier
avec des champs mis à jour. -
XMLClassifier
– Un objet XMLClassifierDemande de mise à jour.Un objet
XMLClassifier
avec des champs mis à jour. -
JsonClassifier
– Un objet UpdateJsonClassifierRequest.Un objet
JsonClassifier
avec des champs mis à jour. -
CsvClassifier
– Un objet UpdateCsvClassifierRequest.Un objet
CsvClassifier
avec des champs mis à jour.
Réponse
Paramètres d'absence de réponse.
Erreurs
InvalidInputException
VersionMismatchException
EntityNotFoundException
OperationTimeoutException