API classificatore

L'API Classifier descrive i tipi di dati classificatori di AWS Glue e include l'API per la creazione, l'eliminazione, l'aggiornamento e l'elenco dei classificatori.

Tipi di dati

Struttura classificatore
Struttura GrokClassifier
Struttura XMLClassifier
Struttura JsonClassifier
Struttura CsvClassifier
Struttura CreateGrokClassifierRequest
Struttura UpdateGrokClassifierRequest
Struttura CreateXMLClassifierRequest
Struttura UpdateXMLClassifierRequest
Struttura CreateJsonClassifierRequest
Struttura UpdateJsonClassifierRequest
Struttura CreateCsvClassifierRequest
Struttura UpdateCsvClassifierRequest

Struttura classificatore

I classificatori vengono attivati durante un'attività di crawling. Un classificatore verifica se un determinato file è in un formato che è in grado di gestire. In questo caso il classificatore crea uno schema nel formato di un oggetto StructType che corrisponde a quel formato di dati.

È possibile usare i classificatori standard forniti da AWS Glue Glue oppure scrivere i propri classificatori per suddividere al meglio le origini dati e specificare gli schemi appropriati per l'utilizzo. Un classificatore può essere di tipo grok, XML, JSON o CSV personalizzato come specificato in uno dei campi dell'oggetto Classifier.

Campi

GrokClassifier: un oggetto GrokClassifier.

Un classificatore che utilizza grok.
XMLClassifier: un oggetto XMLClassifier.

Classificatore per contenuto XML.
JsonClassifier: un oggetto JsonClassifier.

Classificatore per contenuto JSON.
CsvClassifier: un oggetto CsvClassifier.

Un classificatore per i valori separati da virgole (CSV).

Struttura GrokClassifier

Un classificatore che utilizza i pattern grok.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
Classification: obbligatorio: stringa UTF-8.

Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture e così via.
CreationTime: timestamp.

L'ultima volta in cui è stato registrato il classificatore.
LastUpdated: timestamp.

L'ultima volta in cui è stato aggiornato il classificatore.
Version: numero (lungo).

La versione del classificatore.
GrokPattern: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.

Il pattern grok applicato a un datastore da questo classificatore. Per ulteriori informazioni, consulta i pattern integrati in Scrittura di classificatori personalizzati.
CustomPatterns: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.

Pattern grok personalizzati opzionali definiti da questo classificatore. Per ulteriori informazioni, consulta i pattern personalizzati in Scrittura di classificatori personalizzati.

Struttura XMLClassifier

Classificatore per contenuto XML.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
Classification. Obbligatorio: stringa UTF-8.

Identificatore del formato di dati corrisposto dal classificatore.
CreationTime: timestamp.

L'ultima volta in cui è stato registrato il classificatore.
LastUpdated: timestamp.

L'ultima volta in cui è stato aggiornato il classificatore.
Version: numero (lungo).

La versione del classificatore.
RowTag: stringa UTF-8.

Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da />). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio, <row item_a="A" item_b="B"></row> è corretto, mentre <row item_a="A" item_b="B" /> non lo è).

Struttura JsonClassifier

Classificatore per contenuto JSON.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
CreationTime: timestamp.

L'ultima volta in cui è stato registrato il classificatore.
LastUpdated: timestamp.

L'ultima volta in cui è stato aggiornato il classificatore.
Version: numero (lungo).

La versione del classificatore.
JsonPath. Obbligatorio: stringa UTF-8.

Una stringa JsonPath che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.

Struttura CsvClassifier

Classificatore per contenuto CSV personalizzato.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
CreationTime: timestamp.

L'ultima volta in cui è stato registrato il classificatore.
LastUpdated: timestamp.

L'ultima volta in cui è stato aggiornato il classificatore.
Version: numero (lungo).

La versione del classificatore.
Delimiter: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.
QuoteSymbol. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.
ContainsHeader: stringa UTF-8 (valori validi: UNKNOWN | PRESENT | ABSENT).

Indica se il file CSV contiene un'intestazione.
Header: una matrice di stringhe UTF-8.

Un elenco di stringhe che rappresenta i nomi delle colonne.
DisableValueTrimming: booleano.

Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore predefinito è true.
AllowSingleColumn: booleano.

Abilita l'elaborazione dei file che contengono una sola colonna.
CustomDatatypeConfigured: booleano.

Consente di configurare il tipo di dati personalizzato.
CustomDatatypes: una matrice di stringhe UTF-8.

Un elenco di tipi di dati personalizzati tra cui "BINARY", "BOOLEAN", "DATE", "DECIMAL", "DOUBLE", "FLOAT", "INT", "LONG", "SHORT", "STRING", "TIMESTAMP".
Serde: stringa UTF-8 (valori validi: OpenCSVSerDe | LazySimpleSerDe | None).

Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono OpenCSVSerDe, LazySimpleSerDe e None. È possibile specificare il valore None quando si desidera che il crawler esegua il rilevamento.

Struttura CreateGrokClassifierRequest

Specifica un classificatore grok per CreateClassifier.

Campi

Classification. Obbligatorio: stringa UTF-8.

Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture, Amazon CloudWatch Logs e così via.
Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del nuovo classificatore.
GrokPattern. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.

Il pattern grok utilizzato da questo classificatore.
CustomPatterns: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.

Pattern grok personalizzati opzionali utilizzati da questo classificatore.

Struttura UpdateGrokClassifierRequest

Specifica un classificatore grok da aggiornare quando viene passato a UpdateClassifier.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Nome della GrokClassifier.
Classification: stringa UTF-8.

Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture, Amazon CloudWatch Logs e così via.
GrokPattern: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.

Il pattern grok utilizzato da questo classificatore.
CustomPatterns: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.

Pattern grok personalizzati opzionali utilizzati da questo classificatore.

Struttura CreateXMLClassifierRequest

Specifica un classificatore XML per CreateClassifier.

Campi

Classification. Obbligatorio: stringa UTF-8.

Identificatore del formato di dati corrisposto dal classificatore.
Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
RowTag: stringa UTF-8.

Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da />). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio, <row item_a="A" item_b="B"></row> è corretto, mentre <row item_a="A" item_b="B" /> non lo è).

Struttura UpdateXMLClassifierRequest

Specifica un classificatore XML da aggiornare.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
Classification: stringa UTF-8.

Identificatore del formato di dati corrisposto dal classificatore.
RowTag: stringa UTF-8.

Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da />). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio, <row item_a="A" item_b="B"></row> è corretto, mentre <row item_a="A" item_b="B" /> non lo è).

Struttura CreateJsonClassifierRequest

Specifica un classificatore JSON per CreateClassifier.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
JsonPath. Obbligatorio: stringa UTF-8.

Una stringa JsonPath che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.

Struttura UpdateJsonClassifierRequest

Specifica un classificatore JSON da aggiornare.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
JsonPath: stringa UTF-8.

Una stringa JsonPath che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.

Struttura CreateCsvClassifierRequest

Specifica un classificatore CSV personalizzato per CreateClassifier.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
Delimiter. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.
QuoteSymbol. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.
ContainsHeader: stringa UTF-8 (valori validi: UNKNOWN | PRESENT | ABSENT).

Indica se il file CSV contiene un'intestazione.
Header: una matrice di stringhe UTF-8.

Un elenco di stringhe che rappresenta i nomi delle colonne.
DisableValueTrimming: booleano.

Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore di default è true.
AllowSingleColumn: booleano.

Abilita l'elaborazione dei file che contengono una sola colonna.
CustomDatatypeConfigured: booleano.

Consente di configurare tipi di dati personalizzati.
CustomDatatypes: una matrice di stringhe UTF-8.

Crea un elenco di tipi di dati personalizzati supportati.
Serde: stringa UTF-8 (valori validi: OpenCSVSerDe | LazySimpleSerDe | None).

Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono OpenCSVSerDe, LazySimpleSerDe e None. È possibile specificare il valore None quando si desidera che il crawler esegua il rilevamento.

Struttura UpdateCsvClassifierRequest

Specifica un classificatore CSV personalizzato da aggiornare.

Campi

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Il nome del classificatore.
Delimiter. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.
QuoteSymbol. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.
ContainsHeader: stringa UTF-8 (valori validi: UNKNOWN | PRESENT | ABSENT).

Indica se il file CSV contiene un'intestazione.
Header: una matrice di stringhe UTF-8.

Un elenco di stringhe che rappresenta i nomi delle colonne.
DisableValueTrimming: booleano.

Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore di default è true.
AllowSingleColumn: booleano.

Abilita l'elaborazione dei file che contengono una sola colonna.
CustomDatatypeConfigured: booleano.

Specifica la configurazione di tipi di dati personalizzati.
CustomDatatypes: una matrice di stringhe UTF-8.

Specifica un elenco di tipi di dati personalizzati supportati.
Serde: stringa UTF-8 (valori validi: OpenCSVSerDe | LazySimpleSerDe | None).

Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono OpenCSVSerDe, LazySimpleSerDe e None. È possibile specificare il valore None quando si desidera che il crawler esegua il rilevamento.

Operazioni

Operazione CreateClassifier (Python: create_classifier)
Operazione DeleteClassifier (Python: delete_classifier)
Operazione GetClassifier (Python: get_classifier)
Operazione GetClassifiers (Python: get_classifiers)
Operazione UpdateClassifier (Python: update_classifier)

Operazione CreateClassifier (Python: create_classifier)

Crea un classificatore nell'account utente. L'operazione può essere un GrokClassifier, un XMLClassifier, un JsonClassifier o un CsvClassifier a seconda del campo in cui è presente la richiesta.

Richiesta

GrokClassifier: un oggetto CreateGrokClassifierRequest.

Oggetto GrokClassifier che specifica il classificatore da creare.
XMLClassifier: un oggetto CreateXMLClassifierRequest.

Oggetto XMLClassifier che specifica il classificatore da creare.
JsonClassifier: un oggetto CreateJsonClassifierRequest.

Oggetto JsonClassifier che specifica il classificatore da creare.
CsvClassifier: un oggetto CreateCsvClassifierRequest.

Oggetto CsvClassifier che specifica il classificatore da creare.

Risposta

Nessun parametro di risposta.

Errori

AlreadyExistsException
InvalidInputException
OperationTimeoutException

Operazione DeleteClassifier (Python: delete_classifier)

Rimuove un classificatore dal catalogo dati.

Richiesta

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Nome del classificatore da rimuovere.

Risposta

Nessun parametro di risposta.

Errori

EntityNotFoundException
OperationTimeoutException

Operazione GetClassifier (Python: get_classifier)

Recupera un classificatore per nome.

Richiesta

Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

Nome del classificatore da recuperare.

Risposta

Classifier: un oggetto Classificatore.

Il classificatore richiesto.

Errori

EntityNotFoundException
OperationTimeoutException

Operazione GetClassifiers (Python: get_classifiers)

Visualizza l'elenco di tutti gli oggetti classificatore nel catalogo dati.

Richiesta

MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

Dimensione dell'elenco da restituire (opzionale).
NextToken: stringa UTF-8.

Token di continuazione opzionale.

Risposta

Classifiers: una matrice di oggetti Classificatore.

L'elenco richiesto di tutti gli oggetti classificatore.
NextToken: stringa UTF-8.

Token di continuazione.

Errori

OperationTimeoutException

Operazione UpdateClassifier (Python: update_classifier)

Modifica un classificatore esistente (GrokClassifier, XMLClassifier, JsonClassifier o CsvClassifier a seconda del campo in cui è presente).

Richiesta

GrokClassifier: un oggetto UpdateGrokClassifierRequest.

Oggetto GrokClassifier con i campi aggiornati.
XMLClassifier: un oggetto UpdateXMLClassifierRequest.

Oggetto XMLClassifier con i campi aggiornati.
JsonClassifier: un oggetto UpdateJsonClassifierRequest.

Oggetto JsonClassifier con i campi aggiornati.
CsvClassifier: un oggetto UpdateCsvClassifierRequest.

Oggetto CsvClassifier con i campi aggiornati.

Risposta

Nessun parametro di risposta.

Errori

InvalidInputException
VersionMismatchException
EntityNotFoundException
OperationTimeoutException

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Crawler e classificatori

Crawler