Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
API classificatore
L'API Classifier descrive i tipi di dati classificatori di AWS Glue e include l'API per la creazione, l'eliminazione, l'aggiornamento e l'elenco dei classificatori.
Tipi di dati
Struttura classificatore
I classificatori vengono attivati durante un'attività di crawling. Un classificatore verifica se un determinato file è in un formato che è in grado di gestire. In questo caso il classificatore crea uno schema nel formato di un oggetto StructType
che corrisponde a quel formato di dati.
È possibile usare i classificatori standard forniti da AWS Glue Glue oppure scrivere i propri classificatori per suddividere al meglio le origini dati e specificare gli schemi appropriati per l'utilizzo. Un classificatore può essere di tipo grok
, XML
, JSON
o CSV
personalizzato come specificato in uno dei campi dell'oggetto Classifier
.
Campi
-
GrokClassifier
: un oggetto GrokClassifier.Un classificatore che utilizza
grok
. -
XMLClassifier
: un oggetto XMLClassifier.Classificatore per contenuto XML.
-
JsonClassifier
: un oggetto JsonClassifier.Classificatore per contenuto JSON.
-
CsvClassifier
: un oggetto CsvClassifier.Un classificatore per i valori separati da virgole (CSV).
Struttura GrokClassifier
Un classificatore che utilizza i pattern grok
.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
Classification
: obbligatorio: stringa UTF-8.Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture e così via.
-
CreationTime
: timestamp.L'ultima volta in cui è stato registrato il classificatore.
-
LastUpdated
: timestamp.L'ultima volta in cui è stato aggiornato il classificatore.
-
Version
: numero (lungo).La versione del classificatore.
-
GrokPattern
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.Il pattern grok applicato a un datastore da questo classificatore. Per ulteriori informazioni, consulta i pattern integrati in Scrittura di classificatori personalizzati.
-
CustomPatterns
: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.Pattern grok personalizzati opzionali definiti da questo classificatore. Per ulteriori informazioni, consulta i pattern personalizzati in Scrittura di classificatori personalizzati.
Struttura XMLClassifier
Classificatore per contenuto XML
.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
Classification
. Obbligatorio: stringa UTF-8.Identificatore del formato di dati corrisposto dal classificatore.
-
CreationTime
: timestamp.L'ultima volta in cui è stato registrato il classificatore.
-
LastUpdated
: timestamp.L'ultima volta in cui è stato aggiornato il classificatore.
-
Version
: numero (lungo).La versione del classificatore.
-
RowTag
: stringa UTF-8.Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da
/>
). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio,<row item_a="A" item_b="B"></row>
è corretto, mentre<row item_a="A" item_b="B" />
non lo è).
Struttura JsonClassifier
Classificatore per contenuto JSON
.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
CreationTime
: timestamp.L'ultima volta in cui è stato registrato il classificatore.
-
LastUpdated
: timestamp.L'ultima volta in cui è stato aggiornato il classificatore.
-
Version
: numero (lungo).La versione del classificatore.
-
JsonPath
. Obbligatorio: stringa UTF-8.Una stringa
JsonPath
che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.
Struttura CsvClassifier
Classificatore per contenuto CSV
personalizzato.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
CreationTime
: timestamp.L'ultima volta in cui è stato registrato il classificatore.
-
LastUpdated
: timestamp.L'ultima volta in cui è stato aggiornato il classificatore.
-
Version
: numero (lungo).La versione del classificatore.
-
Delimiter
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.
-
QuoteSymbol
. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.
-
ContainsHeader
: stringa UTF-8 (valori validi:UNKNOWN
|PRESENT
|ABSENT
).Indica se il file CSV contiene un'intestazione.
-
Header
: una matrice di stringhe UTF-8.Un elenco di stringhe che rappresenta i nomi delle colonne.
-
DisableValueTrimming
: booleano.Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore predefinito è
true
. -
AllowSingleColumn
: booleano.Abilita l'elaborazione dei file che contengono una sola colonna.
-
CustomDatatypeConfigured
: booleano.Consente di configurare il tipo di dati personalizzato.
-
CustomDatatypes
: una matrice di stringhe UTF-8.Un elenco di tipi di dati personalizzati tra cui "BINARY", "BOOLEAN", "DATE", "DECIMAL", "DOUBLE", "FLOAT", "INT", "LONG", "SHORT", "STRING", "TIMESTAMP".
-
Serde
: stringa UTF-8 (valori validi:OpenCSVSerDe
|LazySimpleSerDe
|None
).Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono
OpenCSVSerDe
,LazySimpleSerDe
eNone
. È possibile specificare il valoreNone
quando si desidera che il crawler esegua il rilevamento.
Struttura CreateGrokClassifierRequest
Specifica un classificatore grok
per CreateClassifier
.
Campi
-
Classification
. Obbligatorio: stringa UTF-8.Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture, Amazon CloudWatch Logs e così via.
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del nuovo classificatore.
-
GrokPattern
. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.Il pattern grok utilizzato da questo classificatore.
-
CustomPatterns
: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.Pattern grok personalizzati opzionali utilizzati da questo classificatore.
Struttura UpdateGrokClassifierRequest
Specifica un classificatore grok da aggiornare quando viene passato a UpdateClassifier
.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome della
GrokClassifier
. -
Classification
: stringa UTF-8.Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture, Amazon CloudWatch Logs e così via.
-
GrokPattern
: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.Il pattern grok utilizzato da questo classificatore.
-
CustomPatterns
: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.Pattern grok personalizzati opzionali utilizzati da questo classificatore.
Struttura CreateXMLClassifierRequest
Specifica un classificatore XML per CreateClassifier
.
Campi
-
Classification
. Obbligatorio: stringa UTF-8.Identificatore del formato di dati corrisposto dal classificatore.
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
RowTag
: stringa UTF-8.Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da
/>
). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio,<row item_a="A" item_b="B"></row>
è corretto, mentre<row item_a="A" item_b="B" />
non lo è).
Struttura UpdateXMLClassifierRequest
Specifica un classificatore XML da aggiornare.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
Classification
: stringa UTF-8.Identificatore del formato di dati corrisposto dal classificatore.
-
RowTag
: stringa UTF-8.Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da
/>
). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio,<row item_a="A" item_b="B"></row>
è corretto, mentre<row item_a="A" item_b="B" />
non lo è).
Struttura CreateJsonClassifierRequest
Specifica un classificatore JSON per CreateClassifier
.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
JsonPath
. Obbligatorio: stringa UTF-8.Una stringa
JsonPath
che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.
Struttura UpdateJsonClassifierRequest
Specifica un classificatore JSON da aggiornare.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
JsonPath
: stringa UTF-8.Una stringa
JsonPath
che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.
Struttura CreateCsvClassifierRequest
Specifica un classificatore CSV personalizzato per CreateClassifier
.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
Delimiter
. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.
-
QuoteSymbol
. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.
-
ContainsHeader
: stringa UTF-8 (valori validi:UNKNOWN
|PRESENT
|ABSENT
).Indica se il file CSV contiene un'intestazione.
-
Header
: una matrice di stringhe UTF-8.Un elenco di stringhe che rappresenta i nomi delle colonne.
-
DisableValueTrimming
: booleano.Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore di default è true.
-
AllowSingleColumn
: booleano.Abilita l'elaborazione dei file che contengono una sola colonna.
-
CustomDatatypeConfigured
: booleano.Consente di configurare tipi di dati personalizzati.
-
CustomDatatypes
: una matrice di stringhe UTF-8.Crea un elenco di tipi di dati personalizzati supportati.
-
Serde
: stringa UTF-8 (valori validi:OpenCSVSerDe
|LazySimpleSerDe
|None
).Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono
OpenCSVSerDe
,LazySimpleSerDe
eNone
. È possibile specificare il valoreNone
quando si desidera che il crawler esegua il rilevamento.
Struttura UpdateCsvClassifierRequest
Specifica un classificatore CSV personalizzato da aggiornare.
Campi
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome del classificatore.
-
Delimiter
. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.
-
QuoteSymbol
. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.
-
ContainsHeader
: stringa UTF-8 (valori validi:UNKNOWN
|PRESENT
|ABSENT
).Indica se il file CSV contiene un'intestazione.
-
Header
: una matrice di stringhe UTF-8.Un elenco di stringhe che rappresenta i nomi delle colonne.
-
DisableValueTrimming
: booleano.Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore di default è true.
-
AllowSingleColumn
: booleano.Abilita l'elaborazione dei file che contengono una sola colonna.
-
CustomDatatypeConfigured
: booleano.Specifica la configurazione di tipi di dati personalizzati.
-
CustomDatatypes
: una matrice di stringhe UTF-8.Specifica un elenco di tipi di dati personalizzati supportati.
-
Serde
: stringa UTF-8 (valori validi:OpenCSVSerDe
|LazySimpleSerDe
|None
).Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono
OpenCSVSerDe
,LazySimpleSerDe
eNone
. È possibile specificare il valoreNone
quando si desidera che il crawler esegua il rilevamento.
Operazioni
Operazione CreateClassifier (Python: create_classifier)
Crea un classificatore nell'account utente. L'operazione può essere un GrokClassifier
, un XMLClassifier
, un JsonClassifier
o un CsvClassifier
a seconda del campo in cui è presente la richiesta.
Richiesta
-
GrokClassifier
: un oggetto CreateGrokClassifierRequest.Oggetto
GrokClassifier
che specifica il classificatore da creare. -
XMLClassifier
: un oggetto CreateXMLClassifierRequest.Oggetto
XMLClassifier
che specifica il classificatore da creare. -
JsonClassifier
: un oggetto CreateJsonClassifierRequest.Oggetto
JsonClassifier
che specifica il classificatore da creare. -
CsvClassifier
: un oggetto CreateCsvClassifierRequest.Oggetto
CsvClassifier
che specifica il classificatore da creare.
Risposta
Nessun parametro di risposta.
Errori
AlreadyExistsException
InvalidInputException
OperationTimeoutException
Operazione DeleteClassifier (Python: delete_classifier)
Rimuove un classificatore dal catalogo dati.
Richiesta
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome del classificatore da rimuovere.
Risposta
Nessun parametro di risposta.
Errori
EntityNotFoundException
OperationTimeoutException
Operazione GetClassifier (Python: get_classifier)
Recupera un classificatore per nome.
Richiesta
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome del classificatore da recuperare.
Risposta
-
Classifier
: un oggetto Classificatore.Il classificatore richiesto.
Errori
EntityNotFoundException
OperationTimeoutException
Operazione GetClassifiers (Python: get_classifiers)
Visualizza l'elenco di tutti gli oggetti classificatore nel catalogo dati.
Richiesta
-
MaxResults
: numero (intero), non inferiore a 1 o superiore a 1000.Dimensione dell'elenco da restituire (opzionale).
-
NextToken
: stringa UTF-8.Token di continuazione opzionale.
Risposta
-
Classifiers
: una matrice di oggetti Classificatore.L'elenco richiesto di tutti gli oggetti classificatore.
-
NextToken
: stringa UTF-8.Token di continuazione.
Errori
OperationTimeoutException
Operazione UpdateClassifier (Python: update_classifier)
Modifica un classificatore esistente (GrokClassifier
, XMLClassifier
, JsonClassifier
o CsvClassifier
a seconda del campo in cui è presente).
Richiesta
-
GrokClassifier
: un oggetto UpdateGrokClassifierRequest.Oggetto
GrokClassifier
con i campi aggiornati. -
XMLClassifier
: un oggetto UpdateXMLClassifierRequest.Oggetto
XMLClassifier
con i campi aggiornati. -
JsonClassifier
: un oggetto UpdateJsonClassifierRequest.Oggetto
JsonClassifier
con i campi aggiornati. -
CsvClassifier
: un oggetto UpdateCsvClassifierRequest.Oggetto
CsvClassifier
con i campi aggiornati.
Risposta
Nessun parametro di risposta.
Errori
InvalidInputException
VersionMismatchException
EntityNotFoundException
OperationTimeoutException