API classificatore - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

API classificatore

L'API Classifier descrive i tipi di dati classificatori di AWS Glue e include l'API per la creazione, l'eliminazione, l'aggiornamento e l'elenco dei classificatori.

Tipi di dati

Struttura classificatore

I classificatori vengono attivati durante un'attività di crawling. Un classificatore verifica se un determinato file è in un formato che è in grado di gestire. In questo caso il classificatore crea uno schema nel formato di un oggetto StructType che corrisponde a quel formato di dati.

È possibile usare i classificatori standard forniti da AWS Glue Glue oppure scrivere i propri classificatori per suddividere al meglio le origini dati e specificare gli schemi appropriati per l'utilizzo. Un classificatore può essere di tipo grok, XML, JSON o CSV personalizzato come specificato in uno dei campi dell'oggetto Classifier.

Campi
  • GrokClassifier: un oggetto GrokClassifier.

    Un classificatore che utilizza grok.

  • XMLClassifier: un oggetto XMLClassifier.

    Classificatore per contenuto XML.

  • JsonClassifier: un oggetto JsonClassifier.

    Classificatore per contenuto JSON.

  • CsvClassifier: un oggetto CsvClassifier.

    Un classificatore per i valori separati da virgole (CSV).

Struttura GrokClassifier

Un classificatore che utilizza i pattern grok.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • Classification: obbligatorio: stringa UTF-8.

    Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture e così via.

  • CreationTime: timestamp.

    L'ultima volta in cui è stato registrato il classificatore.

  • LastUpdated: timestamp.

    L'ultima volta in cui è stato aggiornato il classificatore.

  • Version: numero (lungo).

    La versione del classificatore.

  • GrokPattern: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.

    Il pattern grok applicato a un datastore da questo classificatore. Per ulteriori informazioni, consulta i pattern integrati in Scrittura di classificatori personalizzati.

  • CustomPatterns: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Pattern grok personalizzati opzionali definiti da questo classificatore. Per ulteriori informazioni, consulta i pattern personalizzati in Scrittura di classificatori personalizzati.

Struttura XMLClassifier

Classificatore per contenuto XML.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • Classification. Obbligatorio: stringa UTF-8.

    Identificatore del formato di dati corrisposto dal classificatore.

  • CreationTime: timestamp.

    L'ultima volta in cui è stato registrato il classificatore.

  • LastUpdated: timestamp.

    L'ultima volta in cui è stato aggiornato il classificatore.

  • Version: numero (lungo).

    La versione del classificatore.

  • RowTag: stringa UTF-8.

    Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da />). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio, <row item_a="A" item_b="B"></row> è corretto, mentre <row item_a="A" item_b="B" /> non lo è).

Struttura JsonClassifier

Classificatore per contenuto JSON.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • CreationTime: timestamp.

    L'ultima volta in cui è stato registrato il classificatore.

  • LastUpdated: timestamp.

    L'ultima volta in cui è stato aggiornato il classificatore.

  • Version: numero (lungo).

    La versione del classificatore.

  • JsonPath. Obbligatorio: stringa UTF-8.

    Una stringa JsonPath che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.

Struttura CsvClassifier

Classificatore per contenuto CSV personalizzato.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • CreationTime: timestamp.

    L'ultima volta in cui è stato registrato il classificatore.

  • LastUpdated: timestamp.

    L'ultima volta in cui è stato aggiornato il classificatore.

  • Version: numero (lungo).

    La versione del classificatore.

  • Delimiter: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

    Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.

  • QuoteSymbol. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

    Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.

  • ContainsHeader: stringa UTF-8 (valori validi: UNKNOWN | PRESENT | ABSENT).

    Indica se il file CSV contiene un'intestazione.

  • Header: una matrice di stringhe UTF-8.

    Un elenco di stringhe che rappresenta i nomi delle colonne.

  • DisableValueTrimming: booleano.

    Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore predefinito è true.

  • AllowSingleColumn: booleano.

    Abilita l'elaborazione dei file che contengono una sola colonna.

  • CustomDatatypeConfigured: booleano.

    Consente di configurare il tipo di dati personalizzato.

  • CustomDatatypes: una matrice di stringhe UTF-8.

    Un elenco di tipi di dati personalizzati tra cui "BINARY", "BOOLEAN", "DATE", "DECIMAL", "DOUBLE", "FLOAT", "INT", "LONG", "SHORT", "STRING", "TIMESTAMP".

  • Serde: stringa UTF-8 (valori validi: OpenCSVSerDe | LazySimpleSerDe | None).

    Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono OpenCSVSerDe, LazySimpleSerDe e None. È possibile specificare il valore None quando si desidera che il crawler esegua il rilevamento.

Struttura CreateGrokClassifierRequest

Specifica un classificatore grok per CreateClassifier.

Campi
  • Classification. Obbligatorio: stringa UTF-8.

    Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture, Amazon CloudWatch Logs e così via.

  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del nuovo classificatore.

  • GrokPattern. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.

    Il pattern grok utilizzato da questo classificatore.

  • CustomPatterns: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Pattern grok personalizzati opzionali utilizzati da questo classificatore.

Struttura UpdateGrokClassifierRequest

Specifica un classificatore grok da aggiornare quando viene passato a UpdateClassifier.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Nome della GrokClassifier.

  • Classification: stringa UTF-8.

    Identificatore del formato di dati corrisposto dal classificatore, ad esempio log Twitter, JSON, Omniture, Amazon CloudWatch Logs e così via.

  • GrokPattern: stringa UTF-8, non inferiore a 1 o superiore a 2048 byte di lunghezza, corrispondente a A Logstash Grok string pattern.

    Il pattern grok utilizzato da questo classificatore.

  • CustomPatterns: stringa UTF-8, non superiore a 16000 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Pattern grok personalizzati opzionali utilizzati da questo classificatore.

Struttura CreateXMLClassifierRequest

Specifica un classificatore XML per CreateClassifier.

Campi
  • Classification. Obbligatorio: stringa UTF-8.

    Identificatore del formato di dati corrisposto dal classificatore.

  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • RowTag: stringa UTF-8.

    Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da />). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio, <row item_a="A" item_b="B"></row> è corretto, mentre <row item_a="A" item_b="B" /> non lo è).

Struttura UpdateXMLClassifierRequest

Specifica un classificatore XML da aggiornare.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • Classification: stringa UTF-8.

    Identificatore del formato di dati corrisposto dal classificatore.

  • RowTag: stringa UTF-8.

    Il tag XML che designa l'elemento contenente ogni record in un documento XML da analizzare. Non è in grado di identificare un elemento con chiusura automatica (chiuso da />). Un elemento riga vuota contenente solo attributi può essere analizzato fintantoché termina con un tag di chiusura (ad esempio, <row item_a="A" item_b="B"></row> è corretto, mentre <row item_a="A" item_b="B" /> non lo è).

Struttura CreateJsonClassifierRequest

Specifica un classificatore JSON per CreateClassifier.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • JsonPath. Obbligatorio: stringa UTF-8.

    Una stringa JsonPath che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.

Struttura UpdateJsonClassifierRequest

Specifica un classificatore JSON da aggiornare.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • JsonPath: stringa UTF-8.

    Una stringa JsonPath che definisce i dati JSON per il classificatore da classificare. AWS Glue supporta un sottoinsieme di JsonPath, come descritto in Scrittura di classificatori personalizzati JsonPath.

Struttura CreateCsvClassifierRequest

Specifica un classificatore CSV personalizzato per CreateClassifier.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • Delimiter. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

    Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.

  • QuoteSymbol. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

    Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.

  • ContainsHeader: stringa UTF-8 (valori validi: UNKNOWN | PRESENT | ABSENT).

    Indica se il file CSV contiene un'intestazione.

  • Header: una matrice di stringhe UTF-8.

    Un elenco di stringhe che rappresenta i nomi delle colonne.

  • DisableValueTrimming: booleano.

    Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore di default è true.

  • AllowSingleColumn: booleano.

    Abilita l'elaborazione dei file che contengono una sola colonna.

  • CustomDatatypeConfigured: booleano.

    Consente di configurare tipi di dati personalizzati.

  • CustomDatatypes: una matrice di stringhe UTF-8.

    Crea un elenco di tipi di dati personalizzati supportati.

  • Serde: stringa UTF-8 (valori validi: OpenCSVSerDe | LazySimpleSerDe | None).

    Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono OpenCSVSerDe, LazySimpleSerDe e None. È possibile specificare il valore None quando si desidera che il crawler esegua il rilevamento.

Struttura UpdateCsvClassifierRequest

Specifica un classificatore CSV personalizzato da aggiornare.

Campi
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del classificatore.

  • Delimiter. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

    Un simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga.

  • QuoteSymbol. Obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 1 byte di lunghezza, corrispondente a Custom string pattern #10.

    Un simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna.

  • ContainsHeader: stringa UTF-8 (valori validi: UNKNOWN | PRESENT | ABSENT).

    Indica se il file CSV contiene un'intestazione.

  • Header: una matrice di stringhe UTF-8.

    Un elenco di stringhe che rappresenta i nomi delle colonne.

  • DisableValueTrimming: booleano.

    Specifica di non tagliare i valori prima di individuare il tipo di valori di colonna. Il valore di default è true.

  • AllowSingleColumn: booleano.

    Abilita l'elaborazione dei file che contengono una sola colonna.

  • CustomDatatypeConfigured: booleano.

    Specifica la configurazione di tipi di dati personalizzati.

  • CustomDatatypes: una matrice di stringhe UTF-8.

    Specifica un elenco di tipi di dati personalizzati supportati.

  • Serde: stringa UTF-8 (valori validi: OpenCSVSerDe | LazySimpleSerDe | None).

    Imposta il SerDe per l'elaborazione del CSV nel classificatore, che verrà applicato in Catalogo dati. I valori validi sono OpenCSVSerDe, LazySimpleSerDe e None. È possibile specificare il valore None quando si desidera che il crawler esegua il rilevamento.

Operazioni

Operazione CreateClassifier (Python: create_classifier)

Crea un classificatore nell'account utente. L'operazione può essere un GrokClassifier, un XMLClassifier, un JsonClassifier o un CsvClassifier a seconda del campo in cui è presente la richiesta.

Richiesta
Risposta
  • Nessun parametro di risposta.

Errori
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

Operazione DeleteClassifier (Python: delete_classifier)

Rimuove un classificatore dal catalogo dati.

Richiesta
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Nome del classificatore da rimuovere.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • OperationTimeoutException

Operazione GetClassifier (Python: get_classifier)

Recupera un classificatore per nome.

Richiesta
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Nome del classificatore da recuperare.

Risposta
Errori
  • EntityNotFoundException

  • OperationTimeoutException

Operazione GetClassifiers (Python: get_classifiers)

Visualizza l'elenco di tutti gli oggetti classificatore nel catalogo dati.

Richiesta
  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    Dimensione dell'elenco da restituire (opzionale).

  • NextToken: stringa UTF-8.

    Token di continuazione opzionale.

Risposta
  • Classifiers: una matrice di oggetti Classificatore.

    L'elenco richiesto di tutti gli oggetti classificatore.

  • NextToken: stringa UTF-8.

    Token di continuazione.

Errori
  • OperationTimeoutException

Operazione UpdateClassifier (Python: update_classifier)

Modifica un classificatore esistente (GrokClassifier, XMLClassifier, JsonClassifier o CsvClassifier a seconda del campo in cui è presente).

Richiesta
Risposta
  • Nessun parametro di risposta.

Errori
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • OperationTimeoutException