Classifier-API

Fokusmodus

Classifier-API - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die Classifier-API beschreibt AWS Glue Classifier-Datentypen und umfasst die API zum Erstellen, Löschen, Aktualisieren und Auflisten von Classifiern.

Datentypen

Classifier-Struktur
GrokClassifier Struktur
XMLClassifier Struktur
JsonClassifier Struktur
CsvClassifier Struktur
CreateGrokClassifierRequest Struktur
UpdateGrokClassifierRequest Struktur
Anforderungsstruktur erstellen XMLClassifier
Struktur der XMLClassifier Anfrage aktualisieren
CreateJsonClassifierRequest Struktur
UpdateJsonClassifierRequest Struktur
CreateCsvClassifierRequest Struktur
UpdateCsvClassifierRequest Struktur

Classifier-Struktur

Classifier werden während einer Durchsuchungsaufgabe ausgelöst. Ein Classifier prüft, ob eine bestimmte Datei ein Format hat, mit dem er umgehen kann. Wenn dies der Fall ist, erstellt der Classifier ein Schema in Form eines StructType-Objekts, das dem Datenformat entspricht.

Sie können die Standardklassifikatoren verwenden, die diese AWS Glue zur Verfügung stellen, oder Sie können Ihre eigenen Klassifikatoren schreiben, um Ihre Datenquellen bestmöglich zu kategorisieren und die entsprechenden Schemas zu spezifizieren, die für sie verwendet werden sollen. Ein Classifier kann ein grok-Classifier, ein XML-Classifier oder ein JSON-Classifier oder ein benutzerdefinierter CSV-Classifier sein, wie in einem der Felder im Classifier-Objekt angegeben.

Felder

GrokClassifier – Ein GrokClassifier-Objekt.

Ein Classifier, der grok verwendet.
XMLClassifier – Ein XMLClassifier-Objekt.

Ein Classifier für XML-Inhalte.
JsonClassifier – Ein JsonClassifier-Objekt.

Ein Classifier für JSON-Inhalte.
CsvClassifier – Ein CsvClassifier-Objekt.

Ein Classifier für durch Kommata getrennte Werte (CSV).

GrokClassifier Struktur

Ein Classifier, der grok-Muster verwendet.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
Classification – Erforderlich: UTF-8-Zeichenfolge.

Eine ID des Datenformates, das der Classifier abgleicht, beispielsweise Protokolle von Twitter, JSON oder Omniture usw.
CreationTime – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier registriert wurde.
LastUpdated – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier zuletzt aktualisiert wurde.
Version – Zahl (lang).

Die Version dieses Classifiers.
GrokPattern – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Bytes lang, passend zum A Logstash Grok string pattern.

Das Grok-Muster, das von diesem Classifier auf einen Datenspeicher angewendet wird. Weitere Informationen finden Sie in den integrierten Mustern unter Schreiben von benutzerdefinierten Classifiern.
CustomPatterns – UTF-8-Zeichenfolge, nicht mehr als 16000 Bytes lang, passend zum URI address multi-line string pattern.

Optionale benutzerdefinierte Grok-Muster, die von diesem Classifier definiert werden. Weitere Informationen finden Sie in den benutzerdefinierten Mustern unter Schreiben von benutzerdefinierten Classifiern.

XMLClassifier Struktur

Ein Classifier für XML-Inhalte.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
Classification – Erforderlich: UTF-8-Zeichenfolge.

Eine ID des Datenformats, dass mit dem Classifier übereinstimmt.
CreationTime – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier registriert wurde.
LastUpdated – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier zuletzt aktualisiert wurde.
Version – Zahl (lang).

Die Version dieses Classifiers.
RowTag – UTF-8-Zeichenfolge.

Das XML-Tag, das das Element festlegt, das jeden Datensatz in einem XML-Dokument enthält, das analysiert wird. Damit kann kein selbstschließendes Element (geschlossen von />) identifiziert werden. Ein leeres Zeilenelement, das ausschließlich Attribute enthält, kann analysiert werden, solange es mit einem schließenden Tag endet (z. B. ist <row item_a="A" item_b="B"></row> in Ordnung, <row item_a="A" item_b="B" /> aber nicht).

JsonClassifier Struktur

Ein Classifier für JSON-Inhalte.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
CreationTime – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier registriert wurde.
LastUpdated – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier zuletzt aktualisiert wurde.
Version – Zahl (lang).

Die Version dieses Classifiers.
JsonPath – Erforderlich: UTF-8-Zeichenfolge.

Eine JsonPath Zeichenfolge, die die JSON-Daten für den zu klassifizierenden Klassifikator definiert. AWS Glue unterstützt eine Teilmenge von JsonPath, wie unter Benutzerdefinierte Klassifikatoren schreiben JsonPath beschrieben.

CsvClassifier Struktur

Ein Classifier für benutzerdefinierte CSV-Inhalte.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
CreationTime – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier registriert wurde.
LastUpdated – Zeitstempel.

Der Zeitpunkt, an dem dieser Classifier zuletzt aktualisiert wurde.
Version – Zahl (lang).

Die Version dieses Classifiers.
Delimiter – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1 Byte lang, passend zum Custom string pattern #26.

Eine benutzerdefiniertes Symbol zur Bezeichnung, wodurch die einzelnen Spalteneinträge in der Zeile voneinander getrennt werden.
QuoteSymbol – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1 Byte lang, passend zum Custom string pattern #26.

Ein benutzerdefiniertes Symbol zur Bezeichnung, wodurch Inhalte zu einem einzelnen Spaltenwert miteinander kombiniert werden. Muss sich von dem Spaltentrennzeichen unterscheiden.
ContainsHeader – UTF-8-Zeichenfolge (zulässige Werte: UNKNOWN | PRESENT | ABSENT).

Gibt an, ob die CSV-Datei eine Kopfzeile enthält.
Header – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste von Zeichenfolgen, durch die Spaltennamen darstellt werden.
DisableValueTrimming – Boolesch.

Gibt an, dass Werte vor dem Identifizieren des Typs der Spaltenwerte nicht abgetrennt werden sollen. Der Standardwert ist true.
AllowSingleColumn – Boolesch.

Aktiviert die Verarbeitung von Dateien, die nur eine Spalte enthalten.
CustomDatatypeConfigured – Boolesch.

Ermöglicht die Konfiguration des benutzerdefinierten Datentyps.
CustomDatatypes – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste von benutzerdefinierten Datentypen, einschließlich „BINARY“, „BOOLEAN“, „DATE“, „DECIMAL“, „DOUBLE“, „FLOAT“, „INT“, „LONG“, „SHORT“, „STRING“, „TIMESTAMP“.
Serde – UTF-8-Zeichenfolge (zulässige Werte: OpenCSVSerDe | LazySimpleSerDe | None).

Legt die SerDe für die Verarbeitung erforderliche CSV im Klassifikator fest, die im Datenkatalog angewendet wird. Gültige Werte sind OpenCSVSerDe, LazySimpleSerDe und None. Sie können den None-Wert angeben, wenn der Crawler die Erkennung durchführen soll.

CreateGrokClassifierRequest Struktur

Gibt einen zu erstellenden grok-Classifier für CreateClassifier an.

Felder

Classification – Erforderlich: UTF-8-Zeichenfolge.

Eine Kennung des Datenformats, dem der Classifier entspricht, z. B. Twitter, JSON, Omniture-Logs, Amazon CloudWatch Logs usw.
Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des neuen Classifiers.
GrokPattern – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Bytes lang, passend zum A Logstash Grok string pattern.

Das Grok-Muster, das von diesem Classifier verwendet wird.
CustomPatterns – UTF-8-Zeichenfolge, nicht mehr als 16000 Bytes lang, passend zum URI address multi-line string pattern.

Optionale benutzerdefinierte Grok-Muster, die von diesem Classifier verwendet werden.

UpdateGrokClassifierRequest Struktur

Gibt einen Grok-Classifier an, der bei der Weiterleitung an UpdateClassifier aktualisiert werden soll.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name der GrokClassifier.
Classification – UTF-8-Zeichenfolge.

Eine Kennung des Datenformats, dem der Classifier entspricht, z. B. Twitter, JSON, Omniture-Logs, Amazon CloudWatch Logs usw.
GrokPattern – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Bytes lang, passend zum A Logstash Grok string pattern.

Das Grok-Muster, das von diesem Classifier verwendet wird.
CustomPatterns – UTF-8-Zeichenfolge, nicht mehr als 16000 Bytes lang, passend zum URI address multi-line string pattern.

Optionale benutzerdefinierte Grok-Muster, die von diesem Classifier verwendet werden.

Anforderungsstruktur erstellen XMLClassifier

Gibt einen zu erstellenden XML-Classifier für CreateClassifier an.

Felder

Classification – Erforderlich: UTF-8-Zeichenfolge.

Eine ID des Datenformats, dass mit dem Classifier übereinstimmt.
Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
RowTag – UTF-8-Zeichenfolge.

Das XML-Tag, das das Element festlegt, das jeden Datensatz in einem XML-Dokument enthält, das analysiert wird. Damit kann kein selbstschließendes Element (geschlossen von />) identifiziert werden. Ein leeres Zeilenelement, das ausschließlich Attribute enthält, kann analysiert werden, solange es mit einem schließenden Tag endet (z. B. ist <row item_a="A" item_b="B"></row> in Ordnung, <row item_a="A" item_b="B" /> aber nicht).

Struktur der XMLClassifier Anfrage aktualisieren

Gibt einen zu aktualisierenden XML-Classifier an.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
Classification – UTF-8-Zeichenfolge.

Eine ID des Datenformats, dass mit dem Classifier übereinstimmt.
RowTag – UTF-8-Zeichenfolge.

Das XML-Tag, das das Element festlegt, das jeden Datensatz in einem XML-Dokument enthält, das analysiert wird. Beachten Sie, dass dies kein selbstschließendes Element identifizieren kann (geschlossen von />). Ein leeres Zeilenelement, das ausschließlich Attribute enthält, kann analysiert werden, solange es mit einem schließenden Tag endet (z. B. ist <row item_a="A" item_b="B"></row> in Ordnung, <row item_a="A" item_b="B" /> aber nicht).

CreateJsonClassifierRequest Struktur

Gibt einen zu erstellenden JSON-Classifier für CreateClassifier an.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
JsonPath – Erforderlich: UTF-8-Zeichenfolge.

Eine JsonPath Zeichenfolge, die die JSON-Daten für den zu klassifizierenden Klassifikator definiert. AWS Glue unterstützt eine Teilmenge von JsonPath, wie unter Benutzerdefinierte Klassifikatoren schreiben JsonPath beschrieben.

UpdateJsonClassifierRequest Struktur

Gibt einen zu aktualisierenden JSON-Classifier an.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
JsonPath – UTF-8-Zeichenfolge.

Eine JsonPath Zeichenfolge, die die JSON-Daten für den zu klassifizierenden Klassifikator definiert. AWS Glue unterstützt eine Teilmenge von JsonPath, wie unter Benutzerdefinierte Klassifikatoren schreiben JsonPath beschrieben.

CreateCsvClassifierRequest Struktur

Gibt einen benutzerdefinierten CSV-Classifier für CreateClassifier an.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
Delimiter – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1 Byte lang, passend zum Custom string pattern #26.

Eine benutzerdefiniertes Symbol zur Bezeichnung, wodurch die einzelnen Spalteneinträge in der Zeile voneinander getrennt werden.
QuoteSymbol – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1 Byte lang, passend zum Custom string pattern #26.

Ein benutzerdefiniertes Symbol zur Bezeichnung, wodurch Inhalte zu einem einzelnen Spaltenwert miteinander kombiniert werden. Muss sich von dem Spaltentrennzeichen unterscheiden.
ContainsHeader – UTF-8-Zeichenfolge (zulässige Werte: UNKNOWN | PRESENT | ABSENT).

Gibt an, ob die CSV-Datei eine Kopfzeile enthält.
Header – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste von Zeichenfolgen, durch die Spaltennamen darstellt werden.
DisableValueTrimming – Boolesch.

Gibt an, dass Werte vor dem Identifizieren des Typs der Spaltenwerte nicht abgetrennt werden sollen. Der Standardwert ist "True".
AllowSingleColumn – Boolesch.

Aktiviert die Verarbeitung von Dateien, die nur eine Spalte enthalten.
CustomDatatypeConfigured – Boolesch.

Ermöglicht die Konfiguration benutzerdefinierter Datentypen.
CustomDatatypes – Ein UTF-8-Zeichenfolgen-Array.

Erzeugt eine Liste der unterstützten benutzerdefinierten Datentypen.
Serde – UTF-8-Zeichenfolge (zulässige Werte: OpenCSVSerDe | LazySimpleSerDe | None).

Legt die SerDe für die Verarbeitung erforderliche CSV im Klassifikator fest, die im Datenkatalog angewendet wird. Gültige Werte sind OpenCSVSerDe, LazySimpleSerDe und None. Sie können den None-Wert angeben, wenn der Crawler die Erkennung durchführen soll.

UpdateCsvClassifierRequest Struktur

Gibt einen benutzerdefinierten CSV-Classifier an, der aktualisiert werden soll.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Classifiers.
Delimiter – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1 Byte lang, passend zum Custom string pattern #26.

Eine benutzerdefiniertes Symbol zur Bezeichnung, wodurch die einzelnen Spalteneinträge in der Zeile voneinander getrennt werden.
QuoteSymbol – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1 Byte lang, passend zum Custom string pattern #26.

Ein benutzerdefiniertes Symbol zur Bezeichnung, wodurch Inhalte zu einem einzelnen Spaltenwert miteinander kombiniert werden. Muss sich von dem Spaltentrennzeichen unterscheiden.
ContainsHeader – UTF-8-Zeichenfolge (zulässige Werte: UNKNOWN | PRESENT | ABSENT).

Gibt an, ob die CSV-Datei eine Kopfzeile enthält.
Header – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste von Zeichenfolgen, durch die Spaltennamen darstellt werden.
DisableValueTrimming – Boolesch.

Gibt an, dass Werte vor dem Identifizieren des Typs der Spaltenwerte nicht abgetrennt werden sollen. Der Standardwert ist "True".
AllowSingleColumn – Boolesch.

Aktiviert die Verarbeitung von Dateien, die nur eine Spalte enthalten.
CustomDatatypeConfigured – Boolesch.

Gibt die Konfiguration benutzerdefinierter Datentypen an.
CustomDatatypes – Ein UTF-8-Zeichenfolgen-Array.

Gibt eine Liste der unterstützten benutzerdefinierten Datentypen an.
Serde – UTF-8-Zeichenfolge (zulässige Werte: OpenCSVSerDe | LazySimpleSerDe | None).

Legt die SerDe für die Verarbeitung erforderliche CSV im Klassifikator fest, die im Datenkatalog angewendet wird. Gültige Werte sind OpenCSVSerDe, LazySimpleSerDe und None. Sie können den None-Wert angeben, wenn der Crawler die Erkennung durchführen soll.

Operationen

CreateClassifier Aktion (Python: create_classifier)
DeleteClassifier Aktion (Python: delete_classifier)
GetClassifier Aktion (Python: get_classifier)
GetClassifiers Aktion (Python: get_classifiers)
UpdateClassifier Aktion (Python: update_classifier)

CreateClassifier Aktion (Python: create_classifier)

Erstellt einen Classifier im Konto des Benutzers. Dies kann ein GrokClassifier, ein XMLClassifier, ein JsonClassifier oder ein CsvClassifier sein, je nachdem, welches Feld der Anforderung vorhanden ist.

Anforderung

GrokClassifier – Ein CreateGrokClassifierRequest-Objekt.

Ein GrokClassifier-Objekt, das den zu erstellenden Classifier angibt.
XMLClassifier – Ein XMLClassifierAnfrage erstellen-Objekt.

Ein XMLClassifier-Objekt, das den zu erstellenden Classifier angibt.
JsonClassifier – Ein CreateJsonClassifierRequest-Objekt.

Ein JsonClassifier-Objekt, das den zu erstellenden Classifier angibt.
CsvClassifier – Ein CreateCsvClassifierRequest-Objekt.

Ein CsvClassifier-Objekt, das den zu erstellenden Classifier angibt.

Antwort

Keine Antwortparameter.

Fehler

AlreadyExistsException
InvalidInputException
OperationTimeoutException

DeleteClassifier Aktion (Python: delete_classifier)

Entfernt einen Classifier aus dem Data Catalog.

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Name des zu entfernenden Classifiers.

Antwort

Keine Antwortparameter.

Fehler

EntityNotFoundException
OperationTimeoutException

GetClassifier Aktion (Python: get_classifier)

Abrufen eines Classifiers nach Namen.

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Name des abzurufenden Classifiers.

Antwort

Classifier – Ein Classifier-Objekt.

Der angeforderte Classifier.

Fehler

EntityNotFoundException
OperationTimeoutException

GetClassifiers Aktion (Python: get_classifiers)

Listet alle Classifier-Objekte im Data Catalog auf.

Anforderung

MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

Größe der zurückzugebenden Liste (optional).
NextToken – UTF-8-Zeichenfolge.

Ein optionales Fortsetzungs-Token.

Antwort

Classifiers – Ein Array mit Classifier-Objekten.

Die angeforderte Liste der Classifier-Objekte.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token.

Fehler

OperationTimeoutException

UpdateClassifier Aktion (Python: update_classifier)

Ändert einen vorhandenen Classifier (einen GrokClassifier, einen XMLClassifier, einen JsonClassifier oder einen CsvClassifier, je nachdem, welches Feld vorhanden ist).

Anforderung

GrokClassifier – Ein UpdateGrokClassifierRequest-Objekt.

Ein GrokClassifier-Objekt mit aktualisierten Feldern.
XMLClassifier – Ein XMLClassifierAnfrage aktualisieren-Objekt.

Ein XMLClassifier-Objekt mit aktualisierten Feldern.
JsonClassifier – Ein UpdateJsonClassifierRequest-Objekt.

Ein JsonClassifier-Objekt mit aktualisierten Feldern.
CsvClassifier – Ein UpdateCsvClassifierRequest-Objekt.

Ein CsvClassifier-Objekt mit aktualisierten Feldern.

Antwort

Keine Antwortparameter.

Fehler

InvalidInputException
VersionMismatchException
EntityNotFoundException
OperationTimeoutException

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Crawler und Classifier

Crawler

Wählen Sie Ihre Cookie-Einstellungen aus

Classifier-API

Datentypen

Classifier-Struktur

Felder

GrokClassifier Struktur

Felder

XMLClassifier Struktur

Felder

JsonClassifier Struktur

Felder

CsvClassifier Struktur

Felder

CreateGrokClassifierRequest Struktur

Felder

UpdateGrokClassifierRequest Struktur

Felder

Anforderungsstruktur erstellen XMLClassifier

Felder

Struktur der XMLClassifier Anfrage aktualisieren

Felder

CreateJsonClassifierRequest Struktur

Felder

UpdateJsonClassifierRequest Struktur

Felder

CreateCsvClassifierRequest Struktur

Felder

UpdateCsvClassifierRequest Struktur

Felder

Operationen

CreateClassifier Aktion (Python: create_classifier)

Anforderung

Antwort

Fehler

DeleteClassifier Aktion (Python: delete_classifier)

Anforderung

Antwort

Fehler

GetClassifier Aktion (Python: get_classifier)

Anforderung

Antwort

Fehler

GetClassifiers Aktion (Python: get_classifiers)

Anforderung

Antwort

Fehler

UpdateClassifier Aktion (Python: update_classifier)

Anforderung

Antwort

Fehler

Auf dieser Seite

Related resources

Hat Ihnen diese Seite geholfen?

Related resources

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?