Klassifikatoren mit der AWS Glue Konsole erstellen - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Klassifikatoren mit der AWS Glue Konsole erstellen

Ein Classifier bestimmt das Schema Ihrer Daten. Sie können einen benutzerdefinierten Classifier erstellen und von AWS Glue aus auf ihn verweisen.

Classifier erstellen

Zum Hinzufügen eines Classifiers in der AWS Glue-Konsole wählen Sie Add classifier (Classifier hinzufügen) aus. Wenn Sie einen Classifier definieren, geben Sie Werte für Folgendes an:

  • Classifier-Name – Geben Sie einen eindeutigen Namen für Ihren Classifier ein.

  • Classifier-Typ – Der Klassifizierungstyp der Tabellen, die von diesem Classifier abgeleitet werden.

  • Letzte Aktualisierung – Der letzte Zeitpunkt, zu dem dieser Classifier aktualisiert wurde.

Name des Classifiers

Geben Sie einen eindeutigen Namen für Ihren Classifier ein.

Classifier-Typ

Wählen Sie den zu erstellenden Classifier aus.

Konfigurieren Sie je nach gewähltem Classifier-Typ die folgenden Eigenschaften für Ihren Classifier:

Grok
  • Klassifizierung

    Beschreiben Sie das Format oder den Typ der Daten, die klassifiziert werden, oder geben Sie ein benutzerdefiniertes Label an.

  • Grok-Muster

    Dies dient dazu, Ihre Daten zu analysieren und in ein strukturiertes Schema einzufügen. Das Grok-Muster besteht aus benannten Mustern, die das Format Ihres Datenspeichers beschreiben. Sie schreiben dieses Grok-Muster mit den benannten integrierten Mustern von AWS Glue und mit benutzerdefinierten Mustern, die Sie in das Feld Custom patterns (Benutzerdefinierte Muster) einfügen. Auch wenn die Grok-Debugger-Ergebnisse nicht unbedingt mit den Ergebnissen von AWS Glue übereinstimmen, empfehlen wir, dass Sie Ihr Muster mit Beispieldaten und einem Grok-Debugger testen. Grok-Debugger finden Sie im Internet. Die benannten integrierten Muster, die von AWS Glue bereitgestellt werden, sind in der Regel mit Grok-Mustern kompatibel, die im Internet verfügbar sind.

    Erstellen Sie Ihr Grok-Muster durch iteratives Hinzufügen von benannten Mustern und überprüfen Sie Ihre Ergebnisse in einem Debugger. Diese Aktivität gibt Ihnen die Gewissheit, dass Ihre Daten analysiert werden können, wenn der AWS Glue-Crawler Ihr Grok-Muster ausführt.

  • Benutzerdefinierte Muster

    Für Grok-Classifier sind dies optionale Bausteine für das Grok pattern (Grok-Muster), das Sie schreiben. Wenn integrierte Muster Ihre Daten nicht analysieren können, müssen Sie möglicherweise ein benutzerdefiniertes Muster schreiben. Diese benutzerdefinierten Muster werden in diesem Feld definiert und im Feld Grok pattern (Grok-Muster) referenziert. Jedes benutzerdefinierte Muster wird in einer separaten Zeile definiert. Es besteht wie integrierte Muster aus einer benannten Musterdefinition, die reguläre Ausdruckssyntax (Regex) verwendet.

    Im folgenden Beispiel folgt auf den Namen MESSAGEPREFIX eine reguläre Ausdrucksdefinition für Ihre Daten, um festzustellen, ob das Muster eingehalten wird.

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • Row-Tag

    Bei XML Klassifikatoren ist dies der Name des XML Tags, das eine Tabellenzeile im XML Dokument definiert. Geben Sie den Namen ohne spitze Klammern < > an. Der Name muss den XML Regeln für ein Tag entsprechen.

    Weitere Informationen finden Sie unter Schreiben von XML benutzerdefinierten Klassifikatoren.

JSON
  • JSONPfad

    Bei JSON Klassifikatoren ist dies der JSON Pfad zu dem Objekt, Array oder Wert, der eine Zeile der Tabelle definiert, die gerade erstellt wird. Geben Sie den Namen entweder in Punkt- oder JSON Klammersyntax ein und verwenden Sie AWS Glue dabei unterstützte Operatoren.

    Weitere Informationen finden Sie in der Liste der Operatoren in JSONBenutzerdefinierte Klassifikatoren schreiben.

CSV
  • Spaltentrennzeichen

    Ein Symbol zur Bezeichnung, wodurch die einzelnen Spalteneinträge in der Zeile voneinander getrennt werden. Wählen Sie das Begrenzungszeichen in der Liste aus, oder wählen Sie Other, um ein benutzerdefiniertes Trennzeichen einzugeben.

  • Anführungszeichen

    Ein einzelnes Zeichen oder Symbol zur Bezeichnung wodurch Inhalte zu einem einzelnen Spaltenwert miteinander kombiniert werden. Muss sich von dem Spaltentrennzeichen unterscheiden. Wählen Sie das Angebotssymbol aus der Liste aus, oder wählen Sie Other, um ein benutzerdefiniertes Anführungszeichen einzugeben.

  • Spaltenüberschriften

    Gibt an, wie Spaltenüberschriften in der CSV Datei erkannt werden sollen. Sie können Has headings, No headings oder Detect headings wählen. Wenn Ihre benutzerdefinierte CSV Datei Spaltenüberschriften enthält, geben Sie eine durch Kommas getrennte Liste der Spaltenüberschriften ein.

  • Zulassen von Dateien mit einzelner Spalte

    Um klassifiziert zu werdenCSV, müssen die Daten mindestens zwei Spalten und zwei Zeilen mit Daten haben. Verwenden Sie diese Option, um die Verarbeitung von Dateien zu erlauben, die nur eine Spalte enthalten.

  • Leerzeichen vor Identifizierung von Spaltenwerten abtrennen

    Diese Option gibt an, ob Werte vor dem Identifizieren des Typs der Spaltenwerte abgetrennt werden sollen.

  • Benutzerdefinierter Datentyp

    (Optional) – Geben Sie benutzerdefinierte Datentypen in eine kommagetrennte Liste ein. Die unterstützten Datentypen sind: „BINARY“, „BOOLEAN“, „DATE“, „DECIMAL“, „“, „DOUBLE“, „FLOAT“, „INT“, „LONG“, „SHORT“, „STRING“. TIMESTAMP

  • CSVSerde

    (Optional) — A SerDe für die Verarbeitung CSV im Klassifikator, der im Datenkatalog angewendet wird. Wählen Sie Open CSV SerDe, Lazy Simple SerDe, oder None aus. Sie können den None-Wert angeben, wenn der Crawler die Erkennung durchführen soll.

Weitere Informationen finden Sie unter Schreiben von benutzerdefinierten Klassifikatoren für verschiedene Datenformate.

Classifier anzeigen

Um eine Liste aller von Ihnen erstellten Klassifikatoren zu sehen, öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/und wählen Sie die Registerkarte Klassifikatoren.

Die Liste zeigt die folgenden Eigenschaften für jeden Classifier an:

  • Classifier – Der Name des Classifiers. Beim Erstellen eines Classifiers müssen Sie einen Namen angeben.

  • Klassifizierung – Der Klassifizierungstyp der Tabellen, die von diesem Classifier abgeleitet werden.

  • Letzte Aktualisierung – Der letzte Zeitpunkt, zu dem dieser Classifier aktualisiert wurde.

Classifier verwalten

In der Liste Classifiers (Classifier) in der AWS Glue-Konsole können Sie Classifier hinzufügen, bearbeiten und löschen. Um weitere Details über einen Classifier zu sehen, wählen Sie den Classifier-Namen in der Liste aus. Zu den Details gehören die Informationen, die Sie beim Erstellen des Classifiers definiert haben.