Erste Schritte mit AWS Glue Data Quality für den Data Catalog - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit AWS Glue Data Quality für den Data Catalog

Dieser Abschnitt Erste Schritte enthält Anweisungen, die Ihnen den Einstieg in AWS Glue Data Quality in der AWS Glue-Konsole erleichtern. Sie lernen, wie Sie grundlegende Aufgaben wie das Generieren von Empfehlungen für Datenqualitätsregeln und das Auswerten eines Regelsatzes anhand Ihrer Daten ausführen.

Voraussetzungen

Bevor Sie AWS Glue Data Quality verwenden, sollten Sie sich mit der Verwendung von Data Catalog und den Crawlern in AWS Glue vertraut machen. Mit AWS Glue Data Quality können Sie die Qualität von Tabellen in einer Data Catalog-Datenbank auswerten. Sie benötigen außerdem Folgendes:

  • Eine Tabelle im Data Catalog, anhand derer Sie Ihren Datenqualitätsregelsatz auswerten können.

  • Eine IAM-Rolle für AWS Glue, die Sie bereitstellen, wenn Sie Regelempfehlungen generieren oder eine Datenqualitätsaufgabe ausführen. Diese Rolle muss über die Berechtigung zum Zugriff auf Ressourcen verfügen, die für verschiedene AWS Glue Data Quality-Prozesse erforderlich sind, um in Ihrem Namen ausgeführt zu werden. Zu diesen Ressourcen gehören AWS Glue, Amazon S3 und CloudWatch. Beispielrichtlinien, die die Mindestberechtigungen für AWS Glue Data Quality enthalten, finden Sie unter Beispielrichtlinien IAM.

    Weitere Informationen zu IAM-Rollen für AWS Glue finden Sie unter Erstellen einer IAM-Richtlinie für den AWS Glue-Service und Erstellen einer IAM-Rolle für den AWS Glue-Service. Eine Liste aller AWS Glue-Berechtigungen, die sich speziell auf die Datenqualität beziehen, können Sie auch unter Berechtigungen für AWS Glue Data Quality-Aktionen anzeigen.

  • Eine Datenbank mit mindestens einer Tabelle, die verschiedene Daten enthält. Die in diesem Tutorial verwendete Tabelle trägt den Namen yyz-tickets und die Tabelle tickets. Bei diesen Daten handelt es sich um eine Sammlung öffentlich zugänglicher Informationen der Stadt Toronto zu Parkplatzgebühren. Wenn Sie Ihre eigene Tabelle erstellen, stellen Sie sicher, dass diese mit einer Vielzahl gültiger Daten ausgefüllt ist, um die besten empfohlenen Regeln zu erhalten.

S-tep-by-step Beispiel

Ein step-by-step Beispiel mit Beispieldatensätzen finden Sie im AWS Blogbeitrag Glue Data Quality.

Generieren von Regelempfehlungen

Regelempfehlungen vereinfachen den Einstieg in die Datenqualität, ohne Code schreiben zu müssen. Mit AWS Glue Data Quality können Sie Ihre Daten analysieren, Regeln identifizieren und einen Regelsatz erstellen, den Sie in einer Datenqualitätsaufgabe auswerten können. Empfehlungsausführungen werden nach 90 Tagen automatisch gelöscht.

So generieren Sie Empfehlungen für Datenqualitätsregeln
  1. Öffnen Sie die AWS-Glue-Konsole unter https://console.aws.amazon.com/glue/.

  2. Wählen Sie im Navigationsbereich Tables (Tabellen) aus. Wählen Sie anschließend die Tabelle aus, für die Sie Empfehlungen für Datenqualitätsregeln generieren möchten.

  3. Wählen Sie auf der Seite mit den Tabellendetails die Registerkarte Datenqualität aus, um auf die Regeln und Einstellungen für AWS Glue Data Quality für Ihre Tabelle zuzugreifen.

  4. Wählen Sie auf der Registerkarte Datenqualität die Option Regeln hinzufügen und Datenqualität überwachen aus.

  5. Auf der Seite Regelsatz-Generator werden Sie durch eine Warnung oben auf der Seite aufgefordert, eine Empfehlungsaufgabe zu starten, wenn keine Regelempfehlungen ausgeführt werden.

  6. Wählen Sie Regeln empfehlen, um das Modal zu öffnen und Ihre Parameter für die Empfehlungsaufgabe einzugeben.

  7. Wählen Sie eine IAM-Rolle mit Zugriff auf AWS Glue. Diese Rolle muss über die Berechtigung zum Zugriff auf Ressourcen verfügen, die für verschiedene AWS-Glue-Data-Quality-Prozesse erforderlich sind, um in Ihrem Namen ausgeführt zu werden.

  8. Nachdem die Felder gemäß Ihren Präferenzen ausgefüllt wurden, wählen Sie Regeln empfehlen, um die Ausführung der Empfehlungsaufgabe zu starten. Wenn Empfehlungsausführungen in Arbeit oder abgeschlossen sind, können Sie Ihre Ausführungen in dieser Benachrichtigung verwalten. Möglicherweise müssen Sie die Warnmeldung aktualisieren, um die Statusänderung anzuzeigen. Abgeschlossene und laufende Ausführungen von Empfehlungsaufgaben werden auf der Seite Ausführungsverlauf angezeigt, die alle Empfehlungsausführungen in den vergangenen 90 Tagen auflistet.

Bedeutung der empfohlenen Regeln

AWS Glue Data Quality generiert Regeln basierend auf Daten aus jeder Spalte der Eingabetabelle. Mithilfe der Regeln werden mögliche Grenzen identifiziert, an denen Daten gefiltert werden können, um Qualitätsanforderungen einzuhalten. Die folgende Liste generierter Regeln enthält Beispiele, die hilfreich sind, um zu verstehen, was die Regeln bedeuten und was sie bewirken können, wenn sie auf Ihre Daten angewendet werden.

Eine vollständige Liste der generierten DQDL-Regeltypen (Data Quality Definition Language) finden Sie in der DQDL-Regeltypreferenz.

  • IsComplete "SET_FINE_AMOUNT" –Die IsComplete-Regel überprüft, ob die Spalte für eine bestimmte Zeile ausgefüllt ist. Verwenden Sie diese Regel, um Spalten in Daten als nicht optional zu kennzeichnen.

  • Uniqueness "TICKET_NUMBER" > 0.95 – Die Uniqueness-Regel überprüft, ob die Daten in der Spalte einen bestimmten Eindeutigkeitsschwellenwert erreichen. In diesem Beispiel wurde festgestellt, dass die Daten, die eine bestimmte Zeile für "TICKET_NUMBER" füllen, höchstens zu 95 % inhaltlich mit allen anderen Zeilen identisch sind, was auf diese Regel schließen lässt.

  • ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY",...] – Die ColumnValues-Regel definiert gültige Werte für die Spalte, basierend auf vorhandenen Spalteninhalten. In diesem Beispiel handelt es sich bei den Daten für jede Zeile um ein aus zwei Buchstaben bestehendes Nummernschild für ein Bundesland oder eine Provinz.

  • ColumnLength "INFRACTION_DESCRIPTION" between 15 and 31 – Die ColumnLength-Regel erzwingt eine Längenbeschränkung der Daten einer Spalte. Diese Regel wird aus den Beispieldaten basierend auf der minimalen und maximalen aufgezeichneten Länge für eine Zeichenfolgenspalte generiert.

Empfehlungen zu Überwachungsregeln

Wenn Empfehlungen zu Datenqualitätsregeln ausgeführt werden, werden auf der Seite Regeln hinzufügen und Datenqualität überwachen in der oberen Leiste Informationen und zusätzliche Aktionen angezeigt, die Sie ausführen können.

Wenn Regelempfehlungen ausgeführt werden, können Sie die Ausführung beenden, bevor die Empfehlungsaufgabe abgeschlossen ist. Während die Aufgabe ausgeführt wird, sehen Sie den Status In Bearbeitung sowie das Datum und die Uhrzeit, zu der die Ausführung gestartet wurde.

Wenn die Regelempfehlungen abgeschlossen sind, werden in der Regelempfehlungsleiste die Anzahl der empfohlenen Regeln, der Status der letzten Empfehlungsausführung sowie das Datum und der Zeitstempel der Fertigstellung angezeigt.

Sie können die empfohlenen Regeln hinzufügen, indem Sie Regelempfehlung einfügen auswählen. Wählen Sie ein bestimmtes Datum aus, um zuvor empfohlene Regeln anzuzeigen. Um eine neue Empfehlung auszuführen, wählen Sie Weitere Aktionen und dann Empfohlene Regeln aus.

Legen Sie Standardeinstellungen fest, indem Sie Benutzereinstellungen verwalten auswählen. Sie können den Standardpfad für Amazon S3 festlegen, um Regelsätze zu speichern oder eine Standardrolle zum Ausführen des Data Catalogs einzurichten.

Bearbeitung von empfohlenen Regelsätzen

Da AWS Glue Data Quality Regeln basierend auf vorhandenen Daten generiert, die Ihnen zur Verfügung stehen, werden in den automatisierten Vorschlägen möglicherweise einige unerwartete oder unerwünschte Regeln angezeigt. Um den größtmöglichen Nutzen aus den empfohlenen Regelsätzen zu ziehen, müssen Sie diese auswerten und ändern. Für diesen Schritt des Tutorials nehmen Sie die im vorherigen Schritt generierten Regeln und passen sie an, um für einige Daten restriktivere Eigenschaften zu erzwingen. Außerdem lockern Sie andere Regeln, um sicherzustellen, dass später korrekte, eindeutige Daten hinzugefügt werden können.

Einen vorgeschlagenen Regelsatz bearbeiten
  1. Wählen Sie in der AWS-Glue-Konsole Data Catalog und dann im Navigationsbereich Datenbanktabellen aus. Wählen Sie die tickets Tabelle aus.

  2. Wählen Sie auf der Seite mit den Tabellendetails die Registerkarte Datenqualität, um auf die Regeln und Einstellungen von AWS Glue Data Quality für die Tabelle zuzugreifen.

  3. Wählen Sie im Abschnitt Regelsätze den in Generieren von Regelempfehlungen generierten Regelsatz aus.

  4. Wählen Sie Aktionen und anschließend im Konsolenfenster Bearbeiten aus. Der Regelsatz-Editor wird in der Konsole geladen. Es enthält einen Bearbeitungsbereich für Ihre Regeln und eine Kurzreferenz für DQDL.

  5. Entfernen Sie die Zeile 2 des Skripts. Dadurch wird die Anforderung gelockert, dass die Datenbankgröße auf eine bestimmte Anzahl von Zeilen beschränkt sein muss. Nach der Bearbeitung sollte Ihre Datei in den Zeilen 1–3 Folgendes enthalten:

    Rules = [ IsComplete "TAG_NUMBER_MASKED", ColumnLength "TAG_NUMBER_MASKED" between 6 and 9,
  6. Entfernen Sie die Zeile 25 des Skripts. Dies lockert die Anforderung, dass 96 % der erfassten Provinzen ON sein müssen. Nach der Bearbeitung sollte Ihre Datei von der Zeile 24 bis zum Ende des Regelsatzes Folgendes enthalten:

    ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY", "AZ", "NS", "BC", "MI", "PQ", "MB", "PA", "FL", "SK", "NJ", "OH", "NB", "IL", "MA", "CA", "VA", "TX", "NF", "MD", "PE", "CT", "NC", "GA", "IN", "OR", "MN", "TN", "WI", "KY", "MO", "WA", "NH", "SC", "CO", "OK", "VT", "RI", "ME", "AL", "YT", "IA", "DE", "AR", "LA", "XX", "WV", "MT", "KS", "NT", "DC", "NV", "NE", "UT", "MS", "NM", "ID", "SD", "ND", "AK", "NU", "GO", "WY", "HI"], ColumnLength "PROVINCE" = 2 ]
  7. Ändern Sie die Zeile 14 wie folgt:

    IsComplete "TIME_OF_INFRACTION",

    Dies verschärft die Anforderungen an die Spalte, indem die Datenbank nur auf Tickets beschränkt wird, die einen aufgezeichneten Zeitpunkt des Verstoßes enthalten. Sie sollten Tickets ohne aufgezeichneten Zeitpunkt des Verstoßes immer als ungültige Daten in diesem Datensatz betrachten. Dies unterscheidet sich von Situationen, in denen eine Partitionierung oder Transformation für die weitere Datenverwendung oder -prüfung zur Bestimmung einer Qualitätsregel besser geeignet sein könnte.

  8. Wählen Sie unten auf der Konsolenseite die Option Regelsatz aktualisieren.

Erstellen eines neuen Regelsatzes

Ein Regelsatz ist eine Gruppe von Datenqualitätsregeln, die Sie anhand Ihrer Daten auswerten. In der AWS Glue-Konsole können Sie benutzerdefinierte Regelsätze mithilfe der Data Quality Definition Language (DQDL) erstellen.

So erstellen Sie einen Datenqualitätsregelsatz
  1. Wählen Sie in der AWS-Glue-Konsole Data Catalog, dann Datenbanken und dann Tabellen im Navigationsbereich aus. Wählen Sie die Tabelle tickets aus.

  2. Öffnen Sie die Registerkarte Data quality (Datenqualität).

  3. Wählen Sie im Abschnitt Regelsatzh die Option Regelsatz erstellen aus. Der DQDL-Editor wird in der Konsole gestartet. Es verfügt über einen Textbereich zur direkten Bearbeitung sowie eine Kurzreferenz für DQDL-Regeln und das Tabellenschema.

  4. Beginnen Sie mit dem Hinzufügen von Regeln zum Textbereich des DQDL-Editors. Sie können entweder direkt aus diesem Tutorial heraus Regeln schreiben oder dieses Feature des DQDLRegelgenerators im Editor für Datenqualitätsregeln verwenden.

    Anmerkung
    Verwendung des DQDL-Regel-Generators
    1. Wählen Sie einen Regeltyp aus der Liste aus und klicken Sie auf das Pluszeichen, um eine Beispielsyntax in den Editorbereich einzufügen.

    2. Tauschen Sie die Platzhalter-Spaltennamen mit Ihren eigenen Spaltennamen aus. Spaltennamen aus der Tabelle sind auf der Registerkarte Schema verfügbar.

    3. Aktualisieren Sie den Ausdrucksparameter nach Bedarf. Eine vollständige Liste der von DQDL unterstützten Ausdrücke finden Sie unter Ausdrücke.

    Beispielsweise handelt es sich bei den folgenden Regeln um Einschränkungen für die Datenvalidierung der ticket_number-Spalte in der tickets-Tabelle. Um die folgenden Regeln hinzuzufügen, verwenden Sie den DQDL-Regelgenerator oder bearbeiten Sie Ihren Regelsatz direkt:

    IsComplete "ticket_number", IsUnique "ticket_number", ColumnValues "ticket_number" > 9000000000
  5. Geben Sie im Feld Regelsatzname einen Namen für Ihren neuen Regelsatz ein.

  6. Wählen Sie Regelsatz speichern aus.

Auswertung der Datenqualität über mehrere Datensätze hinweg

Mithilfe von DatasetMatch Regelsätzen ReferentialIntegrity und können Sie Datenqualitätsregeln für mehrere Datensätze einrichten. ReferentialIntegrity prüft, ob Daten im Primärdatensatz in anderen Datensätzen vorhanden sind.

Um einen Referenzdatensatz hinzuzufügen, wählen Sie die Registerkarte Schema und dann Referenztabellen aktualisieren aus. Sie werden aufgefordert, eine Datenbank und eine Tabelle auszuwählen. Sie können die Tabelle hinzufügen und dann Datenqualitätsregeln einrichten. Regeltypen wie AggregateMatch, RowCountMatch ReferentialIntegrity, und DatasetMatch unterstützen die Möglichkeit SchemaMatch, Datenqualitätsprüfungen über mehrere Datensätze hinweg durchzuführen.

Ausführen eines Regelsatzes zur Bewertung der Datenqualität

Wenn Sie eine Datenqualitätsaufgabe ausführen, wertet AWS Glue Data Quality einen Regelsatz anhand Ihrer Daten aus und berechnet einen Datenqualitätswert. Dieser Wert stellt den Prozentsatz der Datenqualitätsregeln dar, die für die Eingabe bestanden haben.

So führen Sie eine Datenqualitätsaufgabe aus
  1. Wählen Sie in der AWS-Glue-Konsole Data Catalog, dann Datenbanken und dann Tabellen im Navigationsbereich aus. Wählen Sie die Tabelle tickets aus.

  2. Wählen Sie die Registerkarte Datenqualität.

  3. Wählen Sie in der Liste Regelsätze den Regelsatz aus, den Sie anhand der Tabelle auswerten möchten. Für diesen Schritt empfehlen wir die Verwendung eines Regelsatzes, den Sie bereits geschrieben oder geändert haben, anstelle generierter Regeln. Wählen Sie Ausführen aus.

  4. Wählen Sie im Modal Ihre IAM-Rolle aus. Diese Rolle muss über die Berechtigung zum Zugriff auf Ressourcen verfügen, die für verschiedene AWS-Glue-Data-Quality-Prozesse erforderlich sind, um in Ihrem Namen ausgeführt zu werden. Sie können die IAM-Rolle als Standard speichern oder sie ändern, indem Sie die Seite mit den Standardeinstellungen aufrufen.

  5. Wählen Sie unter Datenqualitätsaktionen aus, ob Sie Metriken in Amazon veröffentlichen CloudWatch möchten. Wenn diese Option ausgewählt ist, veröffentlicht AWS Glue Data Quality Metriken, die die Anzahl der Regeln angeben, die erfolgreich waren, und die Anzahl der Regeln, die fehlgeschlagen sind. Um Maßnahmen für auf diese Weise gespeicherte Metriken zu ergreifen, können Sie CloudWatch Alarme verwenden. Wichtige Kennzahlen werden auch auf Amazon EventBridge veröffentlicht, damit Sie Warnmeldungen einrichten können. Weitere Informationen finden Sie unter Einrichten von Warnmeldungen, Bereitstellungen und Planung.

  6. Wählen Sie unter Ausführungshäufigkeit die Option „Bei Bedarf ausführen“ oder „Regelsatz planen“ aus. Wenn Sie einen Regelsatz planen, werden Sie zur Eingabe eines Aufgabennamens aufgefordert. Der Zeitplan wird in Amazon EventBridge erstellt. Sie können Ihren Zeitplan in Amazon EventBridge bearbeiten.

  7. Um die Datenqualitätsergebnisse in Amazon S3 zu speichern, wählen Sie einen Speicherort für Datenqualitätsergebnisse aus. Die IAM-Rolle, die Sie zuvor für diese Aufgabe ausgewählt haben, muss über Schreibzugriff für diesen Speicherort verfügen.

  8. Geben Sie unter Zusätzliche Konfigurationen die angeforderte Anzahl an Workern ein, die AWS Glue für Ihre Datenqualitätsaufgabe zuweisen soll.

  9. Optional können Sie einen Filter an der Datenquelle einrichten. Dadurch können Sie die Menge der gelesenen Daten reduzieren. Sie können einen Filter auch verwenden, um inkrementelle Validierungen durchzuführen, indem Sie Partitionsinformationen auswählen und diese als Parameter über API-Aufrufe übergeben. Um die Leistung zu verbessern, können Sie ein Partitionsprädikat bereitstellen.

  10. Wählen Sie Ausführen aus. Sie sollten Ihre neue Aufgabe in der Liste Data quality task runs (Ausführungen der Datenqualitätsaufgabe) sehen. Wenn in der Spalte Ausführungsstatus für die Aufgabe Abgeschlossen angezeigt wird, können Sie die Ergebnisse des Qualitätsfaktors anzeigen. Möglicherweise müssen Sie Ihr Konsolenfenster aktualisieren, damit der Status korrekt aktualisiert wird.

  11. Um die Spalte mit den Details zu den Datenqualitätsergebnissen anzuzeigen, wählen Sie das „+“-Symbol aus, um den Regelsatz zu erweitern. Die Ergebnisse zeigen Ihnen, welche Regeln bei der Auswertung bestanden und fehlgeschlagen sind und was den Regelfehler ausgelöst hat.

Aufrufen des Datenqualitätswerts und der Ergebnisse

So zeigen Sie die neueste Ausführung für alle erstellten Regelsätze an
  1. Wählen Sie im Navigationsbereich der AWS-Glue-Konsole Tables (Tabellen) aus. Wählen Sie dann die Tabelle aus, für die Sie eine Datenqualitätsaufgabe ausführen möchten.

  2. Wählen Sie die Registerkarte Datenqualität.

  3. Der Snapshot zur Datenqualität zeigt einen allgemeinen Trend der Ausführungen im Laufe der Zeit. Die letzten 10 Ausführungen für alle Regelsätze werden standardmäßig angezeigt. Um nach Regelsatz zu filtern, wählen Sie den gewünschten Regelsatz aus der Dropdown-Liste aus. Bei weniger als 10 Ausführungen werden alle verfügbaren abgeschlossenen Ausführungen angezeigt.

  4. In der Tabelle Datenqualität wird jeder Regelsatz mit seiner letzten Ausführung ( falls es eine gibt) zusammen mit dem Wert angezeigt. Beim Erweitern des Regelsatzes werden die darin enthaltenen Regeln sowie die Ergebnisse dieser Ausführung angezeigt.

So zeigen Sie die neueste Ausführung eines bestimmten Regelsatzes an
  1. Wählen Sie im Navigationsbereich der AWS-Glue-Konsole Tables (Tabellen) aus. Wählen Sie dann die Tabelle aus, für die Sie eine Datenqualitätsaufgabe ausführen möchten.

  2. Wählen Sie die Registerkarte Datenqualität.

  3. Wählen Sie in der Tabelle Datenqualität einen bestimmten Regelsatz aus.

  4. Wählen Sie auf der Seite mit den Regelsatzdetails die Registerkarte Ausführungsverlauf aus.

    In der Tabelle auf dieser Registerkarte sind alle Ausführungen der Auswertung für diesen bestimmten Regelsatz aufgeführt. Sie können den Verlauf der Wertungen und den Status der Ausführungen anzeigen.

  5. Um weitere Informationen zu einer bestimmten Ausführung anzuzeigen, wählen Sie die Ausführungs-ID, um die Seite mit den Details zur Auswertung aufzurufen. Auf dieser Seite können Sie Einzelheiten zur Ausführung und weitere Details über den Status der einzelnen Regelergebnisse anzeigen.