Datenqualitätsprüfungen - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenqualitätsprüfungen

Die Datenqualität ist ein integraler, aber oft übersehener Bestandteil des Datenbereinigungsprozesses. Das folgende Diagramm zeigt, wie Datenqualitätsprüfungen in den Lebenszyklus der datentechnischen Automatisierung und Zugriffskontrolle passen.

Datenqualitätsdiagramm

Die folgende Tabelle bietet einen Überblick über verschiedene Datenqualitätslösungen je nach Anwendungsfall.

Anwendungsfall

Lösung

Beispiel

Lösung ohne Code zum Hinzufügen von Qualitätsbedingungen auf Spalten- oder Tabellenebene

AWS Glue DataBrew

Prüft, ob alle Spaltenwerte zwischen 1 und 12 liegen oder ob eine Tabelle oder Spalte leer ist

Benutzerdefinierter Code, der einem AWS Glue Glue-Job oder einer No-Code-Lösung (in der Vorschauversion) hinzugefügt wurde, um Qualitätsbedingungen auf Spalten- oder Tabellenebene hinzuzufügen

AWS Glue Datenqualität

Prüft, ob die Spalte nicht Null first_name ist oder ob die phone_number Spalte nur Zahlen oder einen „+“ -Operator und/oder statistische Funktionen wie Durchschnitt oder Summe enthält

Benutzerdefinierte Schecks

ETL der Wahl, wie AWS Lambda, AWS Glue oder Amazon EMR

Prüft, ob der Wert von Spalte A immer größer ist als der entsprechende Wert von Spalte B und Spalte C oder ob der Wert der Spalte immer geografisch korrekt continent ist und von der city Spalte abgeleitet ist

Ausgefeilte Lösung mit einem Metrikbericht, einer Überprüfung von Einschränkungen und Vorschlägen für Einschränkungen

Deequ

Prüft, ob die Metrik CompletenessConstraint für die Vollständigkeit der Spalte gleich review_id ist 1