Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Glue Qualität der Daten
AWS Glue Mit Data Quality können Sie die Qualität Ihrer Daten messen und überwachen, sodass Sie gute Geschäftsentscheidungen treffen können. AWS Glue Data Quality basiert auf dem DeeQu Open-Source-Framework und bietet ein verwaltetes, serverloses Erlebnis. AWS Glue Data Quality arbeitet mit der Data Quality Definition Language (DQDL), einer domänenspezifischen Sprache, mit der Sie Datenqualitätsregeln definieren. Weitere Informationen zu DQDL und unterstützten Regeltypen finden Sie unterReferenz zu Data Quality Definition Language (DQDL).
Weitere Produktdetails und Preise finden Sie auf der Serviceseite für AWS Glue Data Quality
Vorteile und wichtige Features
Zu den Vorteilen und Hauptmerkmalen von AWS Glue Data Quality gehören:
-
Serverlos — Es erfolgt keine Installation, kein Patching oder keine Wartung.
-
Schneller Einstieg — AWS Glue Data Quality analysiert Ihre Daten schnell und erstellt Datenqualitätsregeln für Sie. Sie können mit zwei Klicks loslegen: „Datenqualitätsregeln erstellen → Regeln empfehlen“.
-
Datenqualitätsprobleme erkennen — Verwenden Sie maschinelles Lernen (ML), um Anomalien und hard-to-detect Datenqualitätsprobleme zu erkennen.
-
Improvisieren Sie Ihre Regeln — mit mehr als 25 out-of-the-box DQ-Regeln können Sie Regeln erstellen, die Ihren spezifischen Bedürfnissen entsprechen.
-
Qualität bewerten und fundierte Geschäftsentscheidungen treffen – Sobald Sie die Regeln bewertet haben, erhalten Sie einen Datenqualitätswert, der einen Überblick über den Zustand Ihrer Daten bietet. Verwenden Sie den Wert von Data Quality, um sichere Geschäftsentscheidungen zu treffen.
-
Schlechte Daten im Visier — AWS Glue Data Quality hilft Ihnen dabei, genau die Datensätze zu identifizieren, die zu einem Rückgang Ihrer Qualitätswerte geführt haben. Identifizieren, isolieren und beheben Sie sie ganz einfach.
-
Pay-as-you-go — Für die Nutzung von AWS Glue Data Quality benötigen Sie keine Jahreslizenzen.
-
Keine Bindung — AWS Glue Data Quality basiert auf Open Source DeeQu, sodass Sie die Regeln, die Sie erstellen, in einer offenen Sprache aufbewahren können.
-
Datenqualitätsprüfungen — Sie können Datenqualitätsprüfungen durchsetzen für Data Catalog and AWS Glue ETLPipelines, mit denen Sie die Datenqualität im Ruhezustand und bei der Übertragung verwalten können.
-
ML-basierte Datenqualitätserkennung — Verwenden Sie maschinelles Lernen (ML), um Anomalien und hard-to-detect Datenqualitätsprobleme zu erkennen.
-
Offene Sprache für ausdrückliche Regeln — stellt sicher, dass Datenqualitätsregeln einheitlich und einfach verfasst werden. Geschäftsanwender können Datenqualitätsregeln einfach in einer einfachen Sprache ausdrücken, die sie verstehen können. Für Ingenieure bietet diese Sprache die Flexibilität, Code zu generieren, eine konsistente Versionskontrolle zu implementieren und Bereitstellungen zu automatisieren.
Funktionsweise
Es gibt zwei Einstiegspunkte für AWS Glue Datenqualität: die AWS Glue ETL Jobs AWS Glue Data Catalog und. Dieser Abschnitt bietet einen Überblick über die Anwendungsfälle und AWS Glue Funktionen, die von den einzelnen Einstiegspunkten unterstützt werden.
Datenqualität für AWS Glue Data Catalog
AWS Glue Data Quality bewertet Objekte, die in der gespeichert sind. AWS Glue Data Catalog Es bietet Nicht-Programmierern eine einfache Möglichkeit, Datenqualitätsregeln einzurichten. Zu diesen Persönlichkeiten gehören Datenverwalter und Geschäftsanalysten.
Sie können diese Option für die folgenden Anwendungsfälle wählen:
-
Sie möchten Datenqualitätsaufgaben für Datensätze durchführen, die Sie bereits im AWS Glue Data Catalog katalogisiert haben.
-
Sie arbeiten an der Datenverwaltung und müssen kontinuierlich Datenqualitätsprobleme in Ihrem Data Lake identifizieren oder bewerten.
Sie können die Datenqualität für den Datenkatalog über die folgenden Schnittstellen verwalten:
-
Die Managementkonsole AWS Glue
-
AWS Glue APIs
Informationen zu den ersten Schritten mit AWS Glue Data Quality for the AWS Glue Data Catalog finden Sie unterErste Schritte mit AWS Glue Data Quality für den Data Catalog.
Datenqualität für AWS Glue ETL Jobs
AWS Glue Mit Data Quality for AWS Glue ETL Jobs können Sie proaktive Datenqualitätsaufgaben ausführen. Proaktive Aufgaben helfen Ihnen, fehlerhafte Daten zu identifizieren und herauszufiltern, bevor Sie einen Datensatz in Ihren Data Lake laden.
Sie können Datenqualität für ETL Jobs für die folgenden Anwendungsfälle wählen:
-
Sie möchten Datenqualitätsaufgaben in Ihre ETL Jobs integrieren
-
Sie möchten Code schreiben, der Datenqualitätsaufgaben in ETL Skripten definiert
-
Sie möchten die Qualität der Daten, die in Ihren visuellen Daten-Pipelines fließen, verwalten
Sie können die Datenqualität für ETL Jobs mithilfe der folgenden Schnittstellen verwalten:
-
AWS Glue Studio, AWS Glue Studio Notizbücher und AWS Glue interaktive Sitzungen
-
AWS Glue Bibliotheken für ETL Scripting
-
AWS Glue APIs
Informationen zu den ersten Schritten mit Datenqualität für ETL Jobs finden Sie unter Tutorial: Erste Schritte mit Datenqualität im AWS Glue Studio Benutzerhandbuch.
Vergleich der Datenqualität für den Datenkatalog mit der Datenqualität für ETL Jobs
Diese Tabelle bietet einen Überblick über die Funktionen, die von den einzelnen Einstiegspunkten für AWS Glue Datenqualität unterstützt werden.
Funktion | Datenqualität für den Datenkatalog | Datenqualität für ETL Jobs |
---|---|---|
Datenquellen | Amazon S3, Amazon Redshift, mit dem Datenkatalog kompatible JDBC Quellen und transaktionale Data-Lake-Formate wie Apache Iceberg, Apache Hudi und Delta Lake. Beachten Sie, dass Iceberg, Delta und Tabellen nicht unterstützt werden, wenn Tabellen AWS Lake Formation verwaltet werden. HUDI Amazon Athena katalogisierte Ansichten AWS Glue Data Catalog werden nicht unterstützt. | Alle Datenquellen werden von unterstützt AWS Glue, einschließlich benutzerdefinierter Konnektoren und Konnektoren von Drittanbietern. |
Empfehlungen für Data-Quality-Regeln | Unterstützt | Nicht unterstützt |
DQDLRegeln erstellen und ausführen | Unterstützt | Unterstützt |
Auto-Scaling | Nicht unterstützt | Unterstützt |
AWS Glue Flex-Unterstützung | Nicht unterstützt | Unterstützt |
Planung | Wird beim Auswerten von Data-Quality-Regeln und über Schrittfunktionen unterstützt. | Wird bei der Verwendung von Schrittfunktionen und Workflows unterstützt. |
Identifizieren von Datensätzen, bei denen die Datenqualitätsprüfungen fehlgeschlagen sind | Nicht unterstützt | Unterstützt |
Integration mit Amazon Eventbridge | Unterstützt | Unterstützt |
Integration mit AWS Cloudwatch | Unterstützt | Unterstützt |
Schreiben von Datenqualitätsergebnissen in Amazon S3 | Unterstützt | Unterstützt |
Inkrementelle Datenqualität | Wird über Pushdown-Prädikate unterstützt | Wird über AWS Glue Lesezeichen unterstützt |
AWS CloudFormation Unterstützung | Unterstützt | Unterstützt |
ML-gestützte Anomalieerkennung | Nicht unterstützt | Unterstützt |
Dynamische Regeln | Nicht unterstützt | Unterstützt |
Überlegungen
Beachten Sie die folgenden Punkte, bevor Sie AWS Glue Data Quality verwenden:
-
Datenqualitätsregeln können keine verschachtelten oder Listentyp-Datenquellen auswerten. Siehe Verschachtelte Strukturen verflachen.
Terminologie
In der folgenden Liste werden Begriffe definiert, die sich auf AWS Glue Datenqualität beziehen.
- Definitionssprache für Datenqualität (DQDL)
-
Eine domänenspezifische Sprache, mit der Sie AWS Glue Datenqualitätsregeln schreiben können.
Weitere Informationen DQDL dazu finden Sie in der Referenz zu Data Quality Definition Language (DQDL) Anleitung.
- Datenqualität
-
Beschreibt, wie gut ein Datensatz seinen spezifischen Zweck erfüllt. AWS Glue Data Quality bewertet Regeln anhand eines Datensatzes, um die Datenqualität zu messen. Jede Regel prüft auf bestimmte Merkmale wie Datenaktualität oder -integrität. Zur Quantifizierung der Datenqualität können Sie einen Datenqualitätswert verwenden.
- Datenqualitätswert
-
Der Prozentsatz der Datenqualitätsregeln, die erfüllt werden (das Ergebnis ist wahr), wenn Sie einen Regelsatz mit AWS Glue Data Quality auswerten.
- Regel
-
Ein DQDL Ausdruck, der Ihre Daten auf ein bestimmtes Merkmal überprüft und einen booleschen Wert zurückgibt. Weitere Informationen finden Sie unter Regelstruktur.
- Analysator
-
Ein DQDL Ausdruck, der Datenstatistiken sammelt. Ein Analysator sammelt Datenstatistiken, die von ML-Algorithmen verwendet werden können, um Anomalien und hard-to-detect Datenqualitätsprobleme im Laufe der Zeit zu erkennen.
- Regelsatz
-
Eine AWS Glue Ressource, die eine Reihe von Datenqualitätsregeln umfasst. Ein Regelsatz muss einer Tabelle im AWS Glue Data Catalog zugeordnet sein. Wenn Sie einen Regelsatz speichern, AWS Glue weist er dem Regelsatz einen Amazon-Ressourcennamen (ARN) zu.
- Datenqualitätswert
-
Der Prozentsatz der Datenqualitätsregeln, die erfüllt werden (Ergebnis ist wahr), wenn Sie einen Regelsatz mit folgenden Kriterien auswerten AWS Glue Datenqualität.
- Beobachtung
-
Eine unbestätigte Erkenntnis, generiert von AWS Glue durch die Analyse von Datenstatistiken, die im Laufe der Zeit anhand von Regeln und Analysatoren gesammelt wurden.
Einschränkungen
AWS Glue Einschränkungen des Datenqualitätsdienstes:
-
Ein Regelsatz kann 2.000 Regeln enthalten. Wenn Ihre Regelsätze größer sind, empfehlen wir, sie in mehrere Regelsätze aufzuteilen.
-
Die Größe des Regelsatzes beträgt 65 KB. Wenn Ihre Regelsätze größer sind, empfehlen wir, sie in mehrere Regelsätze aufzuteilen.
-
AWS Glue Data Quality sammelt Statistiken, wenn Sie eine Regel oder einen Analysator erstellen. Das Speichern dieser Statistiken ist mit keinen Kosten verbunden. Es gibt jedoch ein Limit von 100.000 Statistiken pro Konto, und diese Statistiken werden maximal zwei Jahre lang aufbewahrt.
Versionshinweise für AWS Glue Datenqualität
In diesem Thema werden die in AWS Glue Data Quality eingeführten Funktionen beschrieben.
Allgemeine Verfügbarkeit: neue Features
Die folgenden neuen Funktionen sind mit der allgemeinen Verfügbarkeit von AWS Glue Data Quality verfügbar:
Die Möglichkeit, festzustellen, welche Datensätze die Datenqualitätsprüfungen nicht bestanden haben, wird jetzt unterstützt in AWS Glue Studio
Neue Regeltypen für die Datenqualität, wie z. B. die Validierung der referenziellen Integrität von Daten zwischen zwei Datensätzen, der Vergleich von Daten zwischen zwei Datensätzen und Datentypprüfungen
Verbesserte Benutzererfahrung in der AWS Glue Data Catalog
Unterstützung für Apache Iceberg, Apache Hudi und Delta Lake
Unterstützung für Amazon Redshift
Vereinfachte Benachrichtigung mit Amazon EventBridge
AWS CloudFormation Unterstützung für die Erstellung von Regelsätzen
Leistungsverbesserungen: Caching-Option in ETL und AWS Glue Studio für eine schnellere Leistung bei der Bewertung der Datenqualität
22. November 2024
-
Neue Regeltypen zur Verwaltung der Datenqualität Ihrer Dateien
-
Standardmäßige Datenqualitätsprüfungen in ETL Visual-Jobs
27. November 2023 (Vorschau)
-
ML-gestützte Funktionen zur Erkennung von Anomalien sind jetzt verfügbar in AWS Glue ETL und AWS Glue Studio. Damit können Sie jetzt Anomalien und hard-to-detect Datenqualitätsprobleme erkennen
-
Mit Dynamic Rules können Sie dynamische Schwellenwerte angeben (z. B.:)
RowCount> avg(last(10))
12. März 2024
-
DQDLVerbesserungen
26. Juni 2024
-
DQDLVerbesserungen
-
DQDLunterstützt jetzt die WHERE-Klausel, sodass Sie Daten filtern können, bevor Sie DQ-Regeln anwenden
-
7. August 2024
-
Anomalieerkennung und dynamische Regeln sind jetzt allgemein verfügbar