Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
In diesem Abschnitt werden wir das Datenqualitäts-Dashboard und die verschiedenen Funktionen, die es bietet, untersuchen.
Visualisieren und verstehen Sie wichtige Kennzahlen und Trends zur Datenqualität
Sobald Ihr Job erfolgreich war, wählen Sie die Registerkarte Datenqualität, um die Datenqualitätswerte und Anomalien einzusehen.
Die folgenden Komponenten auf der Registerkarte „Datenqualität“ bieten nützliche Informationen.
-
Wählen Sie die Registerkarte Datenqualität, um Messwerte zur Datenqualität anzuzeigen.
-
Wählen Sie eine bestimmte Jobausführungs-ID aus, um den Datenqualitätswert anzuzeigen.
-
In diesem Bereich werden drei wichtige Informationen angezeigt. Sie können jede Tabelle auswählen, um zu bestimmten Tabellen zu navigieren, um Anomalien, Datenstatistiken oder Regeln anzuzeigen.
-
Bewertung der Datenqualität bei der Konfiguration von Regeln.
-
Anzahl der von Regeln und Analyzern gesammelten Statistiken.
-
Gesamtzahl der festgestellten Anomalien.
-
-
Dieses Trenddiagramm zeigt, wie sich die Datenqualität im Laufe der Zeit entwickelt. Sie können den Mauszeiger über den Trend bewegen und zu einem bestimmten Zeitpunkt wechseln, zu dem sich die Datenqualitätswerte verschlechtert haben.
-
Anomalie-Trends im Zeitverlauf zeigen Ihnen die Anzahl der im Laufe der Zeit erkannten Anomalien.
-
Tabs:
-
Die Registerkarte „Regeln“ ist die Standardregisterkarte, auf der eine Liste aller Regeln und des Status angezeigt wird. Evaluierte Regeln sind bei dynamischen Regeln nützlich, um den tatsächlichen Wert anzuzeigen, mit dem die Regel ausgewertet wurde.
-
Auf der Registerkarte „Statistik“ werden alle Statistiken aufgeführt, sodass Sie sich die Metriken und Trends im Zeitverlauf ansehen können.
-
Auf der Registerkarte „Anomalien“ wird die Liste der erkannten Anomalien angezeigt.
-
Anzeige von Anomalien und Training des Algorithmus zur Erkennung von Anomalien
Bitte geben Sie das Bild oben an:
-
Wenn Anomalien erkannt werden, klicken Sie auf die Anomalie oder wählen Sie die Registerkarte Anomalien
-
AWS Glue Data Quality bietet eine detaillierte Erklärung der Anomalie, des tatsächlichen Werts und des prognostizierten Bereichs
-
AWS Glue Data Quality zeigt eine Trendlinie. Sie hat den tatsächlichen Wert, einen abgeleiteten Trend, der auf den tatsächlichen Werten (rote Linie), der Obergrenze und der Untergrenze basiert
-
AWS Glue Data Quality empfiehlt Datenqualitätsregeln, anhand derer die Muster für die future erfasst werden können. Sie können alle Regeln, die Ihnen empfohlen werden, kopieren und auf Ihren Datenqualitätsknoten anwenden, um diese Muster effektiv zu erfassen.
-
Sie können Eingaben für das Modell des maschinellen Lernens (ML) bereitstellen, um anomale Werte auszuschließen und so sicherzustellen, dass future Läufe Anomalien genau erkennen. Wenn Sie Anomalien nicht explizit ausschließen, berücksichtigt AWS Glue Data Quality sie automatisch als Teil des Modells für future Prognosen. Es ist wichtig zu beachten, dass nur der letzte Lauf die von Ihnen eingegebenen Modelleingaben widerspiegelt. Wenn Sie beispielsweise zurückgegangen sind und anomale Punkte aus einigen vorherigen Durchläufen ausgeschlossen haben, spiegelt das Modell diese Änderungen nur wider, wenn Sie die Modelleingaben im letzten Lauf anzeigen und aktualisieren. Das Modell verwendet weiterhin die zuvor bereitgestellten Eingaben, bis Sie im letzten Durchlauf die erforderlichen Anpassungen vorgenommen haben. Indem Sie den Ausschluss anomaler Werte aktiv verwalten, können Sie das ML-Modell besser verstehen, was eine Anomalie für Ihre spezifischen Datenmuster und Anforderungen darstellt, was im Laufe der Zeit zu einer genaueren Erkennung von Anomalien führt.
Anzeige von Datenstatistiken im Zeitverlauf und Bereitstellung von Trainingsinformationen
Manchmal möchten Sie vielleicht Datenstatistiken oder Datenprofile einsehen und sehen, wie sie sich im Laufe der Zeit entwickeln. Wählen Sie dazu Statistik oder öffnen Sie den Tab Statistik. Sie können sich dann die neuesten Datenstatistiken ansehen, die von AWS Glue Data Quality gesammelt wurden.
Wenn Sie auf Trends anzeigen klicken, wird Ihnen angezeigt, wie sich die einzelnen Statistiken im Laufe der Zeit entwickeln.
-
Sie können die Statistik für eine bestimmte Spalte auswählen
-
Sie können sehen, wie sich die Trends entwickeln
-
Sie können ungewöhnliche Werte auswählen und diese ausschließen oder einbeziehen. Durch die Bereitstellung dieses Feedbacks schließt der Algorithmus die identifizierten anomalen Datenpunkte entweder aus oder schließt sie ein und trainiert das Modell erneut. Dieser Umschulungsprozess gewährleistet in Zukunft eine genaue Erkennung von Anomalien, da das Modell aus dem Feedback, das Sie gegeben haben, lernt, welche Werte als anomal angesehen werden sollten oder nicht.
Durch diese Feedback-Schleife haben Sie die Möglichkeit, das Verständnis des Algorithmus dahingehend zu verfeinern, was eine Anomalie für Ihre spezifischen Datenmuster und Geschäftsanforderungen darstellt. Durch das Ausschließen von Werten, die nicht als Anomalien gekennzeichnet werden sollten, oder durch das Einbeziehen von Werten, die nicht als Anomalien gekennzeichnet werden sollten, kann das neu trainierte Modell besser zwischen erwarteten und wirklich anomalen Datenpunkten unterscheiden.