Konfiguration der Anomalieerkennung in AWS Glue-Jobs ETL - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Konfiguration der Anomalieerkennung in AWS Glue-Jobs ETL

Um mit der Erkennung von Anomalien in AWS Glue Studio zu beginnen, öffnen Sie einen AWS Glue Studio-Job und klicken Sie auf „Evaluate Data Quality Transform“.

Wenn Sie diese Funktion aktivieren, analysiert AWS Glue Data Quality Ihre Daten im Laufe der Zeit, um Anomalien zu erkennen. Es bietet wertvolle Datenstatistiken und Beobachtungen zu Ihren Daten, sodass Sie bei identifizierten Anomalien Maßnahmen ergreifen können.

Lesen Sie die Dokumentation zur Erkennung von Anomalien, um mehr über die Funktionsweise dieser Funktion zu erfahren.

Aktivierung der Anomalieerkennung

Sie aktivieren die Anomalieerkennung in AWS Glue Studio wie folgt:
  1. Wählen Sie in Ihrem Auftrag den Knoten Datenqualität und anschließend die Registerkarte Anomalieerkennung aus. Schalten Sie diese Option ein, um die Option „Erkennung von Anomalien aktivieren“ zu aktivieren.

    Der Screenshot zeigt die eingeschaltete Option „Anomalieerkennung aktivieren“. Dies kann ein- oder ausgeschaltet werden.
  2. Legen Sie fest, welche Daten auf Anomalien überwacht werden sollen, indem Sie Analysator hinzufügen auswählen. Es gibt zwei Felder, die Sie ausfüllen können: Statistik und Daten.

    • Statistiken sind Informationen über die Form und andere Eigenschaften Ihrer Daten. Sie können eine oder mehrere Statistiken gleichzeitig auswählen oder Alle Statistiken auswählen. Zu den Statistiken gehören: Vollständigkeit, Eindeutigkeit, Mittelwert, Summe StandardDeviation, Entropie und mehr DistinctValuesCount. UniqueValueRatio Weitere Informationen finden Sie in der Analyzer-Dokumentation.

    • Daten sind die Spalten in Ihrem Datensatz. Sie können alle oder einzelne Spalten auswählen.

    Der Screenshot zeigt die Felder für Statistiken und Daten. Sie können auswählen, welche Statistiken auf Ihren Datensatz angewendet werden sollen und für welche Spalten.
  3. Wählen Sie Anomalieerkennungsbereich hinzufügen aus, um die Änderungen zu speichern. Nachdem Sie Analysatoren hinzugefügt haben, können Sie sie im Bereich Bereich der Anomalieerkennung sehen.

    Sie können Ihre Analysatoren auch über das Aktionsmenü bearbeiten oder die Registerkarte Regelsatz-Editor auswählen und sie direkt im Notizblock des Regelsatz-Editors bearbeiten. Sie sehen die Analysatoren, die Sie unter den von Ihnen erstellten Regeln gespeichert haben.

    Rules = [ ] Analyzers = [ Completeness “id” ]

Sobald der aktualisierte Regelsatz und die Analysatoren konfiguriert sind, überwacht AWS Glue Data Quality kontinuierlich eingehende Datenströme. Je nach Ihren Einstellungen kann es potenzielle Anomalien durch Warnmeldungen oder Jobstopps signalisieren. Diese proaktive Überwachung trägt dazu bei, die Datenqualität und -integrität in Ihren Daten-Pipelines sicherzustellen.

Im nächsten Abschnitt erfahren Sie, wie Sie die vom System identifizierten Anomalien effektiv überwachen können. Sie erfahren auch, wie Sie die von AWS Glue Data Quality gesammelten Datenstatistiken anzeigen und analysieren können. Darüber hinaus erfahren Sie, wie Sie Feedback zu dem Modell des maschinellen Lernens geben können, das die Funktion zur Erkennung von Anomalien unterstützt. Diese Feedback-Schleife ist entscheidend, um die Genauigkeit des Modells zu verbessern und sicherzustellen, dass es Anomalien, die Ihren spezifischen Geschäftsanforderungen und Datenmustern entsprechen, effektiv erkennen kann.