Qualität der Daten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Qualität der Daten

Die Datenqualitätsüberwachung überwacht automatisch Modelle für Machine Learning (ML) in der Produktion und benachrichtigt Sie, wenn Probleme mit der Datenqualität auftreten. ML-Modelle in der Produktion müssen Vorhersagen zu realen Daten machen, die nicht so sorgfältig wie die meisten Trainingsdatensätze geordnet sind. Wenn die statistische Beschaffenheit der Daten, die Ihr Modell während der Produktion erhält, von der Beschaffenheit der Basisdaten, auf denen es trainiert wurde, abweicht, verliert das Modell an Genauigkeit bei seinen Vorhersagen. Amazon SageMaker Model Monitor verwendet Regeln, um Datenabweichungen zu erkennen, und benachrichtigt Sie, wenn sie auftreten. Gehen Sie folgendermaßen vor, um die Datenqualität zu überwachen:

  • Aktivieren der Datenerfassung. Dadurch werden Inferenzeingaben und -ausgaben von einem Echtzeit-Inferenzendpunkt oder einem Batch-Transformationsauftrag erfasst und die Daten in Amazon S3 gespeichert. Weitere Informationen finden Sie unter Datenerfassung.

  • Erstellen einer Baseline. In diesem Schritt führen Sie einen Baseline-Auftrag aus, der einen von Ihnen bereitgestellten Eingabedatensatz analysiert. Berechnen Sie Baseline-Schema-Einschränkungen und -Statistiken für jede Feature mit Deequ, einer Open-Source-Bibliothek, die auf Apache Spark basiert und zur Messung der Datenqualität in großen Datensätzen verwendet wird. Weitere Informationen finden Sie unter Erstellen einer Baseline.

  • Definieren und planen Sie Aufträge zur Überwachung der Datenqualität. Spezifische Informationen und Codebeispiele für Aufträge zur Überwachung der Datenqualität finden Sie unter Planen Sie Aufträge zur Überwachung der Datenqualität. Allgemeine Informationen zu Überwachungsaufträgen finden Sie unter Zeitplan für Überwachungsaufgaben.

    • Verwenden Sie optional Vor- und Nachverarbeitungsskripten, um die Daten aus Ihrer Datenqualitätsanalyse zu transformieren. Weitere Informationen finden Sie unter Vorverarbeitung und Nachbearbeitung.

  • Messwerte zur Datenqualität anzeigen. Weitere Informationen finden Sie unter Schema für Statistiken (Datei statistics.json).

  • Integrieren Sie die Datenqualitätsüberwachung mit Amazon CloudWatch. Weitere Informationen finden Sie unter CloudWatch Metriken.

  • Interpretieren Sie die Ergebnisse eines Überwachungsauftrags. Weitere Informationen finden Sie unter Interpretieren von Ergebnissen.

  • Verwenden Sie SageMaker Studio, um die Datenqualitätsüberwachung zu aktivieren und Ergebnisse zu visualisieren, wenn Sie einen Echtzeit-Endpunkt verwenden. Weitere Informationen finden Sie unter Visualisieren Sie Ergebnisse für Echtzeit-Endgeräte in Amazon Studio SageMaker .

Anmerkung

Model Monitor berechnet Modellmetriken und Statistiken nur anhand von Tabellendaten. Beispielsweise kann ein Bildklassifizierungsmodell, das Bilder als Eingabe verwendet und ein auf diesem Bild basierendes Etikett ausgibt, weiterhin überwacht werden. Model Monitor wäre in der Lage, Metriken und Statistiken für die Ausgabe zu berechnen, nicht für die Eingabe.