Generieren Sie in Studio Berichte über Verzerrungen in SageMaker Daten vor dem Training - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Generieren Sie in Studio Berichte über Verzerrungen in SageMaker Daten vor dem Training

SageMaker Clarify ist in Amazon SageMaker Data Wrangler integriert, sodass Sie Verzerrungen bei der Datenvorbereitung erkennen können, ohne Ihren eigenen Code schreiben zu müssen. Data Wrangler bietet eine end-to-end Lösung zum Importieren, Vorbereiten, Transformieren, Funktionalisieren und Analysieren von Daten mit Amazon Studio. SageMaker Eine Übersicht über den Data Wrangler-Workflow zur Datenvorbereitung finden Sie unter Vorbereiten von ML-Daten mit Amazon SageMaker Data Wrangler.

Sie geben interessante Attribute wie Geschlecht oder Alter an, und SageMaker Clarify führt eine Reihe von Algorithmen aus, um das Vorhandensein von Verzerrungen in diesen Attributen zu erkennen. Nach der Ausführung des Algorithmus erstellt SageMaker Clarify einen visuellen Bericht mit einer Beschreibung der Ursachen und des Schweregrads möglicher Verzerrungen, sodass Sie Maßnahmen zur Minderung planen können. Beispiel: In einem Finanzdatensatz, der nur wenige Beispiele für Geschäftskredite an eine Altersgruppe im Vergleich zu anderen enthält, wird das SageMaker Ungleichgewicht gekennzeichnet, sodass Sie ein Modell vermeiden können, das diese Altersgruppe benachteiligt.

Um Datenverzerrungen zu analysieren und darüber zu berichten

Informationen zum Einstieg in Data Wrangler finden Sie unter Erste Schritte mit Data Wrangler.

  1. Navigieren Sie in Amazon SageMaker Studio Classic im Menü Home ( Black square icon representing a placeholder or empty image. ) im linken Bereich zum Knoten Data und wählen Sie dann Data Wrangler. Dadurch wird die Data Wrangler-Landingpage in Studio Classic geöffnet.

  2. Wählen Sie die Schaltfläche + Daten importieren, um einen neuen Flow zu erstellen.

  3. Wählen Sie auf Ihrer Flow-Seite auf der Registerkarte Import Amazon S3 aus, navigieren Sie zu Ihrem Amazon-S3-Bucket, suchen Sie Ihren Datensatz und wählen Sie dann Import aus.

  4. Nachdem Sie Ihre Daten importiert haben, wählen Sie im Flussdiagramm auf der Registerkarte Datenfluss das + rechts neben dem Knoten Datentypen aus.

  5. Wählen Sie Analyse hinzufügen.

  6. Wählen Sie auf der Seite Analyse erstellen die Option Bias Report als Analysetyp aus.

  7. Konfigurieren Sie den Verzerrungsbericht, indem Sie einen Berichtsnamen, die Spalte, die vorhergesagt werden soll, angeben, ob es sich um einen Wert oder einen Schwellenwert handelt, die Spalte, die auf Verzerrungen analysiert werden soll (die Facet) und ob es sich um einen Wert oder einen Schwellenwert handelt.

  8. Fahren Sie mit der Konfiguration des Biasberichts fort, indem Sie die Bias-Metriken auswählen.

    Wählen Sie die Bias-Metrik aus.
  9. Wählen Sie Auf Verzerrungen prüfen aus, um den Bias-Bericht zu erstellen und anzuzeigen. Scrollen Sie nach unten, um alle Berichte zu sehen.

    Generieren Sie den Bericht über Verzerrungen und zeigen Sie ihn an.
  10. Klicken Sie auf den Mauszeiger rechts neben der Beschreibung der Messwerte für systematische Abweichungen, um die Dokumentation aufzurufen, die Ihnen bei der Interpretation der Signifikanz der Metrikwerte helfen kann.

  11. Um eine tabellarische Zusammenfassung der Bias-Metrikwerte anzuzeigen, wählen Sie den Schalter Tabelle. Zum Speichern des Berichts wählen Sie in der unteren rechten Ecke der Seite Speichern aus. Sie können den Bericht im Flussdiagramm auf der Registerkarte Datenfluss sehen. Klicken Sie doppelt auf den Bericht, um ihn zu öffnen.