Datenaufbereitung - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenaufbereitung

Anmerkung

Zuvor war Amazon SageMaker Data Wrangler Teil des SageMaker Studio Classic-Erlebnisses. Wenn Sie jetzt auf das neue Studio-Erlebnis umsteigen, müssen Sie SageMaker Canvas verwenden, um auf Data Wrangler zuzugreifen und die neuesten Funktionsupdates zu erhalten. Wenn Sie Data Wrangler bisher in Studio Classic verwendet haben und zu Data Wrangler in Canvas migrieren möchten, müssen Sie möglicherweise zusätzliche Berechtigungen gewähren, damit Sie eine Canvas-Anwendung erstellen und verwenden können. Weitere Informationen finden Sie unter (Optional) Migrieren Sie von Data Wrangler in Studio Classic zu Canvas SageMaker .

Informationen zur Migration Ihrer Datenflüsse von Data Wrangler in Studio Classic finden Sie unter. (Optional) Migrieren Sie Daten von Studio Classic zu Studio

Verwenden Sie Amazon SageMaker Data Wrangler in Amazon SageMaker Canvas, um Ihre Daten vorzubereiten, zu strukturieren und zu analysieren. Sie können einen Data Wrangler-Datenvorbereitungsablauf in Ihre Workflows für Machine Learning (ML) integrieren, um die Datenvorverarbeitung und das Feature-Engineering mit wenig bis gar keiner Codierung zu vereinfachen und zu optimieren. Sie können auch Ihre eigenen Python-Skripts und -Transformationen hinzufügen, um Workflows anzupassen.

  • Daten-Flow – Erstellen Sie einen Daten-Flow, um eine Reihe von Schritten zur ML-Datenvorbereitung zu definieren. Sie können einen Flow verwenden, um Datensätze aus verschiedenen Datenquellen zu kombinieren, die Anzahl und die Typen von Transformationen zu ermitteln, die Sie auf Datensätze anwenden möchten, und einen Datenvorbereitungsworkflow zu definieren, der in eine ML-Pipeline integriert werden kann.

  • Transformieren – Bereinigen und transformieren Sie Ihren Datensatz mithilfe von Standardtransformationen wie String-, Vektor- und numerischen Datenformatierungstools. Präsentieren Sie Ihre Daten mithilfe von Transformationen wie Text- und Datums-/Uhrzeiteinbettung und kategorischer Kodierung.

  • Generieren Sie Dateneinblicke — Überprüfen Sie automatisch die Datenqualität und erkennen Sie Auffälligkeiten in Ihren Daten mit dem Data Wrangler Data Quality and Insights Report.

  • Analysieren – Analysieren Sie Features in Ihrem Datensatz an jedem beliebigen Punkt Ihres Daten-Flows. Data Wrangler umfasst integrierte Tools zur Datenvisualisierung wie Streudiagramme und Histogramme sowie Datenanalysetools wie Target Leakage Analysis und Schnellmodellierung, um die Merkmalskorrelation zu verstehen.

  • Export – Exportieren Sie Ihren Datenvorbereitungs-Workflow an einen anderen Ort. Im Folgenden finden Sie Beispiele für Standorte:

    • Amazon Simple Storage Service (Amazon S3)-Bucket

    • Amazon SageMaker Feature Store — Speichern Sie die Funktionen und ihre Daten in einem zentralen Speicher.

  • Automatisieren Sie die Datenaufbereitung — Erstellen Sie anhand Ihres Datenflusses Workflows für maschinelles Lernen.

    • Amazon SageMaker Pipelines — Erstellen Sie Workflows, die Ihre SageMaker Datenvorbereitung, Modelltraining und Modellbereitstellung verwalten.

    • Pipeline für serielle Inferenzen — Erstellen Sie aus Ihrem Datenfluss eine Pipeline für serielle Inferenzen. Verwenden Sie sie, um Vorhersagen über neue Daten zu treffen.

    • Python-Skript – Speichern Sie die Daten und ihre Transformationen in einem Python-Skript für Ihre benutzerdefinierten Workflows.