Datenaufbereitung

Anmerkung

Zuvor war Amazon SageMaker Data Wrangler Teil des SageMaker Studio Classic-Erlebnisses. Wenn Sie jetzt auf das neue Studio-Erlebnis umsteigen, müssen Sie SageMaker Canvas verwenden, um auf Data Wrangler zuzugreifen und die neuesten Funktionsupdates zu erhalten. Wenn Sie bisher Data Wrangler in Studio Classic verwendet haben und zu Data Wrangler in Canvas migrieren möchten, müssen Sie möglicherweise zusätzliche Berechtigungen erteilen, damit Sie eine Canvas-Anwendung erstellen und verwenden können. Weitere Informationen finden Sie unter (Optional) Migrieren Sie von Data Wrangler in Studio Classic zu Canvas SageMaker.

Informationen zur Migration Ihrer Datenflüsse von Data Wrangler in Studio Classic finden Sie unter (Optional) Migrieren von Daten von Studio Classic zu Studio.

Verwenden Sie Amazon SageMaker Data Wrangler in Amazon SageMaker Canvas, um Ihre Daten vorzubereiten, zu strukturieren und zu analysieren. Sie können einen Data Wrangler-Datenvorbereitungsablauf in Ihre Workflows für Machine Learning (ML) integrieren, um die Datenvorverarbeitung und das Feature-Engineering mit wenig bis gar keiner Codierung zu vereinfachen und zu optimieren. Sie können auch Ihre eigenen Python-Skripts und -Transformationen hinzufügen, um Workflows anzupassen.

Daten-Flow – Erstellen Sie einen Daten-Flow, um eine Reihe von Schritten zur ML-Datenvorbereitung zu definieren. Sie können einen Flow verwenden, um Datensätze aus verschiedenen Datenquellen zu kombinieren, die Anzahl und die Typen von Transformationen zu ermitteln, die Sie auf Datensätze anwenden möchten, und einen Datenvorbereitungsworkflow zu definieren, der in eine ML-Pipeline integriert werden kann.
Transformieren – Bereinigen und transformieren Sie Ihren Datensatz mithilfe von Standardtransformationen wie String-, Vektor- und numerischen Datenformatierungstools. Präsentieren Sie Ihre Daten mithilfe von Transformationen wie Text und Einbettung sowie kategorischer Kodierung. date/time
Dateneinblicke generieren – Überprüfen Sie automatisch die Datenqualität und erkennen Sie Anomalien in Ihren Daten mit dem Datenqualitäts- und Insights-Bericht von Data Wrangler.
Analysieren – Analysieren Sie Features in Ihrem Datensatz an jedem beliebigen Punkt Ihres Daten-Flows. Data Wrangler umfasst integrierte Tools zur Datenvisualisierung wie Streudiagramme und Histogramme sowie Datenanalysetools wie Target Leakage Analysis und Schnellmodellierung, um die Merkmalskorrelation zu verstehen.
Export – Exportieren Sie Ihren Datenvorbereitungs-Workflow an einen anderen Ort. Im Folgenden finden Sie Beispiele für Standorte:
- Amazon Simple Storage Service (Amazon S3)-Bucket
- Amazon SageMaker Feature Store — Speichern Sie die Funktionen und ihre Daten in einem zentralen Speicher.
Datenvorbereitung automatisieren – Erstellen Sie anhand Ihres Datenflusses Workflows für Machine Learning.
- Amazon SageMaker Pipelines — Erstellen Sie Workflows, die Ihre SageMaker KI-Datenvorbereitung, das Modelltraining und die Modellbereitstellung verwalten.
- Serielle Inferenz-Pipeline – Erstellen Sie eine serielle Inferenz-Pipeline aus Ihrem Datenfluss. Verwenden Sie sie, um Vorhersagen für neue Daten zu treffen.
- Python-Skript – Speichern Sie die Daten und ihre Transformationen in einem Python-Skript für Ihre benutzerdefinierten Workflows.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Re-import ein gelöschter Beispieldatensatz

Erstellen eines Datenablaufs