Empfehlungen für die Auswahl des richtigen Tools zur Datenaufbereitung in SageMaker KI

Datenvorbereitung beim maschinellen Lernen bezieht sich auf den Prozess des Sammelns, Vorverarbeitens und Organisierens von Rohdaten, um sie für die Analyse und Modellierung geeignet zu machen. Dieser Schritt stellt sicher, dass die Daten in einem Format vorliegen, aus dem Algorithmen für maschinelles Lernen effektiv lernen können. Zu den Aufgaben der Datenvorbereitung können der Umgang mit fehlenden Werten, das Entfernen von Ausreißern, die Skalierung von Merkmalen, die Kodierung kategorialer Variablen, die Bewertung potenzieller Verzerrungen und die Ergreifung von Maßnahmen zu ihrer Minderung, die Aufteilung der Daten in Trainings- und Testsätze, die Kennzeichnung und andere notwendige Transformationen gehören, um die Qualität und Verwendbarkeit der Daten für nachfolgende maschinelle Lernaufgaben zu optimieren.

Auswählen eines Features

Es gibt drei Hauptanwendungsfälle für die Datenaufbereitung mit Amazon SageMaker AI. Wählen Sie den Anwendungsfall aus, der Ihren Anforderungen entspricht, und lesen Sie dann die entsprechende empfohlene Funktion.

Anwendungsfälle

Im Folgenden sind die wichtigsten Anwendungsfälle bei der Datenvorbereitung für Machine Learning aufgeführt.

Anwendungsfall 1: Für diejenigen, die eine visuelle Oberfläche bevorzugen, bietet SageMaker KI Möglichkeiten, Funktionen für das Modelltraining in einer Point-and-Click-Umgebung zu erkunden, vorzubereiten und zu entwickeln.
Anwendungsfall 2: Für Benutzer, die mit der Programmierung vertraut sind und mehr Flexibilität und Kontrolle über die Datenvorbereitung wünschen, integriert SageMaker KI Tools für Erkundung, Transformationen und Feature-Engineering in ihre Codierungsumgebungen.
Anwendungsfall 3: Für Benutzer, die sich auf skalierbare Datenaufbereitung konzentrieren, bietet SageMaker KI serverlose Funktionen, die das Hadoop/Spark Ökosystem für die verteilte Verarbeitung großer Datenmengen nutzen.

Empfohlene Features

In der folgenden Tabelle sind die wichtigsten Überlegungen und Kompromisse für die SageMaker KI-Funktionen für jeden Anwendungsfall der Datenvorbereitung für maschinelles Lernen aufgeführt. Identifizieren Sie zunächst den Anwendungsfall, der Ihren Anforderungen entspricht, und navigieren Sie zu der empfohlenen SageMaker KI-Funktion.

Deskriptor	Anwendungsfall 1	Anwendungsfall 2	Anwendungsfall 3
SageMaker KI-Funktion	Data Wrangler in Amazon Canvas SageMaker	Datenaufbereitung mit SQL in Studio	Daten vorbereiten mit EMR Serverless-Anwendungen in Studio
Description	SageMaker Canvas ist eine visuelle Low-Code-Umgebung zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen in KI. SageMaker Das integrierte Data Wrangler-Tool ermöglicht es Benutzern, Datensätze durch Point-and-Click-Interaktionen zu kombinieren, zu transformieren und zu bereinigen.	Mit der SQL-Erweiterung in Studio können Benutzer eine Verbindung zu Amazon Redshift, Snowflake, Athena und Amazon S3 herstellen, um Ad-hoc-SQL-Abfragen zu erstellen und eine Vorschau der Ergebnisse in Notizbüchern anzuzeigen. JupyterLab Die Ausgabe dieser Abfragen kann mithilfe von und zur zusätzlichen Verarbeitung, Visualisierung Python und Umwandlung in Formate manipuliert werden, Pandas die für die Modellentwicklung mit maschinellem Lernen verwendet werden können.	Die Integration zwischen EMR Serverless und Amazon SageMaker Studio bietet eine skalierbare serverlose Umgebung für die groß angelegte Datenvorbereitung für maschinelles Lernen mithilfe von Open-Source-Frameworks wie Apache Spark und Apache Hive. Benutzer können von ihren Studio-Notebooks aus direkt auf serverlose EMR-Anwendungen und -Daten zugreifen, um ihre Datenvorbereitungsaufgaben in großem Umfang durchzuführen.
Optimiert für	Verwenden Sie eine visuelle Oberfläche, in der Sie: Pipelines zur Datenaufbereitung erstellen Durchführen von Datenanalysen Transformieren Sie Daten mithilfe integrierter Transformationen Verwenden Sie Gen-Anweisungen in AI-powered natürlicher Sprache für Datentransformationen Optimiert für tabellarische Datenaufgaben wie den Umgang mit fehlenden Werten, die Kodierung kategorialer Variablen und die Anwendung von Datentransformationen.	Für Benutzer, deren Daten in Amazon Redshift, Snowflake, Athena oder Amazon S3 gespeichert sind und die explorative SQL für die Datenanalyse und Python kombinieren möchten, ohne sich in neue Technologien einarbeiten zu müssen.	Für Benutzer, die ein serverloses Erlebnis mit automatischer Ressourcenbereitstellung und Terminierung für die Skalierung kurzzeitiger oder intermittierender interaktiver Workloads rund um Apache Spark bevorzugen und gleichzeitig die Vorteile der maschinellen Lernfunktionen von KI nutzen möchten. SageMaker
Überlegungen	Es ist möglicherweise nicht die optimale Wahl, wenn Ihr Team bereits über Kenntnisse in Python, Spark oder anderen Sprachen verfügt. Es ist möglicherweise nicht die beste Lösung, wenn Sie volle Flexibilität benötigen, um Transformationen anzupassen, um komplexe Geschäftslogik hinzuzufügen, oder wenn Sie die volle Kontrolle über Ihre Datenverarbeitungsumgebung benötigen.	Diese Funktion ist nur für strukturierte Daten konzipiert, die sich in Amazon Redshift, Snowflake, Athena oder Amazon S3 befinden. Wenn die Größe Ihrer Abfrageergebnisse Ihren SageMaker KI-Instanzspeicher übersteigt, finden Sie im folgenden Notizbuch Informationen zu den ersten Schritten mit Athena, um Ihre Daten für die Aufnahme durch einen SageMaker KI-Algorithmus vorzubereiten.	Die Lernkurve für Benutzer, die mit den serverlosen EMR-Anwendungen und Spark-based -Tools nicht vertraut sind, kann eine Herausforderung sein. Diese Funktion eignet sich besser für interaktive Datenvorbereitungsaufgaben und ist möglicherweise nicht so effizient wie Amazon EMR-Cluster für umfangreiche, lang andauernde oder komplexe Datenverarbeitungsanforderungen mit riesigen Datenmengen, umfassender Integration mit anderen Services, benutzerdefinierten Anwendungen oder diversen verteilten Datenverarbeitungs-Frameworks, die über Apache Spark hinausgehen. Serverloses Computing kann zwar für kurzlebige Aufgaben kostengünstig sein, es ist jedoch wichtig, die Kosten sorgfältig zu überwachen und zu verwalten, insbesondere bei lang andauernden oder ressourcenintensiven Workloads.
Empfohlene Umgebung	Erste Schritte mit der Verwendung von Canvas SageMaker	Starten Sie Studio	Starten Sie Studio

Zusätzliche Optionen

SageMaker KI bietet die folgenden zusätzlichen Optionen zur Vorbereitung Ihrer Daten für die Verwendung in Modellen für maschinelles Lernen.

Datenaufbereitung mit Amazon EMR: Für lang andauernde, rechenintensive und umfangreiche Datenverarbeitungsaufgaben sollten Sie die Verwendung von Amazon EMR-Clustern von Studio in Betracht ziehen. SageMaker Amazon EMR-Cluster sind für massive Parallelisierung konzipiert und können auf Hunderte oder Tausende von Knoten skaliert werden, sodass sie sich gut für Big-Data-Workloads eignen, die Frameworks wie Apache Spark, Hadoop, Hive und Presto erfordern. Durch die Integration von Amazon EMR mit SageMaker Studio können Sie die Skalierbarkeit und Leistung von Amazon EMR nutzen und gleichzeitig Ihre gesamten ML-Experimente, Modellschulungen und -bereitstellungen in der SageMaker Studio-Umgebung zentralisieren und verwalten.
Bereiten Sie Daten mithilfe interaktiver Glue-Sitzungen vor: Sie können die Spark-based serverlose Apache Engine aus AWS Glue interaktiven Sitzungen verwenden, um Daten aus mehreren Quellen in Studio zu aggregieren, zu transformieren und aufzubereiten. SageMaker
Identifizieren Sie Verzerrungen in Trainingsdaten mithilfe von Amazon SageMaker Clarif-Verarbeitungsjobs: SageMaker Clarify analysiert Ihre Daten und erkennt potenzielle Verzerrungen in mehreren Facetten. Sie können beispielsweise die Clarify API in Studio verwenden, um zu erkennen, ob Ihre Trainingsdaten unausgewogene Repräsentationen oder Kennzeichnungsfehler zwischen Gruppen wie Geschlecht, Rasse oder Alter enthalten. Clarify kann Ihnen helfen, diese Verzerrungen zu identifizieren, bevor Sie ein Modell trainieren, um zu verhindern, dass sich Verzerrungen in den Vorhersagen des Modells ausbreiten.
Funktionen erstellen, speichern und teilen: Amazon SageMaker Feature Store optimiert die Entdeckung und Wiederverwendung kuratierter Funktionen für maschinelles Lernen. Es bietet ein zentrales Repository zum Speichern von Funktionsdaten, die für das Modelltraining durchsucht und abgerufen werden können. Das Speichern von Features in einem standardisierten Format ermöglicht die Wiederverwendung in ML-Projekten. Der Feature Store verwaltet den gesamten Lebenszyklus von Funktionen, einschließlich der Nachverfolgung der Herkunft, Statistiken und Prüfpfade für skalierbares und kontrolliertes Feature-Engineering mit maschinellem Lernen.
Kennzeichnen Sie Daten mit einem Menschen in der Schleife: Sie können SageMaker Ground Truth verwenden, um die Datenkennzeichnungsworkflows Ihrer Trainingsdatensätze zu verwalten.
Verwenden Sie die SageMaker Verarbeitungs-API : Nachdem Sie eine explorative Datenanalyse durchgeführt und Ihre Schritte zur Datentransformation erstellt haben, können Sie Ihren Transformationscode mithilfe von SageMaker KI-Verarbeitungsjobs produzieren und Ihren Vorbereitungsworkflow mithilfe von Model Building Pipelines automatisieren. SageMaker

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

API-Referenzen

Datenaufbereitung mit SQL in Studio