Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Empfehlungen für die Auswahl des richtigen Tools zur Datenaufbereitung in SageMaker KI

Fokusmodus
Empfehlungen für die Auswahl des richtigen Tools zur Datenaufbereitung in SageMaker KI - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenvorbereitung beim maschinellen Lernen bezieht sich auf den Prozess des Sammelns, Vorverarbeitens und Organisierens von Rohdaten, um sie für die Analyse und Modellierung geeignet zu machen. Dieser Schritt stellt sicher, dass die Daten in einem Format vorliegen, aus dem Algorithmen für maschinelles Lernen effektiv lernen können. Zu den Aufgaben der Datenvorbereitung können der Umgang mit fehlenden Werten, das Entfernen von Ausreißern, das Skalieren von Merkmalen, die Kodierung kategorialer Variablen, die Bewertung potenzieller Verzerrungen und die Ergreifung von Maßnahmen zu ihrer Minderung, die Aufteilung der Daten in Trainings- und Testsätze, Kennzeichnung und andere notwendige Transformationen gehören, um die Qualität und Verwendbarkeit der Daten für nachfolgende maschinelle Lernaufgaben zu optimieren.

Wählen Sie eine Funktion

Es gibt drei Hauptanwendungsfälle für die Datenaufbereitung mit Amazon SageMaker AI. Wählen Sie den Anwendungsfall aus, der Ihren Anforderungen entspricht, und lesen Sie dann die entsprechende empfohlene Funktion.

Anwendungsfälle

Im Folgenden sind die wichtigsten Anwendungsfälle bei der Datenvorbereitung für Machine Learning aufgeführt.

  • Anwendungsfall 1: Für diejenigen, die eine visuelle Oberfläche bevorzugen, bietet SageMaker KI Möglichkeiten, Funktionen für das Modelltraining in einer point-and-click Umgebung zu erkunden, vorzubereiten und zu entwickeln.

  • Anwendungsfall 2: Für Benutzer, die mit dem Programmieren vertraut sind und mehr Flexibilität und Kontrolle über die Datenvorbereitung wünschen, integriert SageMaker KI Tools für Erkundung, Transformationen und Feature-Engineering in ihre Codierungsumgebungen.

  • Anwendungsfall 3: Für Benutzer, die sich auf skalierbare Datenaufbereitung konzentrieren, bietet SageMaker KI serverlose Funktionen, die das Hadoop/Spark-Ökosystem für die verteilte Verarbeitung großer Datenmengen nutzen.

In der folgenden Tabelle werden die wichtigsten Überlegungen und Kompromisse für die SageMaker KI-Funktionen im Zusammenhang mit den einzelnen Anwendungsfällen der Datenvorbereitung für maschinelles Lernen beschrieben. Identifizieren Sie zunächst den Anwendungsfall, der Ihren Anforderungen entspricht, und navigieren Sie zu der empfohlenen SageMaker KI-Funktion.

Deskriptor Anwendungsfall 1 Anwendungsfall 2 Anwendungsfall 3
SageMaker KI-Funktion Data Wrangler in Amazon Canvas SageMaker Datenaufbereitung mit SQL in Studio Daten mit EMR Serverless vorbereitenAnwendungen in Studio
Beschreibung SageMaker Canvas ist eine visuelle Low-Code-Umgebung zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen in SageMaker KI. Das integrierte Data Wrangler-Tool ermöglicht es Benutzern, Datensätze durch Interaktionen zu kombinieren, zu transformieren und zu bereinigen. point-and-click Mit der SQL-Erweiterung in Studio können Benutzer eine Verbindung zu Amazon Redshift, Snowflake, Athena und Amazon S3 herstellen, um Ad-hoc-SQL-Abfragen zu erstellen und eine Vorschau der Ergebnisse in Notizbüchern anzuzeigen. JupyterLab Die Ausgabe dieser Abfragen kann wie folgt manipuliert werden Python and Pandas für zusätzliche Verarbeitung, Visualisierung und Umwandlung in Formate, die für die Modellentwicklung mit maschinellem Lernen verwendet werden können. Die Integration zwischen EMR Serverless und Amazon SageMaker Studio bietet eine skalierbare serverlose Umgebung für die groß angelegte Datenvorbereitung für maschinelles Lernen mithilfe von Open-Source-Frameworks wie Apache Spark und Apache Hive. Benutzer können von ihren Studio-Notebooks aus direkt auf serverlose EMR-Anwendungen und -Daten zugreifen, um ihre Datenvorbereitungsaufgaben in großem Umfang durchzuführen.
Optimiert für Verwenden Sie eine visuelle Oberfläche, in der Sie:

Optimiert für tabellarische Datenaufgaben wie den Umgang mit fehlenden Werten, die Kodierung kategorialer Variablen und die Anwendung von Datentransformationen.

Für Benutzer, deren Daten sich in Amazon Redshift, Snowflake, Athena oder Amazon S3 befinden und die exploratives SQL kombinieren möchten und Python für die Datenanalyse und -aufbereitung ohne Lernaufwand Spark. Für Benutzer, die ein serverloses Erlebnis mit automatischer Ressourcenbereitstellung und Terminierung für die Skalierung kurzzeitiger oder intermittierender interaktiver Workloads rund um Apache Spark bevorzugen und gleichzeitig die Vorteile der maschinellen Lernfunktionen von SageMaker KI nutzen.
Überlegungen
  • Es ist möglicherweise nicht die optimale Wahl, wenn Ihr Team bereits über Kenntnisse in Python, Spark oder anderen Sprachen verfügt.

  • Es ist möglicherweise nicht die beste Lösung, wenn Sie volle Flexibilität benötigen, um Transformationen anzupassen, um komplexe Geschäftslogik hinzuzufügen, oder wenn Sie die volle Kontrolle über Ihre Datenverarbeitungsumgebung benötigen.

  • Diese Funktion ist nur für strukturierte Daten konzipiert, die sich in Amazon Redshift, Snowflake, Athena oder Amazon S3 befinden.

  • Wenn die Größe Ihrer Abfrageergebnisse Ihren SageMaker KI-Instanzspeicher übersteigt, finden Sie im folgenden Notizbuch Informationen zu den ersten Schritten mit Athena, um Ihre Daten für die Aufnahme durch einen SageMaker KI-Algorithmus vorzubereiten.

  • Die Lernkurve für Benutzer, die mit serverlosen EMR-Anwendungen und Spark-basierten Tools nicht vertraut sind, kann eine Herausforderung sein.

  • Diese Funktion eignet sich besser für interaktive Datenvorbereitungsaufgaben und ist möglicherweise nicht so effizient wie Amazon EMR-Cluster für umfangreiche, lang andauernde oder komplexe Datenverarbeitungsanforderungen mit riesigen Datenmengen, umfassender Integration mit anderen Services, benutzerdefinierten Anwendungen oder diversen verteilten Datenverarbeitungs-Frameworks, die über Apache Spark hinausgehen.

  • Serverloses Computing kann zwar für kurzlebige Aufgaben kostengünstig sein, es ist jedoch wichtig, die Kosten sorgfältig zu überwachen und zu verwalten, insbesondere bei lang andauernden oder ressourcenintensiven Workloads.

Empfohlene Umgebung Erste Schritte mit der Verwendung von SageMaker Canvas Starten Sie Studio Starten Sie Studio

Zusätzliche Optionen

SageMaker KI bietet die folgenden zusätzlichen Optionen zur Vorbereitung Ihrer Daten für die Verwendung in Modellen für maschinelles Lernen.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.