Workloads zur Datentransformation mit SageMaker Verarbeitung - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Workloads zur Datentransformation mit SageMaker Verarbeitung

SageMaker Verarbeitung bezieht sich auf die SageMaker Fähigkeit, Daten vor und nach der Verarbeitung, Feature-Engineering und Modellevaluierung in der SageMaker vollständig verwalteten Infrastruktur auszuführen. Diese Aufgaben werden als Verarbeitungsaufträge ausgeführt. Im Folgenden finden Sie Informationen und Ressourcen zum Thema SageMaker Verarbeitung.

Mithilfe von SageMaker Processing API können Datenwissenschaftler Skripte und Notizbücher ausführen, um Datensätze zu verarbeiten, zu transformieren und zu analysieren, um sie für maschinelles Lernen vorzubereiten. In Kombination mit den anderen wichtigen Aufgaben des maschinellen Lernens SageMaker, die von bereitgestellt werden, wie Schulung und Hosting, bietet Ihnen Processing die Vorteile einer vollständig verwalteten Umgebung für maschinelles Lernen, einschließlich der gesamten integrierten SageMaker Sicherheits- und Compliance-Unterstützung. Sie haben die Flexibilität, die integrierten Datenverarbeitungscontainer zu verwenden oder Ihre eigenen Container für die benutzerdefinierte Verarbeitungslogik zu verwenden und dann Jobs zur Ausführung auf der SageMaker verwalteten Infrastruktur einzureichen.

Anmerkung

Sie können einen Verarbeitungsauftrag programmgesteuert erstellen, indem Sie die CreateProcessingJobAPIAktion in einer beliebigen Sprache aufrufen, die von SageMaker oder mithilfe von unterstützt wird. AWS CLI Informationen darüber, wie diese API Aktion in eine Funktion in der Sprache Ihrer Wahl übersetzt wird, finden Sie im Abschnitt Siehe auch von CreateProcessingJob und wählen Sie eine aus. SDK Ein Beispiel für Python-Benutzer finden Sie im Abschnitt Amazon SageMaker Processing von SageMaker PythonSDK. Alternativ finden Sie die vollständige Anforderungssyntax von create_processing_job in der. AWS SDK for Python (Boto3)

Das folgende Diagramm zeigt, wie SageMaker Amazon einen Verarbeitungsauftrag erstellt. Amazon SageMaker nimmt Ihr Skript, kopiert Ihre Daten aus Amazon Simple Storage Service (Amazon S3) und ruft dann einen Verarbeitungscontainer ab. Die zugrunde liegende Infrastruktur für einen Verarbeitungsauftrag wird vollständig von Amazon verwaltet SageMaker. SageMaker Startet nach dem Absenden eines Verarbeitungsauftrags die Compute-Instances, verarbeitet und analysiert die Eingabedaten und gibt die Ressourcen nach Abschluss frei. Die Ausgabe des Processing-Auftrages wird im Amazon-S3-Bucket gespeichert, den Sie angegeben haben.

Anmerkung

Die Eingabedaten müssen in einem Amazon-S3-Bucket gespeichert sein. Alternativ können Sie Amazon Athena oder Amazon Redshift als Eingabequellen verwenden.

Ausführen eines Verarbeitungsauftrags.
Tipp

Bewährte Methoden für verteiltes Rechnen für Training und Verarbeitung von Machine Learning (ML) im Allgemeinen finden Sie unter Verteilte Datenverarbeitung mit SageMaker bewährten Methoden.

Verwenden Sie Amazon SageMaker Processing Sample Notebooks

Anhand von zwei Beispiel-Jupyter-Notebooks zeigen wir, wie Datenvorverarbeitung, Modellauswertung oder beides durchgeführt werden.

Ein Beispielnotizbuch, das zeigt, wie Scikit-Learn-Skripte ausgeführt werden, um Datenvorverarbeitung und Modelltraining und -auswertung mit SageMaker Python SDK for Processing durchzuführen, finden Sie unter scikit-learn Processing. In diesem Notebook wird auch gezeigt, wie Sie einen eigenen benutzerdefinierten Container verwenden, um Verarbeitungslasten mit Python-Bibliotheken und anderen spezifischen Abhängigkeiten auszuführen.

Ein Beispielnotizbuch, das zeigt, wie Amazon SageMaker Processing für die verteilte Datenvorverarbeitung mit Spark verwendet wird, finden Sie unter Distributed Processing (Spark). Dieses Notizbuch zeigt auch, wie ein Regressionsmodell XGBoost anhand des vorverarbeiteten Datensatzes trainiert wird.

Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instanzen, in denen Sie diese Beispiele ausführen können, finden Sie unter. SageMaker Amazon SageMaker Notebook-Instances Nachdem Sie eine Notebook-Instanz erstellt und geöffnet haben, wählen Sie die Registerkarte SageMaker Beispiele, um eine Liste aller Beispiele anzuzeigen. SageMaker Zum Öffnen eines Notebooks wählen Sie die Registerkarte Verwenden und dann Kopie erstellen aus.

Überwachen Sie SageMaker Amazon-Verarbeitungsaufträge mit CloudWatch Protokollen und Metriken

Amazon SageMaker Processing stellt CloudWatch Amazon-Protokolle und -Metriken zur Überwachung von Verarbeitungsaufträgen bereit. CloudWatch bietet Speicher- CPUGPU, GPU Arbeitsspeicher- und Festplattenmetriken sowie Ereignisprotokollierung. Weitere Informationen erhalten Sie unter Metriken für die Überwachung von Amazon SageMaker mit Amazon CloudWatch und Protokollgruppen und Streams, die Amazon SageMaker an Amazon CloudWatch Logs sendet.