Bereiten Sie Daten mit EMR Serverless vor - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bereiten Sie Daten mit EMR Serverless vor

Beginnend mit der SageMaker Distributions-Image-Version 1.10 lässt sich Amazon SageMaker Studio in EMR Serverless integrieren. In JupyterLab Notebooks in SageMaker Studio können Datenwissenschaftler und Dateningenieure EMR serverlose Anwendungen erkennen und eine Verbindung zu ihnen herstellen und anschließend umfangreiche Apache Spark- oder Apache Hive-Workloads interaktiv untersuchen, visualisieren und vorbereiten. Diese Integration ermöglicht die Durchführung einer interaktiven Datenvorverarbeitung in großem Maßstab als Vorbereitung für das Training und die Bereitstellung von ML-Modellen.

Insbesondere die aktualisierte Version der sagemaker-studio-analytics-extensionim SageMakerVertrieb befindlichen Image-Version 1.10 nutzt die Integration zwischen Apache Livy und EMR Serverless und ermöglicht so die Verbindung zu einem Apache Livy-Endpunkt über Notebooks. JupyterLab In diesem Abschnitt werden Vorkenntnisse im Bereich serverloser interaktiver Anwendungen vorausgesetzt. EMR

Wichtig

Wenn Sie Studio verwenden, können Sie nur EMR serverlose Anwendungen für JupyterLab Anwendungen erkennen und eine Verbindung zu ihnen herstellen, die von privaten Bereichen aus gestartet werden. Stellen Sie sicher, dass sich die EMR serverlosen Anwendungen in derselben AWS Region wie Ihre Studio-Umgebung befinden.

Voraussetzungen

Bevor Sie beginnen, interaktive Workloads mit EMR Serverless von Ihren JupyterLab Notebooks aus auszuführen, stellen Sie sicher, dass Sie die folgenden Voraussetzungen erfüllen:

  1. Ihr JupyterLab Bereich muss eine SageMaker Distributions-Image-Version 1.10 oder höher verwenden.

  2. Erstellen Sie eine EMR serverlose interaktive Anwendung mit EMR Amazon-Version 6.14.0 oder höher. Sie können eine EMR serverlose Anwendung über die Studio-Benutzeroberfläche erstellen, indem Sie die Schritte unter befolgen. Erstellen Sie EMR serverlose Anwendungen in Studio

    Anmerkung

    Für die einfachste Einrichtung können Sie Ihre EMR serverlose Anwendung in der Studio-Benutzeroberfläche erstellen, ohne die Standardeinstellungen für die Option Virtual Private Cloud (VPC) zu ändern. Auf diese Weise kann die Anwendung innerhalb Ihrer Domain erstellt werden, VPC ohne dass eine Netzwerkkonfiguration erforderlich ist. In diesem Fall können Sie den folgenden Schritt zur Netzwerkeinrichtung überspringen.

  3. Lesen Sie die Netzwerk- und Sicherheitsanforderungen unterNetzwerkzugriff für Ihren EMR Amazon-Cluster konfigurieren. Stellen Sie insbesondere sicher, dass Sie:

    • Stellen Sie eine VPC Peering-Verbindung zwischen Ihrem Studio-Konto und Ihrem EMR Serverless-Konto her.

    • Fügen Sie Routen zu den Routentabellen für private Subnetze in beiden Konten hinzu.

    • Richten Sie die Ihrer Studio-Domäne zugeordnete Sicherheitsgruppe ein, um ausgehenden Datenverkehr zuzulassen, und konfigurieren Sie die Sicherheitsgruppe der Gruppe, VPC in der Sie die EMR serverlosen Anwendungen ausführen möchten, um eingehenden TCP Datenverkehr von der Sicherheitsgruppe der Studio-Instanz zuzulassen.

  4. Um auf EMR Serverless auf Ihre interaktiven Anwendungen zuzugreifen und Workloads auszuführen, die über Ihre JupyterLab Notebooks in SageMaker Studio eingereicht wurden, müssen Sie bestimmte Berechtigungen und Rollen zuweisen. Einzelheiten zu den erforderlichen Rollen und Berechtigungen finden Sie im Richten Sie die Berechtigungen ein, um das Auflisten und Starten von EMR Amazon-Anwendungen von SageMaker Studio aus zu ermöglichen Abschnitt.