Daten mit EMR Serverless vorbereiten - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten mit EMR Serverless vorbereiten

Ab der SageMaker Distributions-Image-Version 1.10 ist Amazon SageMaker Studio in EMR Serverless integriert. In JupyterLab Notebooks in SageMaker Studio können Datenwissenschaftler und Dateningenieure serverlose EMR-Anwendungen erkennen und eine Verbindung zu ihnen herstellen und anschließend umfangreiche Apache Spark- oder Apache Hive-Workloads interaktiv untersuchen, visualisieren und vorbereiten. Diese Integration ermöglicht die Durchführung einer interaktiven Datenvorverarbeitung in großem Maßstab als Vorbereitung für das Training und die Bereitstellung von ML-Modellen.

Insbesondere die aktualisierte Version der sagemaker-studio-analytics-extensionSageMaker In-AI-Distributions-Image-Version 1.10 nutzt die Integration zwischen Apache Livy und EMR Serverless und ermöglicht die Verbindung zu einem Apache Livy-Endpunkt über Notebooks. JupyterLab In diesem Abschnitt werden Vorkenntnisse über interaktive EMR-Anwendungen ohne Server vorausgesetzt.

Wichtig

Wenn Sie Studio verwenden, können Sie nur EMR Serverless-Anwendungen für JupyterLab Anwendungen erkennen und eine Verbindung zu diesen herstellen, die von privaten Bereichen aus gestartet werden. Stellen Sie sicher, dass sich die EMR Serverless-Anwendungen in derselben AWS Region wie Ihre Studio-Umgebung befinden.

Voraussetzungen

Bevor Sie beginnen, interaktive Workloads mit EMR Serverless von Ihren JupyterLab Notebooks aus auszuführen, stellen Sie sicher, dass Sie die folgenden Voraussetzungen erfüllen:

  1. Ihr JupyterLab Bereich muss eine SageMaker Distributions-Image-Version 1.10 oder höher verwenden.

  2. Erstellen Sie eine interaktive EMR-Anwendung ohne Server mit Amazon EMR-Version 6.14.0 oder höher. Sie können eine serverlose EMR-Anwendung über die Studio-Benutzeroberfläche erstellen, indem Sie die Schritte unter befolgen. Serverlose EMR-Anwendungen in Studio erstellen

    Anmerkung

    Für die einfachste Einrichtung können Sie Ihre EMR Serverless-Anwendung in der Studio-Benutzeroberfläche erstellen, ohne die Standardeinstellungen für die Virtual Private Cloud (VPC) -Option zu ändern. Dadurch kann die Anwendung innerhalb Ihrer Domain-VPC erstellt werden, ohne dass eine Netzwerkkonfiguration erforderlich ist. In diesem Fall können Sie den folgenden Schritt zur Netzwerkeinrichtung überspringen.

  3. Lesen Sie die Netzwerk- und Sicherheitsanforderungen unterNetzwerkzugriff für Ihren Amazon EMR-Cluster konfigurieren. Stellen Sie insbesondere sicher, dass Sie:

    • Stellen Sie eine VPC-Peering-Verbindung zwischen Ihrem Studio-Konto und Ihrem EMR Serverless-Konto her.

    • Fügen Sie Routen zu den Routentabellen für private Subnetze in beiden Konten hinzu.

    • Richten Sie die an Ihre Studio-Domäne angehängte Sicherheitsgruppe ein, um ausgehenden Datenverkehr zuzulassen, und konfigurieren Sie die Sicherheitsgruppe der VPC, auf der Sie die EMR Serverless-Anwendungen ausführen möchten, um eingehenden TCP-Verkehr von der Sicherheitsgruppe der Studio-Instanz zuzulassen.

  4. Um auf Ihre interaktiven Anwendungen auf EMR Serverless zuzugreifen und Workloads auszuführen, die von Ihren JupyterLab Notebooks in SageMaker Studio eingereicht wurden, müssen Sie bestimmte Berechtigungen und Rollen zuweisen. Einzelheiten zu den erforderlichen Rollen und Berechtigungen finden Sie im Richten Sie die Berechtigungen ein, um das Auflisten und Starten von Amazon EMR-Anwendungen von Studio aus SageMaker zu ermöglichen Abschnitt.