Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Führen Sie interaktive Workloads mit EMR Serverless über Studio aus EMR
Mit EMR serverlosen interaktiven Anwendungen können Sie interaktive Workloads für Spark with EMR Serverless mithilfe von Notebooks ausführen, die in Studio gehostet werden. EMR
Übersicht
Eine interaktive Anwendung ist eine EMR serverlose Anwendung, für die interaktive Funktionen aktiviert sind. Mit interaktiven Amazon EMR Serverless-Anwendungen können Sie interaktive Workloads mit Jupyter-Notebooks ausführen, die in Amazon Studio verwaltet werden. EMR Auf diese Weise können Dateningenieure, Datenwissenschaftler und Datenanalysten EMR Studio verwenden, um interaktive Analysen mit Datensätzen in Datenspeichern wie Amazon S3 und Amazon DynamoDB durchzuführen.
Zu den Anwendungsfällen für interaktive Anwendungen in EMR Serverless gehören:
-
Dateningenieure nutzen die IDE Erfahrung in EMR Studio, um ein ETL Skript zu erstellen. Das Skript nimmt Daten vor Ort auf, transformiert die Daten für die Analyse und speichert die Daten in Amazon S3.
-
Datenwissenschaftler verwenden Notebooks, um Datensätze zu untersuchen und Modelle für maschinelles Lernen (ML) zu trainieren, um Anomalien in den Datensätzen zu erkennen.
-
Datenanalysten untersuchen Datensätze und erstellen Skripte, die tägliche Berichte generieren, um Anwendungen wie Geschäfts-Dashboards zu aktualisieren.
Voraussetzungen
Um interaktive Workloads mit EMR Serverless verwenden zu können, müssen Sie die folgenden Anforderungen erfüllen:
-
EMRServerlose interaktive Anwendungen werden mit Amazon EMR 6.14.0 und höher unterstützt.
-
Um auf Ihre interaktive Anwendung zuzugreifen, die von Ihnen eingereichten Workloads auszuführen und interaktive Notizbücher von EMR Studio aus auszuführen, benötigen Sie bestimmte Berechtigungen und Rollen. Weitere Informationen finden Sie unter Erforderliche Berechtigungen für interaktive Workloads.
Erforderliche Berechtigungen für interaktive Workloads
Zusätzlich zu den grundlegenden Berechtigungen, die für den Zugriff auf EMR Serverless erforderlich sind, müssen Sie zusätzliche Berechtigungen für Ihre IAM Identität oder Rolle konfigurieren:
- Um auf Ihre interaktive Anwendung zuzugreifen
-
Richten Sie Benutzer- und Workspace-Berechtigungen für EMR Studio ein. Weitere Informationen finden Sie unter Configure EMR Studio-Benutzerberechtigungen im Amazon EMR Management Guide.
- Um die Workloads auszuführen, die Sie mit EMR Serverless einreichen
-
Richten Sie eine Job-Runtime-Rolle ein. Weitere Informationen finden Sie unter Erstellen Sie eine Job-Runtime-Rolle.
- Um die interaktiven Notizbücher von EMR Studio aus auszuführen
-
Fügen Sie der IAM Richtlinie die folgenden zusätzlichen Berechtigungen für die Studio-Benutzer hinzu:
-
emr-serverless:AccessInteractiveEndpoints
- Erteilt die Berechtigung, auf die interaktive Anwendung zuzugreifen und eine Verbindung zu ihr herzustellenResource
. Diese Berechtigung ist erforderlich, um von einem EMR Studio-Workspace aus eine Verbindung zu einer EMR serverlosen Anwendung herzustellen. -
iam:PassRole
- Erteilt die Berechtigung für den Zugriff auf die IAM Ausführungsrolle, die Sie beim Anhängen an eine Anwendung verwenden möchten. Die entsprechendePassRole
Berechtigung ist erforderlich, um von einem EMR Studio-Workspace aus eine Verbindung zu einer EMR serverlosen Anwendung herzustellen.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessInteractiveAccess", "Effect": "Allow", "Action": "emr-serverless:AccessInteractiveEndpoints", "Resource": "arn:aws:emr-serverless:
Region
:account
:/applications/*" }, { "Sid": "EMRServerlessRuntimeRoleAccess", "Effect": "Allow", "Action": "iam:PassRole", "Resource": "interactive-execution-role-ARN
", "Condition": { "StringLike": { "iam:PassedToService": "emr-serverless.amazonaws.com" } } } ] } -
Konfiguration interaktiver Anwendungen
Verwenden Sie die folgenden allgemeinen Schritte, um eine EMR serverlose Anwendung mit interaktiven Funktionen von Amazon EMR Studio in der AWS Management Console zu erstellen.
-
Folgen Sie den Schritten unterErste Schritte mit Amazon EMR Serverless, um eine Anwendung zu erstellen.
-
Starten Sie dann einen Workspace in EMR Studio und fügen Sie ihn als Rechenoption an eine EMR serverlose Anwendung an. Weitere Informationen finden Sie auf der Registerkarte Interaktive Arbeitslast in Schritt 2 der Dokumentation EMRServerless Getting Started.
Wenn Sie eine Anwendung an einen Studio-Arbeitsbereich anhängen, wird der Anwendungsstart automatisch ausgelöst, sofern er nicht bereits ausgeführt wird. Sie können die Anwendung auch vorab starten und bereithalten, bevor Sie sie an den Workspace anhängen.
Überlegungen zu interaktiven Anwendungen
-
EMRServerlose interaktive Anwendungen werden mit Amazon EMR 6.14.0 und höher unterstützt.
-
EMRStudio ist der einzige Client, der in EMR serverlose interaktive Anwendungen integriert ist. Die folgenden EMR Studio-Funktionen werden von EMR serverlosen interaktiven Anwendungen nicht unterstützt: Workspace Collaboration, SQL Explorer und programmatische Ausführung von Notebooks.
-
Interaktive Anwendungen werden nur für die Spark-Engine unterstützt.
-
Interaktive Anwendungen unterstützen Python 3- PySpark und Spark-Scala-Kernel.
-
Sie können bis zu 25 Notebooks gleichzeitig in einer einzigen interaktiven Anwendung ausführen.
-
Es gibt keinen Endpunkt oder keine API Schnittstelle, die selbst gehostete Jupyter-Notebooks mit interaktiven Anwendungen unterstützt.
-
Für ein optimiertes Starterlebnis empfehlen wir, die vorinitialisierte Kapazität für Treiber und Executoren zu konfigurieren und Ihre Anwendung vorab zu starten. Wenn Sie die Anwendung vorab starten, stellen Sie sicher, dass sie bereit ist, wenn Sie sie an Ihren Workspace anhängen möchten.
aws emr-serverless start-application \ --application-id
your-application-id
-
autoStopConfig
Ist standardmäßig für Anwendungen aktiviert. Dadurch wird die Anwendung nach 30 Minuten Leerlaufzeit heruntergefahren. Sie können diese Konfiguration im Rahmen Ihrercreate-application
update-application
PR-Anfrage ändern. -
Wenn Sie eine interaktive Anwendung verwenden, empfehlen wir Ihnen, eine vorinitialisierte Kapazität von Kerneln, Treibern und Executoren für den Betrieb Ihrer Notebooks zu konfigurieren. Jede interaktive Spark-Sitzung erfordert einen Kernel und einen Treiber, sodass EMR Serverless für jeden vorinitialisierten Treiber einen vorinitialisierten Kernel-Worker verwaltet. Standardmäßig behält EMR Serverless während der gesamten Anwendung eine vorinitialisierte Kapazität von einem Kernel-Worker bei, auch wenn Sie keine vorinitialisierte Kapazität für Treiber angeben. Jeder Kernel-Worker verwendet 4 V CPU und 16 GB Arbeitsspeicher. Aktuelle Preisinformationen finden Sie auf der Seite mit den EMRAmazon-Preisen
. -
Sie müssen über ein ausreichendes CPU v-Service-Kontingent verfügen AWS-Konto , um interaktive Workloads ausführen zu können. Wenn Sie keine Lake Formation-fähigen Workloads ausführen, empfehlen wir mindestens 24 v. CPU Wenn Sie dies tun, empfehlen wir mindestens 28 V. CPU
-
EMRServerless beendet automatisch die Kernel von den Notebooks, wenn sie länger als 60 Minuten inaktiv waren. EMR Serverless berechnet die Kernel-Leerlaufzeit anhand der letzten Aktivität, die während der Notebook-Sitzung abgeschlossen wurde. Sie können die Einstellung für das Leerlauf-Timeout des Kernels derzeit nicht ändern.
-
Um Lake Formation mit interaktiven Workloads zu aktivieren, stellen Sie die Konfiguration
spark.emr-serverless.lakeformation.enabled
auftrue
unter derspark-defaults
Klassifizierung imruntime-configuration
Objekt ein, wenn Sie eine EMR serverlose Anwendung erstellen. Weitere Informationen zur Aktivierung von Lake Formation in EMR Serverless finden Sie unter Lake Formation in Amazon EMR aktivieren.