Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécutez des charges de travail interactives avec EMR Serverless via Studio EMR
Présentation
Une application interactive est une application EMR sans serveur dont les fonctionnalités interactives sont activées. Avec les applications interactives Amazon EMR Serverless, vous pouvez exécuter des charges de travail interactives avec des blocs-notes Jupyter gérés dans Amazon Studio. EMR Cela permet aux ingénieurs de données, aux scientifiques des données et aux analystes de données d'utiliser EMR Studio pour exécuter des analyses interactives avec des ensembles de données dans des magasins de données tels qu'Amazon S3 et Amazon DynamoDB.
Les cas d'utilisation des applications interactives dans EMR Serverless sont les suivants :
-
Les ingénieurs de données utilisent l'IDEexpérience de EMR Studio pour créer un ETL script. Le script ingère des données sur site, les transforme à des fins d'analyse et les stocke dans Amazon S3.
-
Les data scientists utilisent des carnets pour explorer les ensembles de données et entraîner des modèles d'apprentissage automatique (ML) afin de détecter les anomalies dans les ensembles de données.
-
Les analystes de données explorent les ensembles de données et créent des scripts qui génèrent des rapports quotidiens pour mettre à jour des applications telles que les tableaux de bord commerciaux.
Prérequis
Pour utiliser des charges de travail interactives avec EMR Serverless, vous devez satisfaire aux exigences suivantes :
-
EMRLes applications interactives sans serveur sont prises en charge avec Amazon EMR 6.14.0 et versions ultérieures.
-
Pour accéder à votre application interactive, exécuter les charges de travail que vous soumettez et exécuter des blocs-notes interactifs depuis EMR Studio, vous avez besoin d'autorisations et de rôles spécifiques. Pour de plus amples informations, veuillez consulter Autorisations requises pour les charges de travail interactives.
Autorisations requises pour les charges de travail interactives
Outre les autorisations de base requises pour accéder à EMR Serverless, vous devez configurer des autorisations supplémentaires pour votre IAM identité ou votre rôle :
- Pour accéder à votre application interactive
-
Configurez les autorisations d'utilisateur et d'espace de travail pour EMR Studio. Pour plus d'informations, consultez Configurer les autorisations utilisateur de EMR Studio dans le guide EMR de gestion Amazon.
- Pour exécuter les charges de travail que vous soumettez avec Serverless EMR
-
Configurez un rôle d'exécution des tâches. Pour de plus amples informations, veuillez consulter Création d'un rôle d'exécution de tâches.
- Pour exécuter les blocs-notes interactifs depuis Studio EMR
-
Ajoutez les autorisations supplémentaires suivantes à la IAM politique pour les utilisateurs du Studio :
-
emr-serverless:AccessInteractiveEndpoints
- Accorde l'autorisation d'accéder à l'application interactive que vous spécifiez et de vous y connecterResource
. Cette autorisation est requise pour se connecter à une application EMR sans serveur à partir d'un espace de travail EMR Studio. -
iam:PassRole
- Accorde l'autorisation d'accéder au rôle IAM d'exécution que vous prévoyez d'utiliser lorsque vous vous connectez à une application. L'PassRole
autorisation appropriée est requise pour se connecter à une application EMR sans serveur à partir d'un espace de travail EMR Studio.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessInteractiveAccess", "Effect": "Allow", "Action": "emr-serverless:AccessInteractiveEndpoints", "Resource": "arn:aws:emr-serverless:
Region
:account
:/applications/*" }, { "Sid": "EMRServerlessRuntimeRoleAccess", "Effect": "Allow", "Action": "iam:PassRole", "Resource": "interactive-execution-role-ARN
", "Condition": { "StringLike": { "iam:PassedToService": "emr-serverless.amazonaws.com" } } } ] } -
Configuration d'applications interactives
Suivez les étapes de haut niveau suivantes pour créer une application EMR sans serveur dotée de fonctionnalités interactives à partir d'Amazon EMR Studio dans le AWS Management Console.
-
Suivez les étapes décrites Commencer à utiliser Amazon EMR Serverless pour créer une application.
-
Lancez ensuite un espace de travail depuis EMR Studio et connectez-le à une application EMR sans serveur en tant qu'option de calcul. Pour plus d'informations, consultez l'onglet Charge de travail interactive à l'étape 2 de la documentation EMRServerless Getting Started.
Lorsque vous attachez une application à un espace de travail Studio, le démarrage de l'application se déclenche automatiquement si elle n'est pas déjà en cours d'exécution. Vous pouvez également prédémarrer l'application et la garder prête avant de l'associer à l'espace de travail.
Considérations relatives aux applications interactives
-
EMRLes applications interactives sans serveur sont prises en charge avec Amazon EMR 6.14.0 et versions ultérieures.
-
EMRStudio est le seul client intégré aux applications interactives EMR sans serveur. Les fonctionnalités de EMR Studio suivantes ne sont pas prises en charge par les applications interactives EMR sans serveur : collaboration dans l'espace de travail, SQL Explorateur et exécution programmatique de blocs-notes.
-
Les applications interactives ne sont prises en charge que pour le moteur Spark.
-
Les applications interactives prennent en charge les noyaux Python 3 PySpark et Spark Scala.
-
Vous pouvez exécuter jusqu'à 25 blocs-notes simultanément sur une seule application interactive.
-
Aucun point de terminaison ou API interface ne prend en charge les blocs-notes Jupyter auto-hébergés dotés d'applications interactives.
-
Pour une expérience de démarrage optimisée, nous vous recommandons de configurer la capacité préinitialisée pour les pilotes et les exécuteurs, et de pré-démarrer votre application. Lorsque vous prédémarrez l'application, vous vous assurez qu'elle est prête lorsque vous souhaitez l'associer à votre espace de travail.
aws emr-serverless start-application \ --application-id
your-application-id
-
Par défaut,
autoStopConfig
est activé pour les applications. Cela arrête l'application après 30 minutes d'inactivité. Vous pouvez modifier cette configuration dans le cadre de votreupdate-application
demandecreate-application
ou de votre demande. -
Lorsque vous utilisez une application interactive, nous vous recommandons de configurer une capacité pré-initialisée de noyaux, de pilotes et d'exécuteurs pour exécuter vos blocs-notes. Chaque session interactive Spark nécessite un noyau et un pilote. EMR Serverless gère donc un programme de travail de noyau pré-initialisé pour chaque pilote pré-initialisé. Par défaut, EMR Serverless conserve une capacité préinitialisée d'un utilisateur du noyau dans l'ensemble de l'application, même si vous ne spécifiez aucune capacité préinitialisée pour les pilotes. Chaque processeur de noyau utilise 4 V CPU et 16 Go de mémoire. Pour obtenir des informations sur les prix actuels, consultez la page de EMRtarification d'Amazon
. -
Vous devez disposer d'un quota CPU de service v suffisant dans votre Compte AWS pour exécuter des charges de travail interactives. Si vous n'exécutez pas de charges de travail compatibles avec Lake Formation, nous vous recommandons d'utiliser au moins 24 v. CPU Si c'est le cas, nous recommandons au moins 28 CPU v.
-
EMRServerless arrête automatiquement les noyaux des ordinateurs portables s'ils sont inactifs depuis plus de 60 minutes. EMRServerless calcule le temps d'inactivité du noyau à partir de la dernière activité effectuée pendant la session du bloc-notes. Vous ne pouvez actuellement pas modifier le paramètre de délai d'inactivité du noyau.
-
Pour activer Lake Formation avec des charges de travail interactives, définissez la configuration comme
spark.emr-serverless.lakeformation.enabled
étanttrue
inférieure à laspark-defaults
classification dans l'runtime-configuration
objet lorsque vous créez une application EMR sans serveur. Pour en savoir plus sur l'activation de Lake Formation en mode EMR Serverless, consultez Enabling Lake Formation in Amazon EMR.