EMRFonctionnalités, exigences et limites du studio - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

EMRFonctionnalités, exigences et limites du studio

Cette rubrique inclut les éléments à prendre en compte lors de l'utilisation d'Amazon EMR Studio, notamment les considérations relatives aux régions et aux outils, aux exigences du cluster et aux limitations techniques.

Considérations

Lorsque vous travaillez avec EMR Studio, tenez compte des points suivants :

  • EMRLe studio est disponible dans les versions suivantes Régions AWS :

    • USA Est (Ohio) (us-east-2)

    • USA Est (Virginie du Nord) (us-east-1)

    • US Ouest (N. California) (us-west-1)

    • USA Ouest (Oregon) (us-west-2)

    • Afrique (Le Cap) (af-south-1)

    • Asie-Pacifique (Hong Kong) (ap-east-1)

    • Asie-Pacifique (Jakarta) (ap-southeast-3) *

    • Asie-Pacifique (Melbourne) (ap-southeast-4) *

    • Asie-Pacifique (Mumbai) (ap-south-1)

    • Asie-Pacifique (Osaka) (ap-northeast-3) *

    • Asie-Pacifique (Séoul) (ap-northeast-2)

    • Asie-Pacifique (Singapour) (ap-southeast-1)

    • Asie-Pacifique (Sydney) (ap-southeast-2)

    • Asie-Pacifique (Tokyo) (ap-northeast-1)

    • Canada (Centre) (ca-central-1)

    • Europe (Francfort) (eu-central-1)

    • Europe (Irlande) (eu-west-1)

    • Europe (Londres) (eu-west-2)

    • Europe (Milan) (eu-south-1)

    • Europe (Paris) (eu-west-3)

    • Europe (Espagne) (eu-south-2)

    • Europe (Stockholm) (eu-north-1)

    • Europe (Zurich) (eu-central-2) *

    • Israël (Tel Aviv) (il-central-1) *

    • Moyen-Orient (UAE) (me-central-1) *

    • Amérique du Sud (São Paulo) (sa-east-1)

    • AWS GovCloud (USA Est) (gov-us-east-1)

    • AWS GovCloud (US-Ouest) (gov-us-west-1)

    * L'interface utilisateur Live de Spark n'est pas prise en charge dans ces régions.

  • Pour permettre aux utilisateurs de provisionner de nouveaux EMR clusters exécutés sur Amazon EC2 pour un espace de travail, vous pouvez associer un EMR studio à un ensemble de modèles de clusters. Les administrateurs peuvent définir des modèles de clusters avec Service Catalog et choisir si un utilisateur ou un groupe peut accéder aux modèles de clusters ou non dans un studio.

  • Lorsque vous définissez des autorisations d'accès aux fichiers de bloc-notes stockés dans Amazon S3 ou que vous en lisez des secrets AWS Secrets Manager, utilisez le rôle EMR de service Amazon. Les politiques de session ne sont pas prises en charge avec ces autorisations.

  • Vous pouvez créer plusieurs EMR studios pour contrôler l'accès aux EMR clusters de différents typesVPCs.

  • Utilisez le AWS CLI pour configurer Amazon EMR sur des EKS clusters. Vous pouvez ensuite utiliser l'interface Studio pour rattacher des clusters à des Workspaces avec un point de terminaison géré afin d'exécuter des tâches liées aux blocs-notes.

  • Lorsque vous utilisez la propagation d'identité sécurisée avec AmazonEMR, d'autres considérations s'appliquent également à EMR Studio. Pour de plus amples informations, veuillez consulter Considérations et limites relatives à l'intégration d'Amazon EMR avec Identity Center.

  • EMRStudio ne prend pas en charge les commandes magiques Python suivantes :

    • %alias

    • %alias_magic

    • %automagic

    • %macro

    • %%js

    • %%javascript

    • Modification de proxy_user à l'aide de %configure

    • Modification de KERNEL_USERNAME à l'aide de %env ou %set_env

  • Amazon EMR sur les EKS clusters ne prend pas en charge SparkMagic les commandes pour EMR Studio.

  • Pour écrire des instructions Scala multilignes dans des cellules du bloc-notes, assurez-vous que toutes les lignes, sauf la dernière, se terminent par un point. L'exemple suivant utilise la syntaxe correcte pour les instructions Scala multilignes.

    val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
  • Pour renforcer la sécurité des applications hors console que vous pouvez utiliser avec AmazonEMR, les domaines d'hébergement d'applications sont enregistrés dans la liste des suffixes publics (). PSL Voici des exemples de ces domaines d’hébergement : emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com. Pour plus de sécurité, si vous avez besoin de définir des cookies sensibles dans le nom de domaine par défaut, nous vous recommandons d’utiliser des cookies avec un préfixe __Host-. Cela permet de défendre votre domaine contre les tentatives de falsification de requêtes intersites ()CSRF. Pour de plus amples informations, veuillez consulter le .Set-Cookiepage du Mozilla Developer Network.

  • Les espaces de travail Amazon EMR Studio et les points de terminaison d'interface utilisateur persistants utilisent FIPS 140 à 2 modules cryptographiques validés pour encryption-in-transit, ce qui facilite l'adoption du service pour les charges de travail régulées. Pour plus d'informations sur les points de terminaison d'interface utilisateur persistants, consultez Afficher les interfaces utilisateur d'applications persistantes sur Amazon EMR. Pour plus d'informations sur les carnets de notes, consultez la présentation d'Amazon EMR Notebooks.

Problèmes connus

  • Un EMR studio qui utilise IAM Identity Center avec la propagation d'identité sécurisée activée ne peut s'associer qu'à des EMR clusters qui utilisent également la propagation d'identité sécurisée.

  • Assurez-vous de désactiver les outils de gestion de proxy tels que FoxyProxy or SwitchyOmega dans le navigateur avant de créer un Studio. Les proxys actifs peuvent provoquer des erreurs lorsque vous choisissez Créer un studio et générer un message d'erreur de défaillance du réseau.

  • Les noyaux qui s'exécutent sur Amazon EMR sur des EKS clusters peuvent ne pas démarrer en raison de problèmes de délai d'attente. Si vous rencontrez une erreur ou un problème lors du démarrage du noyau, fermez le fichier de bloc-notes, arrêtez le noyau, puis rouvrez le fichier de bloc-notes.

  • L'opération de redémarrage du noyau ne fonctionne pas comme prévu lorsque vous utilisez un EKS cluster Amazon EMR on. Après avoir sélectionné Redémarrer le noyau, actualisez le Workspace pour que le redémarrage prenne effet.

  • Si aucun Workspace n'est rattaché à un cluster, un message d'erreur s'affiche lorsqu'un utilisateur de Studio ouvre un fichier de bloc-notes et tente de sélectionner un noyau. Vous pouvez ignorer ce message d'erreur en choisissant Ok, mais vous devez rattacher le Workspace à un cluster et sélectionner un noyau avant de pouvoir exécuter le code du bloc-notes.

  • Lorsque vous utilisez Amazon EMR 6.2.0 avec une configuration de sécurité pour configurer la sécurité du cluster, l'interface Workspace apparaît vide et ne fonctionne pas comme prévu. Nous vous recommandons d'utiliser une autre version prise en charge d'Amazon EMR si vous souhaitez configurer le chiffrement des données ou l'autorisation Amazon S3 EMRFS pour un cluster. EMR Studio fonctionne avec EMR les versions 5.32.0 (série Amazon EMR 5.x) et 6.2.0 (série Amazon 6.x) et EMR supérieures d'Amazon.

  • Lorsque vous Déboguer Amazon EMR en cours d'exécution sur Amazon Jobs EC2, les liens vers l'interface utilisateur Spark intégrée au cluster peuvent ne pas fonctionner ou ne pas s'afficher. Pour régénérer les liens, créez une nouvelle cellule de bloc-notes et exécutez la commande %%info.

  • Jupyter Enterprise Gateway ne nettoie pas les noyaux inactifs sur le nœud principal d'un cluster dans les EMR versions Amazon suivantes : 5.32.0, 5.33.0, 6.2.0 et 6.3.0. Les noyaux inactifs consomment des ressources informatiques et peuvent entraîner la défaillance de clusters qui fonctionnent depuis longtemps. Vous pouvez configurer le nettoyage du noyau inactif pour Jupyter Enterprise Gateway à l'aide de l'exemple de script suivant. Vous pouvez Connectez-vous au nœud principal du EMR cluster Amazon à l'aide de SSH, ou soumettre le script en tant qu'étape. Pour plus d'informations, consultez Exécuter des commandes et des scripts sur un EMR cluster Amazon.

    #!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
  • Lorsque vous utilisez une politique d'arrêt automatique avec EMR les versions 5.32.0, 5.33.0, 6.2.0 ou 6.3.0 d'Amazon, Amazon EMR marque un cluster comme inactif et peut automatiquement le résilier même si vous avez un noyau Python3 actif. Cela est dû au fait que l'exécution d'un noyau Python3 ne soumet pas de tâche Spark sur le cluster. Pour utiliser la terminaison automatique avec un noyau Python3, nous vous recommandons d'utiliser Amazon EMR version 6.4.0 ou ultérieure. Pour plus d'informations sur l'arrêt automatique, consultez Utilisation d'une politique de résiliation automatique pour le nettoyage des EMR clusters Amazon.

  • Lorsque vous %%display affichez un Spark DataFrame dans un tableau, les tableaux très larges peuvent être tronqués. Cliquez avec le bouton droit sur la sortie et sélectionnez Créer une nouvelle vue pour la sortie afin d'obtenir une vue défilante de la sortie.

  • Le démarrage d'un noyau basé sur Spark, tel que PySpark Spark ou SparkR, démarre une session Spark, et l'exécution d'une cellule dans un bloc-notes place les tâches Spark dans la file d'attente de cette session. Lorsque vous interrompez une cellule en cours d'exécution, la tâche Spark continue de s'exécuter. Pour arrêter la tâche Spark, vous devez utiliser l'interface utilisateur Spark intégrée au cluster. Pour plus d'informations sur la façon de se connecter à l'interface utilisateur Spark, consultez Déboguer des applications et des tâches avec Studio EMR.

  • L'utilisation d'Amazon EMR Studio Workspaces en tant qu'utilisateur root dans an Compte AWS provoque une 403: Forbidden erreur. Cela est dû au fait que la configuration de Jupyter Enterprise Gateway dans Amazon EMR n'autorise pas l'accès à l'utilisateur root. Nous vous recommandons de ne pas utiliser l'utilisateur root pour vos tâches quotidiennes. Pour les autres options d'authentification, consultez AWS Identity and Access Management Amazon EMR.

Limites fonctionnelles

Amazon EMR Studio ne prend pas en charge les EMR fonctionnalités Amazon suivantes :

  • Attacher et exécuter des tâches sur EMR des clusters avec une configuration de sécurité qui spécifie l'authentification Kerberos

  • Clusters dotés de plusieurs nœuds primaires

  • Clusters utilisant des EC2 instances Amazon basées sur AWS Graviton2 pour les versions 6.x antérieures à la version EMR 6.9.0 d'Amazon et les versions 5.x inférieures à la version 5.36.1

Les fonctionnalités suivantes ne sont pas prises en charge par un studio qui utilise la propagation d’identité approuvée :

  • Création de EMR clusters sans modèle.

  • Utilisation d'applications EMR sans serveur.

  • Lancer Amazon EMR sur EKS des clusters.

  • Utilisation d’un rôle d’exécution

  • Activation de la collaboration avec SQL Explorer ou Workspace.

Limites de service pour EMR Studio

Le tableau suivant indique les limites de service pour EMR Studio.

Élément Limite
EMRStudios Maximum de 100 par AWS compte
Sous-réseaux Maximum de 5 associés à chaque EMR studio
IAMGroupes de centres d'identité Maximum de 5 personnes attribuées à chaque EMR studio
IAMUtilisateurs du centre d'identité Maximum de 100 personnes attribuées à chaque EMR studio