Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exigences, différences entre les versions et sécurité des EMR ordinateurs portables
Note
EMRLes blocs-notes sont disponibles sous forme d'espaces de travail de EMR studio dans la console. Le bouton Créer un espace de travail de la console vous permet de créer de nouveaux blocs-notes. Pour accéder aux espaces de travail ou les créer, les utilisateurs de EMR Notebooks ont besoin d'autorisations de IAM rôle supplémentaires. Pour plus d'informations, consultez Amazon EMR Notebooks are Amazon EMR Studio Workspaces dans la console et dans la console Amazon EMR.
Tenez compte des exigences suivantes, des différences entre les versions, des informations de sécurité et d'autres considérations lorsque vous créez des clusters et développez des solutions à l'aide d'un EMR bloc-notes.
Exigences du cluster
-
Activer Amazon EMR Block Public Access : l'accès entrant à un cluster permet aux utilisateurs du cluster d'exécuter des noyaux de blocs-notes. Assurez-vous que seuls les utilisateurs autorisés peuvent accéder au cluster. Nous vous recommandons vivement de laisser le blocage de l'accès public activé et de limiter le SSH trafic entrant aux seules sources fiables. Pour plus d’informations, consultez Utiliser Amazon pour EMR bloquer l'accès public et Contrôlez le trafic réseau avec des groupes de sécurité pour votre EMR cluster Amazon.
-
Utiliser un cluster compatible – Un cluster attaché à un bloc-notes doit répondre aux exigences suivantes :
-
Seuls les clusters créés à l'aide d'Amazon EMR sont pris en charge. Vous pouvez créer un cluster indépendamment au sein d'Amazon, EMR puis joindre un EMR bloc-notes, ou vous pouvez créer un cluster compatible lorsque vous créez un EMR bloc-notes.
-
Seuls les clusters créés à l'aide des EMR versions 5.18.0 et ultérieures d'Amazon sont pris en charge. Consultez Différences de capacités en fonction de la version du cluster.
-
Les clusters créés à l'aide d'EC2instances Amazon avec des AMD EPYC processeurs (par exemple, les types d'instance m5a.* et r5a.*) ne sont pas pris en charge.
-
EMRLes blocs-notes fonctionnent uniquement avec les clusters créés avec la valeur
VisibleToAllUsers
définie sur.true
VisibleToAllUsers
esttrue
par défaut. -
Le cluster doit être lancé dans un EC2 -VPC. Les sous-réseaux publics et privés sont pris en charge. La plateforme EC2 -Classic n'est pas prise en charge.
-
Le cluster doit être lancé avec Hadoop, Spark et Livy installés. D'autres applications peuvent être installées, mais les EMR ordinateurs portables ne prennent actuellement en charge que les clusters Spark.
Important
Pour les EMR versions 5.32.0 et ultérieures d'Amazon, ou 6.2.0 et versions ultérieures, votre cluster doit également exécuter l'application Jupyter Enterprise Gateway pour fonctionner avec les ordinateurs portables. EMR
-
Les clusters avec authentification Kerberos ne sont pas pris en charge.
-
Les clusters intégrés AWS Lake Formation prennent en charge l'installation de bibliothèques adaptées aux ordinateurs portables uniquement. L'installation des noyaux et des bibliothèques sur le cluster n'est pas prise en charge.
-
Les clusters avec plusieurs nœuds primaires ne sont pas pris en charge.
-
Les clusters utilisant des EC2 instances Amazon basées sur AWS Graviton2 ne sont pas pris en charge.
-
Différences de capacités en fonction de la version du cluster
Nous vous recommandons vivement d'utiliser des EMR blocs-notes avec des clusters créés à l'aide des EMR versions 5.30.0, 5.32.0 ou ultérieures, ou 6.2.0 ou versions ultérieures d'Amazon. Avec ces versions, EMR Notebooks exécute des noyaux sur le cluster Amazon EMR attaché. Les noyaux et les bibliothèques peuvent être installés directement sur le nœud primaire du cluster. L'utilisation de EMR blocs-notes avec ces versions de cluster présente les avantages suivants :
-
Performances améliorées : les noyaux Notebook s'exécutent sur des clusters dont les types d'EC2instances sont sélectionnés. Les versions antérieures exécutent des noyaux sur une instance spécialisée qui ne peut pas être redimensionnée, accessible ou personnalisée.
-
Possibilité d'ajouter et de personnaliser des noyaux – Vous pouvez vous connecter au cluster pour installer des paquets de noyau en utilisant
conda
etpip
. En outre, l'installationpip
est prise en charge à l'aide de commandes de terminal dans les cellules de bloc-notes. Dans les versions précédentes, seuls les noyaux préinstallés étaient disponibles (Python PySpark, Spark et SparkR). Pour de plus amples informations, veuillez consulter Installation des noyaux et des bibliothèques Python sur le nœud primaire d'un cluster. -
Possibilité d'installer des bibliothèques Python – Vous pouvez installer des bibliothèques Python sur le nœud primaire du cluster en utilisant
conda
etpip
. Nous vous recommandons d'utiliserconda
. Dans les versions antérieures, seules les bibliothèques adaptées aux ordinateurs portables sont prises en charge. PySpark
Version de cluster | Bibliothèques adaptées aux ordinateurs portables pour PySpark | Installation du noyau sur le cluster | Installation de la bibliothèque Python sur le nœud primaire |
---|---|---|---|
Antérieur à 5.18.0 |
EMROrdinateurs portables non pris en charge |
||
5.18.0–5.25.0 |
Non |
Non |
Non |
5.26.0–5.29.0 |
Non |
Non |
|
5.30.0 |
|||
6.0.0 |
Non |
Non |
Non |
Version 5.32.0 et ultérieure, et version 6.2.0 et ultérieure | Oui | Oui | Oui |
Limites pour les ordinateurs portables connectés EMR simultanément
Lorsque vous créez un cluster qui prend en charge les blocs-notes, tenez compte du type d'EC2instance du nœud principal du cluster. Les contraintes de mémoire de cette EC2 instance déterminent le nombre de blocs-notes qui peuvent être prêts simultanément à exécuter du code et des requêtes sur le cluster.
Type d'EC2instance du nœud principal | Nombre de EMR carnets |
---|---|
*.medium |
2 |
*.large |
4 |
*.xlarge |
8 |
*.2xlarge |
16 |
*.4xlarge |
24 |
*.8xlarge |
24 |
*.16xlarge |
24 |
Versions de bloc-notes Jupyter et de Python
EMRNotebooks exécute Jupyter Notebook version 6.0.2
Considérations relatives à la sécurité
- Utiliser des emplacements S3 chiffrés
-
Si vous indiquez un emplacement chiffré dans Amazon S3 pour stocker les fichiers de bloc-notes, vous devez configurer le rôle Rôle de service pour les EMR ordinateurs portables en tant qu'utilisateur de clé. Le rôle de service par défaut est
EMR_Notebooks_DefaultRole
. Si vous utilisez une AWS KMS clé pour le chiffrement, consultez la section Utilisation des politiques relatives aux clés AWS KMS dans le manuel du AWS Key Management Service développeur et dans l'article d'assistance relatif à l'ajout d'utilisateurs clés. - Utilisation de cookies dans les domaines d’hébergement
-
Pour renforcer la sécurité des applications hors console que vous pouvez utiliser avec AmazonEMR, les domaines d'hébergement d'applications sont enregistrés dans la liste des suffixes publics (). PSL Voici des exemples de ces domaines d’hébergement :
emrstudio-prod.us-east-1.amazonaws.com
,emrnotebooks-prod.us-east-1.amazonaws.com
,emrappui-prod.us-east-1.amazonaws.com
. Pour plus de sécurité, si vous avez besoin de définir des cookies sensibles dans le nom de domaine par défaut, nous vous recommandons d’utiliser des cookies avec un préfixe__Host-
. Cela permet de défendre votre domaine contre les tentatives de falsification de requêtes intersites ()CSRF. Pour de plus amples informations, veuillez consulter le .Set-Cookiepage du Mozilla Developer Network.