Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configurer l'accès réseau pour votre EMR cluster Amazon
Avant de commencer à utiliser Amazon EMR ou EMR Serverless pour vos tâches de préparation des données dans Studio, assurez-vous que vous ou votre administrateur avez configuré votre réseau pour autoriser la communication entre Studio et AmazonEMR. Une fois cette communication activée, vous pouvez choisir de :
Note
Pour les utilisateurs EMR sans serveur, la configuration la plus simple consiste à créer votre application dans l'interface utilisateur de Studio sans modifier les paramètres par défaut de l'option Virtual private cloud (VPC). Cette approche permet de créer l'application au sein de votre SageMaker domaineVPC, éliminant ainsi le besoin d'une configuration réseau supplémentaire. Si vous choisissez cette option, vous pouvez ignorer la section de configuration réseau suivante.
Les instructions de mise en réseau varient selon que Studio et Amazon EMR sont déployés dans un Amazon Virtual Private Cloud privé (VPC) ou communiquent via Internet.
Par défaut, Studio ou Studio Classic s'exécutent dans un environnement AWS géré VPC avec accès à Internet. Lorsque vous utilisez une connexion Internet, Studio et Studio Classic accèdent à AWS des ressources, telles que les compartiments Amazon S3, via Internet. Toutefois, si vous avez des exigences de sécurité pour contrôler l'accès à vos données et à vos conteneurs de tâches, nous vous recommandons de configurer Studio ou Studio Classic et Amazon de EMR manière à ce que vos données et conteneurs ne soient pas accessibles sur Internet. Pour contrôler l'accès à vos ressources ou exécuter Studio ou Studio Classic sans accès public à Internet, vous pouvez spécifier le type d'accès VPC only
réseau lors de votre intégration au SageMaker domaine Amazon. Dans ce scénario, Studio et Studio Classic établissent des connexions avec d'autres AWS services via des VPCpoints de terminaison privés. Pour plus d'informations sur la configuration de Studio ou Studio Classic en VPC only
mode, voir Connecter les blocs-notes SageMaker Studio ou Studio Classic VPC à des ressources externes. .
Les deux premières sections décrivent comment garantir la communication entre Studio ou Studio Classic et Amazon EMR VPCs sans accès public à Internet. La dernière section explique comment garantir la communication entre Studio ou Studio Classic et Amazon EMR via une connexion Internet. Avant de connecter Studio ou Studio Classic à Amazon EMR sans accès à Internet, assurez-vous d'établir des points de terminaison pour Amazon Simple Storage Service (stockage des données), Amazon CloudWatch (journalisation et surveillance) et Amazon SageMaker Runtime (contrôle d'accès détaillé basé sur les rôles ()). RBAC
Pour connecter Studio ou Studio Classic à Amazon EMR :
-
Si Studio ou Studio Classic et Amazon EMR sont connectés séparémentVPCs, que ce soit sur le même AWS compte ou sur des comptes différents, consultez Studio et Amazon EMR sont séparés VPCs.
-
Si Studio ou Studio Classic et Amazon EMR se trouvent dans le même environnementVPC, consultezStudio et Amazon EMR font la même chose VPC.
-
Si vous avez choisi de connecter Studio ou Studio Classic et Amazon EMR via Internet public, consultezStudio et Amazon EMR communiquent via Internet public.
Studio et Amazon EMR sont séparés VPCs
Pour autoriser la communication entre Studio ou Studio Classic et Amazon EMR lorsqu'ils sont déployés séparément VPCs :
-
Commencez par vous connecter VPCs via une connexion de VPC peering.
-
Mettez à jour vos tables de routage dans chacune VPC d'elles pour acheminer le trafic réseau entre les sous-réseaux Studio ou Studio Classic et les sous-réseaux Amazon dans les deux EMR sens.
-
Configurez vos groupes de sécurité pour autoriser le trafic entrant et sortant.
Les étapes pour connecter Studio ou Studio Classic et Amazon EMR sont les mêmes, que les ressources soient déployées sur un seul AWS compte (cas d'utilisation avec un seul compte) ou sur plusieurs AWS comptes (cas d'utilisation entre comptes).
-
VPCpeering
Créez une connexion de VPC peering pour faciliter la mise en réseau entre les deux VPCs (Studio ou Studio Classic et AmazonEMR).
-
Depuis votre compte Studio ou Studio Classic, sur le VPC tableau de bord, choisissez Connexions d'appairage, puis Créer une connexion d'appairage.
-
Créez votre demande pour associer le Studio ou le Studio Classic VPC à Amazon EMRVPC. Lorsque vous demandez le peering sur un autre AWS compte, choisissez Un autre compte dans Sélectionner un autre compte avec lequel VPC vous souhaitez établir un pair.
Pour le peering entre comptes, l'administrateur doit accepter la demande du compte AmazonEMR.
Lors de l'appairage de sous-réseaux privés, vous devez activer la DNS résolution IP privée au niveau de la connexion d'VPCappairage.
-
-
Tables de routage
Envoyez le trafic réseau entre les sous-réseaux Studio ou Studio Classic et les sous-réseaux Amazon dans les deux EMR sens.
Une fois que vous avez établi la connexion d'appairage, l'administrateur (sur chaque compte pour un accès entre comptes) peut ajouter des itinéraires aux tables de routage des sous-réseaux privés pour acheminer le trafic entre Studio ou Studio Classic et les sous-réseaux Amazon. EMR Vous pouvez définir ces itinéraires en accédant à la section Tables de routage de chacun d'eux VPC dans le VPC tableau de bord.
L'illustration suivante de la table de routage d'un VPC sous-réseau Studio montre un exemple de route sortante entre le compte Studio et la plage d'EMRVPCadresses IP Amazon (ici
2.0.1.0/24
) via la connexion d'appairage.L'illustration suivante d'une table de routage d'un EMR VPC sous-réseau Amazon montre un exemple de routes de retour depuis la plage d'VPCadresses IP Amazon EMR VPC vers Studio (ici
10.0.20.0/24
) via la connexion d'appairage. -
Groupes de sécurité
Enfin, le groupe de sécurité de votre domaine Studio ou Studio Classic doit autoriser le trafic sortant, et le groupe de sécurité du nœud EMR principal Amazon doit autoriser le trafic entrant sur les TCP ports Apache Livy, Hive ou Presto (respectivement
8998
10000
, et8889
) depuis le groupe de sécurité des instances Studio ou Studio Classic. Apache Livyest un service qui permet d'interagir avec Amazon EMR via une REST interface.
Le schéma suivant montre un exemple de VPC configuration Amazon qui permet aux JupyterLab blocs-notes Studio Classic de provisionner des EMR clusters Amazon à partir de AWS CloudFormation modèles du Service Catalog, puis de se connecter à un EMR cluster Amazon au sein du même AWS compte. Le schéma fournit une illustration supplémentaire des points de terminaison requis pour une connexion directe à divers AWS services, tels qu'Amazon S3 ou Amazon CloudWatch, lorsqu'ils n'VPCsont pas accès à Internet. Une NATpasserelle doit également être utilisée pour permettre aux instances situées dans plusieurs sous-réseaux privés de VPCs partager une seule adresse IP publique fournie par la passerelle Internet lors de l'accès à Internet.
Studio et Amazon EMR font la même chose VPC
Si Studio ou Studio Classic et Amazon EMR se trouvent dans des sous-réseaux différents, ajoutez des itinéraires à la table de routage de chaque sous-réseau privé pour acheminer le trafic entre Studio ou Studio Classic et les sous-réseaux AmazonEMR. Vous pouvez définir ces itinéraires en accédant à la section Tables de routage de chacun d'eux VPC dans le VPC tableau de bord. Si vous avez déployé Studio ou Studio Classic et Amazon EMR dans le même VPC sous-réseau, vous n'avez pas besoin d'acheminer le trafic entre le Studio et AmazonEMR.
Que vous deviez ou non mettre à jour vos tables de routage, le groupe de sécurité de votre domaine Studio ou Studio Classic doit autoriser le trafic sortant, et le groupe de sécurité du nœud EMR principal Amazon doit autoriser le trafic entrant sur les TCP ports Apache Livy, Hive ou Presto (respectivement 8998
10000
, et8889
) depuis le groupe de sécurité des instances Studio ou Studio Classic. Apache Livy
Studio et Amazon EMR communiquent via Internet public
Par défaut, Studio et Studio Classic fournissent une interface réseau qui permet de communiquer avec Internet via une passerelle Internet VPC associée au SageMaker domaine. Si vous choisissez de vous connecter à Amazon EMR via l'Internet public, Amazon EMR doit accepter le trafic entrant sur les TCP ports Apache Livy, Hive ou Presto (respectivement 8998
10000
, et8889
) depuis sa passerelle Internet. Apache Livy
Gardez à l'esprit que tout port sur lequel vous autorisez le trafic entrant représente une faille de sécurité potentielle. Vérifiez attentivement les groupes de sécurité personnalisés pour vous assurer de réduire les failles de sécurité. Pour plus d'informations, consultez Contrôle du trafic réseau avec des groupes de sécurité.
Vous pouvez également consulter Blogs et livres blancs une procédure détaillée expliquant comment activer Kerberos sur Amazon EMR, configurer le cluster dans un sous-réseau privé et accéder au cluster à l'aide d'un Network Load Balancer (NLB) afin d'exposer uniquement des ports spécifiques, dont l'accès est contrôlé par des groupes de sécurité.
Note
Lorsque vous vous connectez à votre point de terminaison Apache Livy via l'Internet public, nous vous recommandons de sécuriser les communications entre Studio ou Studio Classic et votre EMR cluster Amazon à l'aide TLS de.
Pour plus d'informations sur la configuration HTTPS avec Apache Livy, voir Activation HTTPS avec Apache Livy. Pour plus d'informations sur la configuration d'un EMR cluster Amazon avec le chiffrement du transit activé, consultez la section Fourniture de certificats pour le chiffrement des données en transit avec le EMR chiffrement Amazon. En outre, vous devez configurer Studio ou Studio Classic pour accéder à votre clé de certificat comme indiqué dansConnectez-vous à un EMR cluster Amazon via HTTPS.