Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configurer l'accès réseau pour votre cluster Amazon EMR
Avant de commencer à utiliser Amazon EMR ou EMR Serverless pour vos tâches de préparation des données dans Studio, assurez-vous que vous ou votre administrateur avez configuré votre réseau pour autoriser la communication entre Studio et Amazon EMR. Une fois cette communication activée, vous pouvez choisir de :
Note
Pour les utilisateurs d'EMR Serverless, la configuration la plus simple consiste à créer votre application dans l'interface utilisateur de Studio sans modifier les paramètres par défaut de l'option Virtual Private Cloud (VPC). Cette approche permet de créer l'application au sein du VPC de votre SageMaker domaine, éliminant ainsi le besoin de configuration réseau supplémentaire. Si vous choisissez cette option, vous pouvez ignorer la section de configuration réseau suivante.
Les instructions de mise en réseau varient selon que Studio et Amazon EMR sont déployés au sein d'un Amazon Virtual Private Cloud (VPC) privé ou communiquent via Internet.
Par défaut, Studio ou Studio Classic s'exécutent dans un VPC AWS géré avec accès à Internet. Lorsque vous utilisez une connexion Internet, Studio et Studio Classic accèdent à AWS des ressources, telles que les compartiments Amazon S3, via Internet. Toutefois, si vous avez des exigences de sécurité pour contrôler l'accès à vos données et à vos conteneurs de tâches, nous vous recommandons de configurer Studio ou Studio Classic et Amazon EMR afin que vos données et conteneurs ne soient pas accessibles via Internet. Pour contrôler l'accès à vos ressources ou exécuter Studio ou Studio Classic sans accès public à Internet, vous pouvez spécifier le type d'accès au VPC only
réseau lorsque vous vous connectez au domaine Amazon SageMaker AI. Dans ce scénario, Studio et Studio Classic établissent des connexions avec d'autres AWS services via des points de terminaison VPC privés. Pour plus d'informations sur la configuration de Studio ou Studio Classic en VPC only
mode, voir Connecter des blocs-notes SageMaker Studio ou Studio Classic à des ressources externes dans un VPC. .
Les deux premières sections décrivent comment garantir la communication entre Studio ou Studio Classic et Amazon EMR VPCs sans accès public à Internet. La dernière section explique comment garantir la communication entre Studio ou Studio Classic et Amazon EMR via une connexion Internet. Avant de connecter Studio ou Studio Classic à Amazon EMR sans accès à Internet, assurez-vous d'établir des points de terminaison pour Amazon Simple Storage Service (stockage des données), Amazon (journalisation et surveillance) et Amazon SageMaker Runtime CloudWatch (contrôle d'accès détaillé basé sur les rôles (RBAC)).
Pour connecter Studio ou Studio Classic à Amazon EMR :
-
Si Studio ou Studio Classic et Amazon EMR sont connectés séparément VPCs, que ce soit sur le même AWS compte ou sur des comptes différents, consultez. Studio et Amazon EMR sont séparés VPCs
-
Si Studio ou Studio Classic et Amazon EMR se trouvent dans le même VPC, consultez. Studio et Amazon EMR se trouvent dans le même VPC
-
Si vous avez choisi de connecter Studio ou Studio Classic et Amazon EMR via Internet public, consultez. Studio et Amazon EMR communiquent via l'Internet public
Studio et Amazon EMR sont séparés VPCs
Pour autoriser la communication entre Studio ou Studio Classic et Amazon EMR lorsqu'ils sont déployés séparément : VPCs
-
Commencez par vous connecter VPCs via une connexion d'appairage VPC.
-
Mettez à jour vos tables de routage dans chaque VPC pour acheminer le trafic réseau entre les sous-réseaux Studio ou Studio Classic et les sous-réseaux Amazon EMR dans les deux sens.
-
Configurez vos groupes de sécurité pour autoriser le trafic entrant et sortant.
Les étapes pour connecter Studio ou Studio Classic et Amazon EMR sont les mêmes, que les ressources soient déployées sur un seul AWS compte (cas d'utilisation avec un seul compte) ou sur plusieurs AWS comptes (cas d'utilisation entre comptes).
-
Appairage de VPC
Créez une connexion d'appairage VPC pour faciliter la mise en réseau entre les deux VPCs (Studio ou Studio Classic et Amazon EMR).
-
Depuis votre compte Studio ou Studio Classic, sur le tableau de bord VPC, choisissez Connexions d'appairage, puis Créer une connexion d'appairage.
-
Créez votre demande pour associer le VPC Studio ou Studio Classic au VPC Amazon EMR. Lorsque vous demandez le peering sur un autre AWS compte, choisissez Another account dans Select another VPC to peer with.
Pour le peering entre comptes, l'administrateur doit accepter la demande provenant du compte Amazon EMR.
Lors de l'appairage de sous-réseaux privés, vous devez activer la résolution DNS IP privée au niveau de la connexion d'appairage de VPC.
-
-
Tables de routage
Envoyez le trafic réseau entre les sous-réseaux Studio ou Studio Classic et les sous-réseaux Amazon EMR dans les deux sens.
Une fois que vous avez établi la connexion d'appairage, l'administrateur (sur chaque compte pour un accès entre comptes) peut ajouter des itinéraires aux tables de routage des sous-réseaux privés pour acheminer le trafic entre Studio ou Studio Classic et les sous-réseaux Amazon EMR. Vous pouvez définir ces routes en accédant à la section Tables de routage de chaque VPC dans le tableau de bord du VPC.
L'illustration suivante de la table de routage d'un sous-réseau VPC Studio montre un exemple de route sortante entre le compte Studio et la plage d'adresses IP VPC Amazon EMR (ici) via la connexion d'appairage.
2.0.1.0/24
L'illustration suivante de la table de routage d'un sous-réseau de VPC Amazon EMR montre un exemple de route de retour entre le VPC Amazon EMR et la plage d'adresses IP du VPC Studio (ici
10.0.20.0/24
) via la connexion d'appairage. -
Groupes de sécurité
Enfin, le groupe de sécurité de votre domaine Studio ou Studio Classic doit autoriser le trafic sortant, et le groupe de sécurité du nœud principal Amazon EMR doit autoriser le trafic entrant sur les ports TCP Apache Livy, Hive ou Presto (
8998
respectivement10000
,8889
et) depuis le groupe de sécurité de l'instance Studio ou Studio Classic. Apache Livyest un service qui permet d'interagir avec Amazon EMR via une interface REST.
Le schéma suivant montre un exemple de configuration Amazon VPC qui permet aux JupyterLab blocs-notes Studio Classic de provisionner des clusters Amazon EMR à partir de modèles figurant dans AWS CloudFormation le Service Catalog, puis de se connecter à un cluster Amazon EMR au sein du même compte. AWS Le schéma fournit une illustration supplémentaire des points de terminaison requis pour une connexion directe à divers AWS services, tels qu'Amazon S3 ou Amazon CloudWatch, lorsqu'ils n' VPCs ont pas accès à Internet. Une passerelle NAT doit également être utilisée pour permettre aux instances situées dans des sous-réseaux privés de plusieurs de VPCs partager une seule adresse IP publique fournie par la passerelle Internet lors de l'accès à Internet.

Studio et Amazon EMR se trouvent dans le même VPC
Si Studio ou Studio Classic et Amazon EMR se trouvent dans des sous-réseaux différents, ajoutez des itinéraires à la table de routage de chaque sous-réseau privé pour acheminer le trafic entre Studio ou Studio Classic et les sous-réseaux Amazon EMR. Vous pouvez définir ces routes en accédant à la section Tables de routage de chaque VPC dans le tableau de bord du VPC. Si vous avez déployé Studio ou Studio Classic et Amazon EMR dans le même VPC et le même sous-réseau, vous n'avez pas besoin d'acheminer le trafic entre le Studio et Amazon EMR.
Que vous deviez ou non mettre à jour vos tables de routage, le groupe de sécurité de votre domaine Studio ou Studio Classic doit autoriser le trafic sortant, et le groupe de sécurité du nœud principal Amazon EMR doit autoriser le trafic entrant sur les ports TCP Apache Livy, Hive ou Presto (8998
respectivement10000
, 8889
et) depuis le groupe de sécurité des instances Studio ou Studio Classic. Apache Livy
Studio et Amazon EMR communiquent via l'Internet public
Par défaut, Studio et Studio Classic fournissent une interface réseau qui permet de communiquer avec Internet via une passerelle Internet dans le VPC associé au SageMaker domaine. Si vous choisissez de vous connecter à Amazon EMR via l'Internet public, Amazon EMR doit accepter le trafic entrant sur les ports TCP Apache Livy, Hive ou Presto (respectivement8998
, et) depuis sa passerelle Internet. 10000
8889
Apache Livy
Gardez à l'esprit que tout port sur lequel vous autorisez le trafic entrant représente une faille de sécurité potentielle. Vérifiez attentivement les groupes de sécurité personnalisés pour vous assurer de réduire les failles de sécurité. Pour plus d'informations, consultez Contrôle du trafic réseau avec des groupes de sécurité.
Vous pouvez également consulter Blogs et livres blancs pour une présentation détaillée expliquant comment activer Kerberos sur Amazon EMR, configurer le cluster dans un sous-réseau privé et accéder au cluster à l'aide d'un Network Load Balancer (NLB) afin d'exposer uniquement des ports spécifiques, dont l'accès est contrôlé par des groupes de sécurité.
Note
Lorsque vous vous connectez à votre point de terminaison Apache Livy via l'Internet public, nous vous recommandons de sécuriser les communications entre Studio ou Studio Classic et votre cluster Amazon EMR à l'aide du protocole TLS.
Pour en savoir plus sur la configuration du protocole HTTPS avec Apache Livy, consultez Activation du protocole HTTPS avec Apache Livy. Pour en savoir plus sur la configuration d'un cluster Amazon EMR avec le chiffrement en transit activé, consultez Fourniture de certificats pour le chiffrement des données en transit avec le chiffrement Amazon EMR. En outre, vous devez configurer Studio ou Studio Classic pour accéder à votre clé de certificat comme indiqué dansConnexion à un cluster Amazon EMR via HTTPS.