Connectez-vous à un cluster Amazon EMR depuis SageMaker Studio ou Studio Classic - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Connectez-vous à un cluster Amazon EMR depuis SageMaker Studio ou Studio Classic

Les data scientists et les ingénieurs de données peuvent découvrir puis se connecter à un cluster Amazon EMR directement depuis l'interface utilisateur de Studio. Avant de commencer, assurez-vous d'avoir configuré les autorisations nécessaires, comme décrit dans la Étape 4 : configurer les autorisations pour permettre de répertorier et de lancer des clusters Amazon EMR depuis Studio section. Ces autorisations permettent à Studio de créer, démarrer, afficher, accéder et terminer des clusters.

Vous pouvez connecter un cluster Amazon EMR à un nouveau JupyterLab bloc-notes directement depuis l'interface utilisateur de Studio, ou choisir d'établir la connexion dans le bloc-notes d'une application en cours d'exécution JupyterLab .

Important

Vous pouvez uniquement découvrir et vous connecter aux clusters Amazon EMR JupyterLab et aux applications Studio Classic lancées depuis des espaces privés. Assurez-vous que les clusters Amazon EMR sont situés dans la même AWS région que votre environnement Studio. Votre JupyterLab espace doit utiliser une version image de SageMaker distribution 1.10 ou supérieure.

Connectez-vous à un cluster Amazon EMR à l'aide de l'interface utilisateur de Studio

Pour vous connecter à votre cluster à l'aide de l'interface utilisateur de Studio ou de Studio Classic, vous pouvez établir une connexion à partir de la liste des clusters auxquels vous accédez ou à partir d'un bloc-notes dans SageMaker Studio ou Studio Classic. Répertorier les clusters Amazon EMR depuis Studio ou Studio Classic

Pour connecter un cluster Amazon EMR à un nouveau JupyterLab bloc-notes depuis l'interface utilisateur de Studio :
  1. Dans le panneau de gauche de l'interface utilisateur de Studio, sélectionnez le nœud Data dans le menu de navigation de gauche. Accédez aux applications et clusters Amazon EMR. Cela ouvre une page répertoriant les clusters Amazon EMR auxquels vous pouvez accéder depuis Studio dans l'onglet Clusters Amazon EMR.

    Note

    Si vous ou votre administrateur avez configuré les autorisations pour autoriser l'accès entre comptes aux clusters Amazon EMR, vous pouvez consulter une liste consolidée des clusters pour tous les comptes auxquels vous avez accordé l'accès à Studio.

  2. Sélectionnez le cluster Amazon EMR que vous souhaitez connecter à un nouveau bloc-notes, puis choisissez Attacher au bloc-notes. Cela ouvre une fenêtre modale affichant la liste de vos JupyterLab espaces.

    • Sélectionnez l'espace à partir duquel vous souhaitez lancer une JupyterLab application, puis choisissez Ouvrir le bloc-notes. Cela lance une JupyterLab application depuis l'espace que vous avez choisi et ouvre un nouveau bloc-notes.

      Note

      Les utilisateurs de Studio Classic doivent sélectionner une image et un noyau. Pour obtenir la liste des images prises en charge, consultez Images et noyaux pris en charge pour se connecter à un cluster Amazon EMR depuis Studio ou Studio Classic ou référez-vous à Apporter votre propre image.

    • Vous pouvez également créer un nouvel espace privé en cliquant sur le bouton Créer un nouvel espace en haut de la fenêtre modale. Entrez un nom pour votre espace, puis choisissez Créer un espace et ouvrir un bloc-notes. Cela crée un espace privé avec le type d'instance par défaut et SageMaker la dernière image de distribution disponible, lance une JupyterLab application et ouvre un nouveau bloc-notes.

  3. Si le cluster que vous sélectionnez n'utilise pas Kerberos, LDAP ou l'authentification par rôle d'exécution, Studio vous invite à sélectionner le type d'identifiant. Choisissez entre Authentification de base HTTP ou Aucune information d'identification, puis entrez vos informations d'identification, le cas échéant.

    Si le cluster que vous sélectionnez prend en charge les rôles d'exécution, choisissez le nom du rôle IAM que votre cluster Amazon EMR peut assumer pour l'exécution de la tâche.

    Important

    Pour connecter correctement un JupyterLab bloc-notes à un cluster Amazon EMR prenant en charge les rôles d'exécution, vous devez d'abord associer la liste des rôles d'exécution à votre domaine ou à votre profil utilisateur, comme indiqué dans. Configuration des rôles d'exécution IAM pour l'accès au cluster Amazon EMR dans Studio Si vous ne complétez pas cette étape, vous ne pourrez pas établir la connexion.

    Lors de la sélection, une commande de connexion remplit la première cellule de votre bloc-notes et établit la connexion avec le cluster Amazon EMR.

    Une fois la connexion établie, un message confirme la connexion et le démarrage de l'application Spark.

Vous pouvez également vous connecter à un cluster à partir d'un bloc-notes JupyterLab ou d'un bloc-notes Studio Classic.
  1. Cliquez sur le bouton Cluster en haut de votre bloc-notes. Cela ouvre une fenêtre modale répertoriant les clusters Amazon EMR dans un Running état auquel vous pouvez accéder. Vous pouvez voir les clusters Running Amazon EMR dans l'onglet Clusters Amazon EMR.

    Note

    Pour les utilisateurs de Studio Classic, Cluster n'est visible que lorsque vous utilisez un noyau depuis Images et noyaux pris en charge pour se connecter à un cluster Amazon EMR depuis Studio ou Studio Classic ou depuisApporter votre propre image. Si vous ne voyez pas Cluster en haut de votre bloc-notes, assurez-vous que votre administrateur a configuré la découvrabilité de vos clusters et passez à un noyau compatible.

  2. Sélectionnez le cluster auquel vous souhaitez vous connecter, puis choisissez Connecter.

  3. Si vous avez configuré vos clusters Amazon EMR pour prendre en charge les rôles IAM d'exécution, vous pouvez sélectionner votre rôle dans le menu déroulant des rôles d'exécution Amazon EMR.

    Important

    Pour connecter correctement un JupyterLab bloc-notes à un cluster Amazon EMR prenant en charge les rôles d'exécution, vous devez d'abord associer la liste des rôles d'exécution à votre domaine ou à votre profil utilisateur, comme indiqué dans. Configuration des rôles d'exécution IAM pour l'accès au cluster Amazon EMR dans Studio Si vous ne complétez pas cette étape, vous ne pourrez pas établir la connexion.

    Sinon, si le cluster que vous choisissez n'utilise pas Kerberos, LDAP ou l'authentification par rôle d'exécution, Studio ou Studio Classic vous invite à sélectionner le type d'identifiant. Vous pouvez sélectionner HTTP basic authentication (Authentification de base HTTP) ou No credential (Pas d'information d'identification).

  4. Studio ajoute puis exécute un bloc de code dans une cellule active pour établir la connexion. Cette cellule contient la commande magique de connexion permettant de connecter votre bloc-notes à votre application en fonction de votre type d'authentification.

    Une fois la connexion établie, un message confirme la connexion et le démarrage de l'application Spark.

Connectez-vous à un cluster Amazon EMR à l'aide d'une commande de connexion

Pour établir une connexion à un cluster Amazon EMR, vous pouvez exécuter des commandes de connexion dans une cellule de bloc-notes.

Lorsque vous établissez la connexion, vous pouvez vous authentifier à l'aide de Kerberos, du protocole LDAP (Lightweight Directory Access Protocol) ou de l'authentification de rôle IAM à l'exécution. La méthode d'authentification que vous choisissez dépend de la configuration de votre cluster.

Vous pouvez vous référer à cet exemple : accédez à Apache Livy à l'aide d'un Network Load Balancer sur un cluster Amazon EMR compatible Kerberos pour configurer un cluster Amazon EMR utilisant l'authentification Kerberos. Vous pouvez également explorer les CloudFormation exemples de modèles utilisant l'authentification Kerberos ou LDAP dans le référentiel aws-samples/. sagemaker-studio-emr GitHub

Si votre administrateur a activé l'accès entre comptes, vous pouvez vous connecter à votre cluster Amazon EMR depuis un bloc-notes Studio Classic, que votre application Studio Classic et votre cluster résident sur le AWS même compte ou sur des comptes différents.

Pour chacun des types d'authentification suivants, utilisez la commande spécifiée pour vous connecter à votre cluster depuis votre bloc-notes Studio ou Studio Classic.

  • Kerberos

    Ajoutez l'argument --assumable-role-arn si vous avez besoin d'un accès Amazon EMR entre comptes. Ajoutez l'argument --verify-certificate si vous vous connectez à votre cluster via HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Kerberos --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • LDAP

    Ajoutez l'argument --assumable-role-arn si vous avez besoin d'un accès Amazon EMR entre comptes. Ajoutez l'argument --verify-certificate si vous vous connectez à votre cluster via HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • NoAuth

    Ajoutez l'argument --assumable-role-arn si vous avez besoin d'un accès Amazon EMR entre comptes. Ajoutez l'argument --verify-certificate si vous vous connectez à votre cluster via HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type None --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • Rôles IAM d'exécution

    Ajoutez l'argument --assumable-role-arn si vous avez besoin d'un accès Amazon EMR entre comptes. Ajoutez l'argument --verify-certificate si vous vous connectez à votre cluster via HTTPS.

    Pour plus d'informations sur la connexion à un cluster Amazon EMR à l'aide de rôles IAM d'exécution, consultez Configuration des rôles d'exécution IAM pour l'accès au cluster Amazon EMR dans Studio .

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name [--assumable-role-arn EMR_access_role_ARN] [--verify-certificate /home/user/certificateKey.pem]

Connexion à un cluster Amazon EMR via HTTPS

Si vous avez configuré votre cluster Amazon EMR avec le chiffrement de transit activé et le serveur Apache Livy pour HTTPS et que vous souhaitez que Studio ou Studio Classic communique avec Amazon EMR via HTTPS, vous devez configurer Studio ou Studio Classic pour accéder à votre clé de certificat.

Pour les certificats autosignés ou signés par l'autorité de certification (CA) locale, vous pouvez procéder en deux étapes :

  1. Téléchargez le fichier PEM de votre certificat sur votre système de fichiers local à l'aide de l'une des options suivantes :

  2. Activez la validation du certificat en fournissant le chemin d'accès à votre certificat dans l'argument --verify-certificate de votre commande de connexion.

    %sm_analytics emr connect --cluster-id cluster_id \ --verify-certificate /home/user/certificateKey.pem ...

Pour les certificats publics émis par une autorité de certification, définissez la validation du certificat en définissant le paramètre --verify-certificate comme true.

Vous pouvez également désactiver la validation du certificat en définissant le paramètre --verify-certificate comme false.

Vous pouvez trouver la liste des commandes de connexion disponibles pour un cluster Amazon EMR dans Connectez-vous à un cluster Amazon EMR à l'aide d'une commande de connexion.