Conéctese a un clúster de Amazon EMR desde SageMaker Studio o Studio Classic - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conéctese a un clúster de Amazon EMR desde SageMaker Studio o Studio Classic

Los científicos e ingenieros de datos pueden detectar un clúster de Amazon EMR, y luego conectarse a él, directamente desde la interfaz de usuario de Studio. Antes de comenzar, asegúrese de haber configurado los permisos necesarios tal y como se describe en la sección Paso 4: configuración de los permisos para habilitar la enumeración y la inicialización de clústeres de Amazon EMR desde Studio. Estos permisos permiten a Studio crear, iniciar, ver, finalizar los clústeres y acceder a ellos.

Puede conectar un clúster de Amazon EMR a un nuevo JupyterLab bloc de notas directamente desde la interfaz de usuario de Studio, o bien elegir iniciar la conexión en un bloc de notas de una aplicación en ejecución JupyterLab .

importante

Solo puede descubrir clústeres de Amazon EMR y conectarse a ellos para JupyterLab aplicaciones de Studio Classic que se lancen desde espacios privados. Asegúrese de que los clústeres de Amazon EMR estén ubicados en la misma AWS región que su entorno de Studio. Su JupyterLab espacio debe usar una versión SageMaker de imagen de distribución 1.10 o superior.

Conexión a un clúster de Amazon EMR mediante la IA de Studio

Para conectarse a su clúster mediante la interfaz de usuario de Studio o Studio Classic, puede iniciar una conexión desde la lista de clústeres a los que se accede o desde una libreta de SageMaker Studio o Studio Classic. Enumeración de clústeres de Amazon EMR desde Studio o Studio Classic

Para conectar un clúster de Amazon EMR a un nuevo JupyterLab bloc de notas desde la interfaz de usuario de Studio:
  1. En el panel izquierdo de la IA de Studio, seleccione el nodo Datos en el menú de navegación izquierdo. Navegue hasta Aplicaciones y clústeres de Amazon EMR. Se abrirá una página con una lista de los clústeres de Amazon EMR a los que puede acceder desde Studio en la pestaña Clústeres de Amazon EMR.

    nota

    Si usted o su administrador han configurado los permisos para permitir el acceso entre cuentas a los clústeres de Amazon EMR, podrá ver una lista consolidada de los clústeres de todas las cuentas a las que haya concedido acceso a Studio.

  2. Seleccione un clúster de Amazon EMR que desee conectar a un nuevo cuaderno y, a continuación, seleccione Asociar a cuaderno. Esto abre una ventana modal que muestra la lista de sus JupyterLab espacios.

    • Seleccione el espacio desde el que desea iniciar una JupyterLab aplicación y, a continuación, elija Abrir bloc de notas. Se abrirá una JupyterLab aplicación desde el espacio elegido y se abrirá un nuevo bloc de notas.

      nota

      Los usuarios de Studio Classic deben seleccionar una imagen y un kernel. Para obtener una lista de imágenes compatibles, consulte Imágenes y kernels compatibles para conectarse a un clúster de Amazon EMR desde Studio o Studio Classic o Traiga su propia imagen.

    • Como alternativa, puede crear un nuevo espacio privado pulsando el botón Crear nuevo espacio en la parte superior de la ventana modal. Introduzca un nombre para su espacio y, a continuación, seleccione Crear espacio y abrir el cuaderno. De este modo, se crea un espacio privado con el tipo de instancia predeterminado y la imagen de SageMaker distribución más reciente disponible, se inicia una JupyterLab aplicación y se abre un nuevo bloc de notas.

  3. Si el clúster que seleccione no utiliza la autenticación Kerberos, LDAP o de rol de tiempo de ejecución, Studio le pedirá que seleccione el tipo de credencial. Elija entre Http basic authentication (Autenticación básica HTTP) o No credentials (Sin credenciales) e introduzca sus credenciales, si corresponde.

    Si el clúster que selecciona admite roles de tiempo de ejecución, elija el nombre de el rol de IAM que su clúster de Amazon EMR puede asumir para la ejecución del trabajo.

    importante

    Para conectar correctamente un JupyterLab bloc de notas a un clúster de Amazon EMR que admita funciones de tiempo de ejecución, primero debe asociar la lista de funciones de tiempo de ejecución a su dominio o perfil de usuario, tal y como se describe en. Configuración de roles de tiempo de ejecución de IAM para el acceso al clúster de Amazon EMR en Studio Si no realiza este paso, no podrá establecer la conexión.

    Al seleccionarlo, un comando de conexión rellena la primera celda del cuaderno e inicia la conexión con el clúster de Amazon EMR.

    Cuando la conexión se realice correctamente, un mensaje confirmará la conexión y el inicio de la aplicación Spark.

Como alternativa, puede conectarse a un clúster desde una libreta JupyterLab o una de Studio Classic.
  1. Seleccione el botón Clúster en la parte superior del cuaderno. Se abrirá una ventana modal con una lista de los clústeres de Amazon EMR en un estado Running al que puede acceder. Puede ver los clústeres de Amazon EMR de Running en la pestaña Clústeres de Amazon EMR.

    nota

    Para los usuarios de Studio Classic, Clúster solo es visible cuando se utiliza un kernel desde Imágenes y kernels compatibles para conectarse a un clúster de Amazon EMR desde Studio o Studio Classic o desde Traiga su propia imagen. Si no puede ver Clúster en la parte superior de su cuaderno, asegúrese de que el administrador haya configurado la capacidad de detección de los clústeres y cambie a un kernel compatible.

  2. Seleccione el clúster al que desea conectarse y, a continuación, elija Connect (Conectar).

  3. Si ha configurado sus clústeres de Amazon EMR para que admitan roles de IAM en tiempo de ejecución, puede seleccionar su rol en el menú desplegable Rol de ejecución de Amazon EMR.

    importante

    Para conectar correctamente un JupyterLab bloc de notas a un clúster de Amazon EMR que admita funciones de tiempo de ejecución, primero debe asociar la lista de funciones de tiempo de ejecución a su dominio o perfil de usuario, tal y como se describe en. Configuración de roles de tiempo de ejecución de IAM para el acceso al clúster de Amazon EMR en Studio Si no realiza este paso, no podrá establecer la conexión.

    De lo contrario, si el clúster que elija no utiliza la autenticación Kerberos, LDAP o de roles en tiempo de ejecución, Studio o Studio Classic le pedirá que seleccione el tipo de credencial. Puede elegir entre HTTP basic authentication (Autenticación básica HTTP) o No credential (Sin credenciales).

  4. Studio añade un bloque de código a una celda activa y, a continuación, ejecuta un bloque de código para establecer la conexión. Esta celda contiene el comando mágico de conexión para conectar el cuaderno a la aplicación según el tipo de autenticación.

    Cuando la conexión se realice correctamente, un mensaje confirmará la conexión y el inicio de la aplicación Spark.

Conexión a un clúster de Amazon EMR mediante un comando de conexión

Para establecer una conexión a un clúster de Amazon EMR, puede ejecutar comandos de conexión dentro de una celda del cuaderno.

Al establecer la conexión, puede autenticarse mediante Kerberos, el Protocolo ligero de acceso a directorios (LDAP) o la autenticación de roles de IAM en tiempo de ejecución. El método de autenticación que elija depende de la configuración del clúster.

Puede consultar este ejemplo: Access Apache Livy using a Network Load Balancer on a Kerberos-enabled Amazon EMR cluster para configurar un clúster de Amazon EMR que utilice la autenticación Kerberos. Como alternativa, puede explorar las plantillas de CloudFormation ejemplo que utilizan la autenticación Kerberos o LDAP en el repositorio aws-samples/. sagemaker-studio-emr GitHub

Si su administrador ha habilitado el acceso entre cuentas, puede conectarse a su clúster de Amazon EMR desde un bloc de notas de Studio Classic, independientemente de si la aplicación y el clúster de Studio Classic residen en la AWS misma cuenta o en cuentas diferentes.

Para cada uno de los siguientes tipos de autenticación, utilice el comando especificado para conectarse al clúster desde su cuaderno de Studio o Studio Classic.

  • Kerberos

    Añada el argumento --assumable-role-arn si necesita acceso entre cuentas a Amazon EMR. Añada el argumento --verify-certificate si se conecta a su clúster mediante HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Kerberos --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • LDAP

    Añada el argumento --assumable-role-arn si necesita acceso entre cuentas a Amazon EMR. Añada el argumento --verify-certificate si se conecta a su clúster mediante HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • NoAuth

    Añada el argumento --assumable-role-arn si necesita acceso entre cuentas a Amazon EMR. Añada el argumento --verify-certificate si se conecta a su clúster mediante HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type None --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • Roles de IAM en tiempo de ejecución

    Añada el argumento --assumable-role-arn si necesita acceso entre cuentas a Amazon EMR. Añada el argumento --verify-certificate si se conecta a su clúster mediante HTTPS.

    Para obtener más información acerca de la conexión a un clúster de Amazon EMR utilizando las funciones de IAM en tiempo de ejecución, consulte Configuración de roles de tiempo de ejecución de IAM para el acceso al clúster de Amazon EMR en Studio .

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name [--assumable-role-arn EMR_access_role_ARN] [--verify-certificate /home/user/certificateKey.pem]

Conectar a un clúster de Amazon EMR a través de HTTPS

Si ha configurado su clúster de Amazon EMR con el cifrado de tránsito habilitado y el servidor de Apache Livy para HTTPS y desea que Studio o Studio Classic se comunique con Amazon EMR mediante HTTPS, debe configurar Studio o Studio Classic para acceder a su clave de certificado.

En el caso de los certificados autofirmados o firmados por una autoridad de certificación (CA) local, puede hacerlo en dos pasos:

  1. Descargue el archivo PEM del certificado en el sistema de archivos local con una de las siguientes opciones:

  2. Habilite la validación del certificado proporcionando la ruta al certificado en el argumento --verify-certificate del comando de conexión.

    %sm_analytics emr connect --cluster-id cluster_id \ --verify-certificate /home/user/certificateKey.pem ...

Para los certificados públicos emitidos por una CA, defina la validación del certificado configurando el parámetro --verify-certificate como true.

Como alternativa, puede deshabilitar la validación del certificado configurando el parámetro --verify-certificate como false.

Puede encontrar la lista de comandos de conexión disponibles a un clúster de Amazon EMR en Conexión a un clúster de Amazon EMR mediante un comando de conexión.