SageMaker Studio 또는 Studio Classic에서 Amazon EMR 클러스터에 연결 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Studio 또는 Studio Classic에서 Amazon EMR 클러스터에 연결

데이터 사이언티스트와 데이터 엔지니어는 Studio 사용자 인터페이스에서 직접 Amazon EMR 클러스터를 검색한 다음 연결할 수 있습니다. 시작하기 전에 4단계: Studio에서 Amazon EMR 클러스터 나열 및 시작을 활성화하는 권한 설정 섹션에 설명된 대로 필요한 권한을 구성했는지 확인합니다. 이러한 권한은 Studio에 클러스터를 생성, 시작, 보기, 액세스 및 종료할 수 있는 기능을 부여합니다.

Studio UI에서 직접 Amazon EMR 클러스터를 새 JupyterLab 노트북에 연결하거나 실행 중인 JupyterLab 애플리케이션의 노트북에서 연결을 시작하도록 선택할 수 있습니다.

중요

프라이빗 스페이스에서 시작된 JupyterLab 및 Studio Classic 애플리케이션에 대한 Amazon EMR 클러스터만 검색하고 연결할 수 있습니다. Amazon EMR 클러스터가 Studio 환경과 동일한 AWS 리전에 있는지 확인합니다. JupyterLab 공간은 SageMaker 배포 이미지 버전 1.10 이상을 사용해야 합니다.

Studio UI를 사용하여 Amazon EMR 클러스터에 연결

Studio 또는 Studio Classic UI를 사용하여 클러스터에 연결하려면 에서 액세스하는 클러스터 목록 또는 SageMaker Studio 또는 Studio Classic의 노트북Studio 또는 Studio Classic의 Amazon EMR 클러스터 나열에서 연결을 시작할 수 있습니다.

Studio UI에서 Amazon EMR 클러스터를 새 JupyterLab 노트북에 연결하려면:
  1. Studio UI의 왼쪽 패널에서 왼쪽 탐색 메뉴에서 데이터 노드를 선택합니다. Amazon EMR 애플리케이션 및 클러스터 로 이동합니다. 그러면 Amazon EMR 클러스터 탭의 Studio에서 액세스할 수 있는 Amazon EMR 클러스터가 나열된 페이지가 열립니다.

    참고

    사용자 또는 관리자가 Amazon EMR 클러스터에 대한 교차 계정 액세스를 허용하도록 권한을 구성한 경우 Studio에 대한 액세스 권한을 부여한 모든 계정의 통합 클러스터 목록을 볼 수 있습니다.

  2. 새 노트북에 연결할 Amazon EMR 클러스터를 선택한 다음 노트북에 연결을 선택합니다. 그러면 JupyterLab 공백 목록이 표시된 모달 창이 열립니다.

    • 애플리케이션을 시작할 JupyterLab 공간을 선택한 다음 노트북 열기를 선택합니다. 그러면 선택한 공간에서 JupyterLab 애플리케이션이 시작되고 새 노트북이 열립니다.

      참고

      Studio Classic 사용자는 이미지와 커널을 선택해야 합니다. 지원되는 이미지 목록은 Studio 또는 Studio Classic에서 Amazon EMR 클러스터에 연결하는 데 지원되는 이미지 및 커널 또는 고유 이미지 가져오기를 참조하세요.

    • 또는 모달 창 상단의 새 공간 생성 버튼을 선택하여 새 프라이빗 공간을 생성할 수 있습니다. 공간 이름을 입력한 다음 공간 생성을 선택하고 노트북을 엽니다. 이렇게 하면 기본 인스턴스 유형과 사용 가능한 최신 SageMaker 배포 이미지가 있는 프라이빗 공간이 생성되고, 애플리케이션이 시작 JupyterLab되고, 새 노트북이 열립니다.

  3. 선택한 클러스터가 Kerberos, LDAP또는 런타임 역할 인증을 사용하지 않는 경우 Studio는 자격 증명 유형을 선택하라는 메시지를 표시합니다. Http 기본 인증 또는 자격 증명 없음 중에서 선택한 다음 해당하는 경우 자격 증명을 입력합니다.

    선택한 클러스터가 런타임 역할을 지원하는 경우 Amazon EMR 클러스터가 작업 실행을 위해 수임할 수 있는 IAM 역할의 이름을 선택합니다.

    중요

    런타임 역할을 지원하는 Amazon EMR 클러스터에 JupyterLab 노트북을 성공적으로 연결하려면 먼저 에 설명된 대로 런타임 역할 목록을 도메인 또는 사용자 프로필과 연결해야 합니다Studio에서 Amazon EMR 클러스터 액세스를 위한 IAM 런타임 역할 구성 . 이 단계를 완료하지 않으면 연결을 설정할 수 없습니다.

    선택하면 연결 명령이 노트북의 첫 번째 셀을 채우고 Amazon EMR 클러스터와의 연결을 시작합니다.

    연결에 성공하면 Spark 애플리케이션의 연결과 시작을 확인하는 메시지가 나타납니다.

또는 JupyterLab 또는 Studio Classic 노트북에서 클러스터에 연결할 수 있습니다.
  1. 노트북 상단의 클러스터 버튼을 선택합니다. 그러면 액세스할 수 있는 Running 상태의 Amazon EMR 클러스터가 나열된 모달 창이 열립니다. Running Amazon EMR 클러스터 탭에서 Amazon EMR 클러스터를 볼 수 있습니다.

    참고

    Studio Classic 사용자의 경우 클러스터Studio 또는 Studio Classic에서 Amazon EMR 클러스터에 연결하는 데 지원되는 이미지 및 커널 또는 의 커널을 사용하는 경우에만 표시됩니다고유 이미지 가져오기. 노트북 상단에 클러스터가 보이지 않는 경우 관리자가 클러스터 검색 가능성을 구성했는지 확인하고 지원되는 커널로 전환합니다.

  2. 연결할 클러스터를 선택한 다음 연결을 선택합니다.

  3. 런타임 IAM 역할을 지원하도록 Amazon EMR 클러스터를 구성한 경우 Amazon EMR 실행 역할 드롭다운 메뉴에서 역할을 선택할 수 있습니다.

    중요

    런타임 역할을 지원하는 Amazon EMR 클러스터에 JupyterLab 노트북을 성공적으로 연결하려면 먼저 에 설명된 대로 런타임 역할 목록을 도메인 또는 사용자 프로필과 연결해야 합니다Studio에서 Amazon EMR 클러스터 액세스를 위한 IAM 런타임 역할 구성 . 이 단계를 완료하지 않으면 연결을 설정할 수 없습니다.

    그렇지 않으면 선택한 클러스터가 Kerberos, LDAP또는 런타임 역할 인증을 사용하지 않는 경우 Studio 또는 Studio Classic에서 자격 증명 유형을 선택하라는 메시지를 표시합니다. HTTP 기본 인증 또는 자격 증명 없음을 선택할 수 있습니다.

  4. Studio는 활성 셀에 코드 블록을 추가한 다음 실행하여 연결을 설정합니다. 이 셀에는 인증 유형에 따라 노트북을 애플리케이션에 연결하는 연결 매직 명령이 포함되어 있습니다.

    연결에 성공하면 Spark 애플리케이션의 연결과 시작을 확인하는 메시지가 나타납니다.

연결 명령을 사용하여 Amazon EMR 클러스터에 연결

Amazon EMR 클러스터에 대한 연결을 설정하려면 노트북 셀 내에서 연결 명령을 실행할 수 있습니다.

연결을 설정할 때 Kerberos, Lightweight Directory Access Protocol(LDAP) 또는 런타임 IAM 역할 인증을 사용하여 인증할 수 있습니다. 선택하는 인증 방법은 클러스터 구성에 따라 다릅니다.

이 예제에서는 Kerberos 지원 Amazon EMR 클러스터에서 Network Load Balancer를 사용하여 Access Apache Livy를 참조하여 Kerberos 인증을 사용하는 Amazon EMR 클러스터를 설정할 수 있습니다. 또는 aws-samples/sagemaker-studio-emr GitHub 리포지토리에서 Kerberos 또는 LDAP 인증을 사용하여 CloudFormation 예제 템플릿을 탐색할 수 있습니다.

관리자가 교차 계정 액세스를 활성화한 경우 Studio Classic 애플리케이션과 EMR 클러스터가 동일한 계정에 상주하든 다른 AWS 계정에 상주하든 관계없이 Studio Classic 노트북에서 Amazon 클러스터에 연결할 수 있습니다.

다음 각 인증 유형에 대해 지정된 명령을 사용하여 Studio 또는 Studio Classic 노트북에서 클러스터에 연결합니다.

  • Kerberos

    교차 계정 Amazon EMR 액세스가 필요한 경우 --assumable-role-arn 인수를 추가합니다. 를 사용하여 클러스터에 연결하는 경우 --verify-certificate 인수를 추가합니다HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Kerberos --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • LDAP

    교차 계정 Amazon EMR 액세스가 필요한 경우 --assumable-role-arn 인수를 추가합니다. 를 사용하여 클러스터에 연결하는 경우 --verify-certificate 인수를 추가합니다HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • NoAuth

    교차 계정 Amazon EMR 액세스가 필요한 경우 --assumable-role-arn 인수를 추가합니다. 를 사용하여 클러스터에 연결하는 경우 --verify-certificate 인수를 추가합니다HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type None --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • 런타임 IAM 역할

    교차 계정 Amazon EMR 액세스가 필요한 경우 --assumable-role-arn 인수를 추가합니다. 를 사용하여 클러스터에 연결하는 경우 --verify-certificate 인수를 추가합니다HTTPS.

    런타임 IAM 역할을 사용하여 Amazon EMR 클러스터에 연결하는 방법에 대한 자세한 내용은 섹션을 참조하세요Studio에서 Amazon EMR 클러스터 액세스를 위한 IAM 런타임 역할 구성 .

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name [--assumable-role-arn EMR_access_role_ARN] [--verify-certificate /home/user/certificateKey.pem]

를 통해 Amazon EMR 클러스터에 연결 HTTPS

전송 암호화가 활성화된 Amazon EMR 클러스터와 용 Apache Livy 서버를 구성HTTPS했고 Studio 또는 Studio Classic이 를 EMR 사용하여 Amazon과 통신하려면 인증서 키에 액세스하도록 Studio 또는 Studio Classic을 구성HTTPS해야 합니다.

자체 서명 또는 로컬 인증 기관(CA) 서명 인증서의 경우 다음 두 단계로 이를 수행할 수 있습니다.

  1. 다음 옵션 중 하나를 사용하여 인증서 PEM 파일을 로컬 파일 시스템에 다운로드합니다.

  2. 연결 명령의 --verify-certificate 인수에 인증서 경로를 제공하여 인증서의 검증을 활성화하세요.

    %sm_analytics emr connect --cluster-id cluster_id \ --verify-certificate /home/user/certificateKey.pem ...

퍼블릭 CA에서 발급한 인증서의 경우 --verify-certificate 파라미터를 true로 설정하여 인증서 검증을 설정합니다.

또는 --verify-certificate 매개변수를 false로 설정하여 인증서 검증을 비활성화할 수 있습니다.

에서 Amazon EMR 클러스터에 사용 가능한 연결 명령 목록을 찾을 수 있습니다연결 명령을 사용하여 Amazon EMR 클러스터에 연결.