EMR Serverless를 사용하여 데이터 준비 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMR Serverless를 사용하여 데이터 준비

SageMaker 배포 이미지 버전 부터 1.10Amazon SageMaker Studio는 EMR Serverless와 통합됩니다. SageMaker Studio의 JupyterLab 노트북 내에서 데이터 과학자와 데이터 엔지니어는 EMR 서버리스 애플리케이션을 검색하고 연결한 다음 대규모 Apache Spark 또는 Apache Hive 워크로드를 대화형으로 탐색, 시각화 및 준비할 수 있습니다. 이 통합을 통해 는 ML 모델 훈련 및 배포를 준비하기 위해 대규모 대화형 데이터 사전 처리를 수행할 수 있습니다.

특히 sagemaker-studio-analytics-extension SageMaker 배포 이미지 버전의 업데이트된 버전은 Apache Livy와 EMR Serverless 간의 통합을 1.10 활용하여 JupyterLab 노트북을 통해 Apache Livy 엔드포인트에 연결할 수 있습니다. 이 섹션에서는 EMR Serverless 대화형 애플리케이션 에 대한 이전 지식을 맡습니다.

중요

Studio를 사용하는 경우 프라이빗 스페이스에서 시작된 애플리케이션의 EMR Serverless JupyterLab 애플리케이션만 검색하고 연결할 수 있습니다. EMR Serverless 애플리케이션이 Studio 환경과 동일한 AWS 리전에 있는지 확인합니다.

사전 조건

JupyterLab 노트북에서 EMR Serverless를 사용하여 대화형 워크로드 실행을 시작하기 전에 다음 사전 조건을 충족해야 합니다.

  1. JupyterLab 공간은 SageMaker 배포 이미지 버전 1.10 이상을 사용해야 합니다.

  2. Amazon EMR 버전 6.14.0 이상을 사용하여 EMR Serverless 대화형 애플리케이션을 생성합니다. 의 단계에 따라 Studio 사용자 인터페이스에서 EMR Serverless 애플리케이션을 생성할 수 있습니다Studio에서 EMR 서버리스 애플리케이션 생성.

    참고

    가장 간단한 설정을 위해 Virtual Private Cloud(VPC) 옵션의 기본 설정을 변경하지 않고도 Studio UI에서 EMR Serverless 애플리케이션을 생성할 수 있습니다. 이렇게 하면 네트워킹 구성 VPC 없이 도메인 내에서 애플리케이션을 생성할 수 있습니다. 이 경우 다음 네트워킹 설정 단계를 건너뛸 수 있습니다.

  3. 의 네트워킹 및 보안 요구 사항을 검토합니다Amazon EMR 클러스터에 대한 네트워크 액세스 구성. 특히 다음을 확인합니다.

    • Studio 계정과 EMR Serverless 계정 간에 VPC 피어링 연결을 설정합니다.

    • 두 계정의 프라이빗 서브넷 라우팅 테이블에 경로를 추가합니다.

    • 아웃바운드 트래픽을 허용하도록 Studio 도메인에 연결된 보안 그룹을 설정하고 Studio 인스턴스의 보안 그룹에서 인바운드 TCP 트래픽을 허용하도록 EMR Serverless 애플리케이션을 실행하려는 VPC 의 보안 그룹을 구성합니다.

  4. EMR Serverless에서 대화형 애플리케이션에 액세스하고 SageMaker Studio의 JupyterLab 노트북에서 제출된 워크로드를 실행하려면 특정 권한 및 역할을 할당해야 합니다. 필요한 역할 및 권한에 대한 자세한 내용은 SageMaker Studio에서 Amazon EMR 애플리케이션을 나열하고 시작할 수 있는 권한을 설정합니다. 섹션을 참조하세요.