EMR서버리스를 사용하여 데이터를 준비하십시오. - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMR서버리스를 사용하여 데이터를 준비하십시오.

SageMaker 배포 이미지 1.10 버전부터 Amazon SageMaker Studio는 EMR 서버리스와 통합됩니다. SageMaker Studio의 JupyterLab 노트북에서 데이터 과학자와 데이터 엔지니어는 EMR 서버리스 애플리케이션을 검색하고 연결한 다음 대규모 Apache Spark 또는 Apache Hive 워크로드를 대화식으로 탐색, 시각화 및 준비할 수 있습니다. 이 통합을 통해 ML 모델 교육 및 배포에 대비하여 대규모 대화형 데이터 전처리를 수행할 수 있습니다.

특히, SageMaker인디스트리뷰션 이미지 버전의 업데이트된 버전은 Apache 1.10 Livy와 EMR 서버리스 간의 통합을 활용하여 노트북을 통해 Apache Livy 엔드포인트에 연결할 수 있습니다. sagemaker-studio-analytics-extension JupyterLab 이 섹션에서는 서버리스 대화형 애플리케이션에 대한 사전 지식을 전제로 합니다. EMR

중요

Studio를 사용하는 경우 개인 공간에서 실행되는 응용 프로그램의 EMR 서버리스 응용 프로그램만 검색하고 연결할 수 있습니다. JupyterLab EMR서버리스 애플리케이션이 같은 위치에 있는지 확인하십시오. AWS 지역은 스튜디오 환경과 같습니다.

사전 조건

JupyterLab 노트북에서 EMR 서버리스를 사용하여 대화형 워크로드를 실행하기 전에 다음 사전 요구 사항을 충족해야 합니다.

  1. JupyterLab 공간은 SageMaker 배포 이미지 버전 이상을 사용해야 합니다. 1.10

  2. Amazon EMR 버전 6.14.0 이상으로 EMR 서버리스 대화형 애플리케이션을 생성하십시오. 의 단계에 따라 Studio 사용자 인터페이스에서 EMR 서버리스 애플리케이션을 생성할 수 있습니다. Studio에서 EMR 서버리스 애플리케이션 생성

    참고

    가장 간단한 설정을 위해 가상 사설 클라우드 (VPC) 옵션의 기본 설정을 변경하지 않고 Studio UI에서 EMR 서버리스 애플리케이션을 만들 수 있습니다. 이렇게 하면 네트워킹 구성 VPC 없이 도메인 내에서 애플리케이션을 생성할 수 있습니다. 이 경우 다음 네트워킹 설정 단계를 건너뛸 수 있습니다.

  3. 에서 네트워킹 및 보안 요구 사항을 검토하십시오. 네트워킹 구성 특히 다음을 확인하십시오.

    • Studio 계정과 EMR 서버리스 계정 간에 VPC 피어링 연결을 설정하십시오.

    • 두 계정의 프라이빗 서브넷 라우팅 테이블에 경로를 추가합니다.

    • 아웃바운드 트래픽을 허용하도록 Studio 도메인에 연결된 보안 그룹을 설정하고, Studio 인스턴스의 보안 그룹에서 들어오는 인바운드 TCP 트래픽을 허용하도록 EMR 서버리스 애플리케이션을 실행할 VPC 위치의 보안 그룹을 구성합니다.

  4. EMR서버리스에서 대화형 애플리케이션에 액세스하고 SageMaker Studio의 JupyterLab 노트북에서 제출된 워크로드를 실행하려면 특정 권한과 역할을 할당해야 합니다. 필요한 역할 및 SageMaker Studio에서 Amazon EMR 애플리케이션을 리스팅하고 실행할 수 있도록 권한을 설정합니다. 권한에 대한 자세한 내용은 섹션을 참조하십시오.