EMR Notebooks에 대한 요구 사항, 릴리스 버전의 차이 및 보안 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMR Notebooks에 대한 요구 사항, 릴리스 버전의 차이 및 보안

참고

EMR Notebooks는 콘솔에서 EMR Studio Workspace로 사용 가능합니다. 콘솔의 워크스페이스 생성 버튼을 사용하면 새 노트북을 생성할 수 있습니다. EMR Notebooks 사용자는 Workspace에 액세스하거나 Workspace를 생성하려면 추가 IAM 역할 권한이 필요합니다. 자세한 내용은 Amazon EMR Notebooks가 콘솔에서 Amazon EMR Studio 워크스페이스 역할Amazon EMR 콘솔을 참조하세요.

EMR Notebook을 사용하여 클러스터를 생성하고 솔루션을 개발하는 경우 다음 요구 사항, 릴리스 버전의 차이, 보안 정보 및 기타 고려 사항을 고려합니다.

클러스터 요구 사항

  • Amazon EMR 퍼블릭 액세스 차단 활성화 - 클러스터에 대한 인바운드 액세스를 사용하면 클러스터 사용자가 노트북 커널을 실행할 수 있습니다. 인증된 사용자만 클러스터에 액세스할 수 있는지 확인합니다. 퍼블릭 공용 액세스 차단을 활성화된 상태로 두고 인바운드 SSH 트래픽을 신뢰할 수 있는 소스로만 제한하는 것이 좋습니다. 자세한 내용은 Amazon 퍼블릭 액세스 EMR 차단 사용Amazon EMR 클러스터의 보안 그룹으로 네트워크 트래픽 제어 단원을 참조하세요.

  • 호환 클러스터 사용 - 노트북에 연결된 클러스터는 다음 요구 사항을 충족해야 합니다.

    • Amazon EMR을 사용하여 생성한 클러스터만 지원됩니다. Amazon EMR 내에서 독립적으로 클러스터를 생성한 다음 EMR 노트북을 연결하거나, EMR 노트북을 생성할 때 호환되는 클러스터를 생성할 수 있습니다.

    • Amazon EMR 릴리스 버전 5.18.0 이상을 사용하여 생성한 클러스터만 지원됩니다. 클러스터 릴리스 버전별 기능 차이점 섹션을 참조하세요.

    • AMD EPYC 프로세서를 사용하는 Amazon EC2 인스턴스를 통해 생성된 클러스터(예: m5a.* and r5a.* 인스턴스 유형)는 지원되지 않습니다.

    • EMR Notebooks는 VisibleToAllUserstrue로 설정된 상태로 생성된 클러스터에서만 작동하빈다. VisibleToAllUsers는 기본적으로 true입니다.

    • EC2-VPC 안에서 클러스터를 시작해야 합니다. 퍼블릭 및 프라이빗 서브넷이 지원됩니다. EC2-Classic 플랫폼은 지원되지 않습니다.

    • 하둡, Spark 및 Livy가 설치된 상태에서 클러스터를 시작해야 합니다. 다른 애플리케이션을 설치할 수도 있지만 EMR Notebooks는 현재 Spark 클러스터만 지원합니다.

      중요

      Amazon EMR 릴리스 버전 5.32.0 이상 또는 6.2.0 이상의 경우 EMR Notebooks와 함께 작동하려면 클러스터에서 Jupyter Enterprise Gateway 애플리케이션도 실행 중이어야 합니다.

    • Kerberos 인증을 사용하는 클러스터는 지원되지 않습니다.

    • AWS Lake Formation과 통합된 클러스터는 노트북 범위의 라이브러리 설치만 지원합니다. 클러스터에 커널과 라이브러리를 설치하는 작업은 지원되지 않습니다.

    • 프라이머리 노드가 여러 개 있는 클러스터는 지원되지 않습니다.

    • AWS Graviton2 기반 Amazon EC2 인스턴스를 사용하는 클러스터는 지원되지 않습니다.

클러스터 릴리스 버전별 기능 차이점

Amazon EMR 릴리스 버전 5.30.0, 5.32.0 이상 또는 6.2.0 이상을 사용하여 생성한 클러스터와 함께 EMR Notebooks를 사용하는 것이 좋습니다. 이 버전에서는 EMR Notebooks가 연결된 Amazon EMR 클러스터에서 커널을 실행합니다. 클러스터 프라이머리 노드에 커널과 라이브러리를 직접 설치할 수 있습니다. 이러한 클러스터 버전에서 EMR Notebooks를 사용하면 다음과 같은 이점이 있습니다.

  • 성능 향상 - 노트북 커널은 선택한 EC2 인스턴스 유형의 클러스터에서 실행됩니다. 이전 버전은 크기를 조정하거나 액세스하거나 사용자 지정할 수 없는 특별 인스턴스에서 커널을 실행합니다.

  • 커널 추가 및 사용자 정의 가능 - condapip를 사용하여 커널 패키지를 설치하기 위해 클러스터에 연결할 수 있습니다. 또한 노트북 셀 내에서 터미널 명령을 사용하여 pip 설치가 지원됩니다. 이전 버전에서는 사전 설치된 커널만 사용할 수 있었습니다(Python, PySpark, Spark 및 SparkR). 자세한 내용은 클러스터 프라이머리 노드에 커널 및 Python 라이브러리 설치 단원을 참조하십시오.

  • Python 라이브러리 설치 기능 - condapip를 사용하여 클러스터 프라이머리 노드에 Python 라이브러리를 설치할 수 있습니다. conda를 사용하는 것이 좋습니다. 이전 버전에서는 PySpark용 노트북 범위의 라이브러리만 지원됩니다.

클러스터 릴리스별로 지원되는 EMR Notebooks 기능
클러스터 릴리스 버전 PySpark용 노트북 범위의 라이브러리 클러스터에 커널 설치 프라이머리 노드에 Python 라이브러리 설치

5.18.0 이하

EMR Notebooks는 지원되지 않음

5.18.0~5.25.0

아니요

아니요

아니요

5.26.0~5.29.0

아니요

아니요

5.30.0

6.0.0

아니요

아니요

아니요

5.32.0 이상, 6.2.0 이상

동시에 연결된 EMR Notebooks에 대한 제한 사항

노트북을 지원하는 클러스터를 생성할 때는 클러스터 프라이머리 노드의 EC2 인스턴스 유형을 고려합니다. 이 EC2 인스턴스의 메모리 제약에 따라 클러스터에서 코드와 쿼리를 동시에 실행할 수 있는 노트북 수가 결정됩니다.

프라이머리 노드 EC2 인스턴스 유형 EMR Notebooks 수

*.medium

2

*.large

4

*.xlarge

8

*.2xlarge

16

*.4xlarge

24

*.8xlarge

24

*.16xlarge

24

Jupyter Notebook 및 Python 버전

EMR Notebooks는 연결된 클러스터의 Amazon EMR 릴리스 버전과 상관없이 Jupyter Notebook 버전 6.0.2 및 Python 3.6.5를 실행합니다.

보안 관련 고려 사항

암호화된 S3 위치 사용

Amazon S3에서 노트북 파일을 저장할 암호화된 위치를 지정하는 경우 EMR 노트북의 서비스 역할을 키 사용자로 설정해야 합니다. 기본 서비스 역할은 EMR_Notebooks_DefaultRole입니다. 암호화에 AWS KMS 키를 사용하는 경우 AWS Key Management Service 개발자 안내서에서 Using key policies in AWS KMS키 사용자 추가에 대한 지원 문서를 참조하세요.

호스팅 도메인에서 쿠키 사용

Amazon EMR에서 사용할 수 있는 콘솔 외부 애플리케이션에 대한 보안을 강화하기 위해 애플리케이션 호스팅 도메인이 PSL(Public Suffix List)에 등록됩니다. 이러한 호스팅 도메인의 예에는 emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com이 포함됩니다. 보안 강화를 위해 기본 도메인 이름에 민감한 쿠키를 설정해야 하는 경우 __Host- 접두사가 있는 쿠키를 사용하는 것이 좋습니다. 이렇게 하면 교차 사이트 요청 위조 시도(CSRF) 로부터 도메인을 보호하는 데 도움이 됩니다. 자세한 내용은 Mozilla 개발자 네트워크Set-Cookie 페이지를 참조하세요.