Amazon EMR Studio 작동 방식 - Amazon EMR

Amazon EMR Studio 작동 방식

Amazon EMR Studio는 사용자 팀을 위해 만든 Amazon EMR 리소스입니다. EMR Studio는 Amazon EMR 클러스터에서 실행되는 Jupyter Notebook을 위한 자체 호스팅 웹 기반 통합 개발 환경입니다. 사용자는 회사 보안 인증을 사용하여 Studio에 로그인합니다.

생성한 각 EMR Studio는 다음 AWS 리소스를 사용합니다.

  • 서브넷이 있는 Amazon Virtual Private Cloud(VPC) - 지정된 VPC의 Amazon EMR 및 Amazon EMR on EKS 클러스터에서 Studio 커널과 애플리케이션을 실행합니다. EMR Studio는 Studio 생성 시 지정하는 서브넷의 모든 클러스터에 연결할 수 있습니다.

  • IAM 역할 및 권한 정책 - 사용자 권한을 관리하려면 사용자의 IAM 자격 증명 또는 사용자 역할에 연결하는 IAM 권한 정책을 생성합니다. 또한 EMR Studio는 IAM 서비스 역할 및 보안 그룹을 사용하여 다른 AWS 서비스와 상호 운용합니다. 자세한 내용은 액세스 제어EMR Studio 네트워크 트래픽을 제어할 보안 그룹을 정의합니다. 단원을 참조하세요.

  • 보안 그룹 - EMR Studio는 보안 그룹을 사용하여 Studio와 EMR 클러스터 간에 보안 네트워크 채널을 설정합니다.

  • Amazon S3 백업 위치 - EMR Studio는 노트북 작업을 Amazon S3 위치에 저장합니다.

다음 단계는 EMR Studio를 생성하고 관리하는 방법을 간략하게 설명합니다.

  1. IAM 또는 IAM Identity Center 인증을 사용하여 AWS 계정에서 Studio를 생성합니다. 지침은 EMR Studio 설정 단원을 참조하십시오.

  2. EMR Studio에 사용자 및 그룹을 할당합니다. 권한 정책을 사용하여 각 사용자에 대해 세분화된 권한을 설정합니다. 자세한 내용은 EMR Studio 사용자 할당 및 관리 주제를 참조하세요.

  3. AWS CloudTrail 이벤트로 EMR Studio 작업 모니터링을 시작합니다. 자세한 내용은 Amazon EMR Studio 작업 모니터링 단원을 참조하십시오.

  4. Amazon EMR on EKS 관리형 엔드포인트 및 클러스터 템플릿을 통해 Studio 사용자에게 더 많은 클러스터 옵션을 제공합니다.

인증 및 사용자 로그인

Amazon EMR Studio는 IAM 인증 모드 및 IAM Identity Center 인증 모드와 같은 두 가지 인증 모드를 지원합니다. IAM 모드는 AWS Identity and Access Management(IAM)를 사용하는 반면 IAM Identity Center 모드는 AWS IAM Identity Center을 사용합니다. EMR Studio를 생성할 때 해당 Studio의 모든 사용자에 대한 인증 모드를 선택합니다.

IAM 인증 모드

IAM 인증 모드에서는 IAM 인증 또는 IAM 페더레이션을 사용할 수 있습니다.

IAM 인증을 사용하면 IAM의 사용자, 그룹, 역할과 같은 IAM 자격 증명을 관리할 수 있습니다. IAM 권한 정책 및 ABAC(속성 기반 액세스 제어)를 사용하여 Studio에 대한 액세스 권한을 사용자에게 부여합니다.

IAM 페더레이션을 사용하면 서드 파티 ID 제공업체(idP) 및 AWS 사이에서 신뢰를 구축하고 IdP를 통해 사용자 자격 증명을 관리할 수 있습니다.

IAM Identity Center 인증 모드

IAM Identity Center 인증 모드를 사용하면 사용자에게 EMR Studio에 대한 페더레이션 액세스 권한을 부여할 수 있습니다. IAM Identity Center를 사용하여 IAM Identity Center 디렉터리, 기존 기업 디렉터리 또는 Azure Active Directory(AD)와 같은 외부 IdP에서 사용자와 그룹을 인증할 수 있습니다. 그런 다음 ID 제공업체(idP)를 통해 사용자를 관리합니다.

EMR Studio는 IAM Identity Center에서 다음과 같은 ID 제공업체(idP) 사용을 지원합니다.

인증이 로그인 및 사용자 할당에 미치는 영향

EMR Studio에 대해 선택한 인증 모드는 사용자가 Studio에 로그인하는 방법, Studio에 사용자를 할당하는 방법, 새 Amazon EMR 클러스터 생성과 같은 작업을 수행할 수 있도록 사용자에게 권한을 부여하는 방법(권한 부여)에 영향을 줍니다.

다음 테이블에는 인증 모드에 따른 EMR Studio의 로그인 방법이 요약되어 있습니다.

인증 모드별 EMR Studio 로그인 옵션
인증 모드 로그인 방법 설명
  • IAM(인증 및 페더레이션)

  • IAM Identity Center

EMR Studio URL

사용자는 Studio 액세스 URL을 사용하여 Studio에 로그인합니다. 예: https://xxxxxxxxxxxxxxxxxxxxxxx.emrstudio-prod.us-east-1.amazonaws.com.

IAM 인증을 사용할 때 사용자는 IAM 보안 인증을 입력합니다. IAM 페더레이션 또는 IAM Identity Center를 사용하는 경우 EMR Studio는 보안 인증을 입력하기 위해 사용자를 ID 제공업체의 로그인 URL로 리디렉션합니다.

ID 페더레이션의 경우 이 로그인 옵션을 서비스 공급자(SP) 개시 로그인이라고 합니다.

  • IAM(페더레이션)

  • IAM Identity Center

ID 제공업체(idP) 포털

사용자는 Azure 포털과 같은 ID 제공업체의 포털에 로그인하여 Amazon EMR 콘솔을 시작합니다. Amazon EMR 콘솔을 시작한 후 사용자는 Studio 목록에서 Studio를 선택하여 엽니다.

사용자가 ID 제공업체의 포털에서 특정 Studio에 로그인할 수 있도록 EMR Studio를 SAML 애플리케이션으로 구성할 수도 있습니다. 관련 지침은 IdP 포털에서 EMR Studio를 SAML 애플리케이션으로 구성하는 방법을 참조하세요.

ID 페더레이션의 경우 이 로그인 옵션을 ID 제공업체(idP) 시작 로그인이라고 합니다.

  • IAM(인증)

AWS Management Console 사용자는 IAM 보안 인증을 AWS Management Console에 로그인하고 Amazon EMR 콘솔의 Studio 목록에서 Studio를 엽니다.

다음 테이블에는 인증 모드별 EMR Studio의 사용자 할당 및 권한 부여가 요약되어 있습니다.

인증 모드별 EMR Studio 사용자 할당 및 권한 부여
인증 모드 사용자 할당 사용자 권한 부여

IAM(인증 및 페더레이션)

IAM 자격 증명(사용자, 그룹 또는 역할)에 연결된 IAM 권한 정책에서 CreateStudioPresignedUrl 작업을 허용합니다.

페더레이션 사용자의 경우 페더레이션에 사용하는 IAM 역할에 구성한 권한 정책에서 IAM의 CreateStudioPresignedUrl 작업을 허용합니다.

ABAC(속성 기반 액세스 제어)를 사용하여 사용자가 액세스할 수 있는 하나 이상의 Studio를 지정합니다.

지침은 EMR Studio에 사용자 또는 그룹 할당 단원을 참조하십시오.

특정 EMR Studio 작업을 허용하는 IAM 권한 정책을 정의합니다.

기본 사용자의 경우 IAM 권한 정책을 IAM 자격 증명(사용자, 그룹 또는 역할)에 연결해야 합니다. 페더레이션 사용자의 경우 페더레이션에 사용하는 IAM 역할에 구성한 권한 정책에서 Studio 작업을 허용합니다.

자세한 내용은 Amazon EC2 또는 Amazon EKS에 대한 EMR Studio 사용자 권한 구성 단원을 참조하십시오.

IAM Identity Center

IdCUserAssignmentREQUIRED로 설정하여 생성한 Studio의 경우 지정된 세션 정책을 사용하여 사용자를 Studio에 매핑하세요. 자세한 내용은 EMR Studio에 사용자 또는 그룹 할당 단원을 참조하십시오.

IdCUserAssignmentOPTIONAL로 설정하여 생성한 Studios의 경우 모든 Identity Center 사용자 또는 그룹이 Studio에 액세스할 수 있습니다.

선택: 특정 EMR Studio 작업을 허용하는 IAM 세션 정책을 정의합니다. 사용자를 Studio에 할당할 때 세션 정책을 사용자에게 매핑합니다.

자세한 내용은 IAM Identity Center 인증 모드의 사용자 권한 단원을 참조하십시오.

액세스 제어

Amazon EMR Studio에서는 AWS Identity and Access Management(IAM) 자격 증명 기반 정책을 사용하여 사용자 권한 부여(권한)를 구성합니다. 이 정책에서 허용되거나 거부되는 작업 및 리소스와 작업이 허용되는 조건을 지정합니다.

IAM 인증 모드의 사용자 권한

EMR Studio용 IAM 인증을 사용할 때 사용자 권한을 설정하려면 IAM 권한 정책에서 elasticmapreduce:RunJobFlow 같은 작업을 허용합니다. 사용할 권한 정책을 하나 이상 생성할 수 있습니다. 예를 들어, 사용자가 새 Amazon EMR 클러스터를 생성하는 것을 허용하지 않는 기본 정책과 클러스터 생성을 허용하는 다른 정책을 생성할 수 있습니다. 모든 Studio 작업 목록은 EMR Studio 사용자의 AWS Identity and Access Management 권한 섹션을 참조하세요.

IAM Identity Center 인증 모드의 사용자 권한

IAM Identity Center 인증을 사용하는 경우 단일 EMR Studio 사용자 역할을 생성합니다. 사용자 역할은 사용자가 로그인할 때 Studio가 수임하는 전용 IAM 역할입니다.

IAM 세션 정책을 EMR Studio 사용자 역할에 연결합니다. 세션 정책은 Studio 로그인 세션 중에 페더레이션 사용자가 수행할 수 있는 작업을 제한하는 특수한 종류의 IAM 권한 정책입니다. 세션 정책을 사용하면 EMR Studio에 대해 여러 사용자 역할을 생성하지 않고도 사용자 또는 그룹에 대한 특정 권한을 설정할 수 있습니다.

Studio에 사용자 및 그룹을 할당할 때 세션 정책을 해당 사용자 또는 그룹에 매핑하여 세분화된 권한을 적용합니다. 또한 언제든지 사용자 또는 그룹의 세션 정책을 업데이트할 수 있습니다. Amazon EMR은 사용자가 생성한 각 세션 정책 매핑을 저장합니다.

세션 정책에 대한 자세한 내용은 AWS Identity and Access Management 사용 설명서에서 권한 및 정책을 참조하세요.

WorkSpaces

Workspace는 Amazon EMR Studio의 기본 구성 요소입니다. 노트북을 구성하기 위해 사용자는 Studio에 하나 이상의 Workspace를 생성합니다. 자세한 내용은 EMR Studio Workspace 알아보기 단원을 참조하십시오.

JupyterLab의 Workspace와 마찬가지로 Workspace는 노트북 작업 상태를 유지합니다. 그러나 Workspace 사용자 인터페이스는 EMR 클러스터를 생성 및 연결하고, 작업을 실행하며, 샘플 노트북을 탐색하고, Git 리포지토리를 연결할 수 있는 추가 도구를 통해 오픈 소스 JupyterLab 인터페이스를 확장합니다.

다음 목록에는 EMR Studio Workspace의 주요 기능이 포함되어 있습니다.

  • Workspace 가시성은 Studio에 기반합니다. 한 Studio에서 생성한 Workspace는 다른 Studio에서 볼 수 없습니다.

  • 기본적으로 Workspace는 공유되며 모든 Studio 사용자가 볼 수 있습니다. 하지만 한 번에 한 명의 사용자만 Workspace를 열고 작업할 수 있습니다. 다른 사용자와 동시에 작업하려면 EMR Studio에서 Workspace 협업 구성 작업을 수행하면 됩니다.

  • Workspace 협업을 활성화하면 Workspace의 다른 사용자와 동시에 협업할 수 있습니다. 자세한 내용은 EMR Studio에서 Workspace 협업 구성 단원을 참조하십시오.

  • Workspace의 노트북은 동일한 EMR 클러스터를 공유하여 명령을 실행합니다. Amazon EC2에서 실행되는 Amazon EMR 클러스터 또는 Amazon EMR on EKS 가상 클러스터 및 관리형 엔드포인트에 Workspace를 연결할 수 있습니다.

  • Workspace는 Studio의 서브넷에 연결하는 다른 가용 영역으로 전환할 수 있습니다. Workspace를 중지하고 다시 시작하여 장애 조치 프로세스를 요청할 수 있습니다. Workspace를 다시 시작할 때 Studio가 여러 가용 영역에 액세스할 수 있도록 구성된 경우 EMR Studio는 Studio VPC의 서로 다른 가용 영역에서 Workspace를 시작합니다. Studio에 가용 영역이 하나뿐인 경우 EMR Studio는 다른 서브넷에 있는 Workspace를 시작하려고 시도합니다. 자세한 내용은 Workspace 연결 문제 해결 단원을 참조하십시오.

  • Workspace는 Studio와 연결된 모든 서브넷의 클러스터에 연결할 수 있습니다.

EMR Studio Workspace 생성 및 구성에 대한 자세한 내용은 EMR Studio Workspace 알아보기 섹션을 참조하세요.

Amazon EMR Studio의 노트북 스토리지

Workspace를 사용하는 경우 EMR Studio는 노트북의 셀을 Studio와 연결된 Amazon S3 위치에 주기적으로 자동 저장합니다. 이 백업 프로세스는 세션 간 작업을 보존하므로 Git 리포지토리에 변경 사항을 적용하지 않고도 나중에 다시 돌아올 수 있습니다. 자세한 내용은 EMR Studio에서 워크스페이스 콘텐츠 저장 단원을 참조하십시오.

Workspace에서 노트북 파일을 삭제하면 EMR Studio가 Amazon S3에서 백업 버전을 자동으로 삭제합니다. 하지만 노트북 파일을 먼저 삭제하지 않고 Workspace를 삭제하면 노트북 파일은 Amazon S3에 남아 계속 스토리지 요금이 누적됩니다. 자세한 내용은 EMR Studio에서 워크스페이스 및 노트북 파일 삭제을 참조하십시오.