기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
EMR Studio 기능, 요구 사항 및 제한
이 주제에는 리전 및 도구, 클러스터 요구 사항 및 기술적 제한 사항에 대한 고려 사항을 포함하여 Amazon EMR Studio로 작업할 때 고려해야 할 항목이 포함되어 있습니다.
고려 사항
EMR Studio로 작업할 때는 다음 사항을 고려하세요.
-
EMR Studio는 AWS 리전다음에서 사용할 수 있습니다.
-
미국 동부(오하이오)(us-east-2)
-
미국 동부(버지니아 북부)(us-east-1)
-
미국 서부(캘리포니아 북부) (us-west-1)
-
미국 서부(오레곤)(us-west-2)
-
아프리카(케이프타운)(af-south-1)
-
아시아 태평양(홍콩)(ap-east-1)
-
아시아 태평양(자카르타)(ap-southeast-3)*
-
아시아 태평양(멜버른)(ap-southeast-4)*
-
아시아 태평양(뭄바이)(ap-south-1)
-
아시아 태평양(오사카)(ap-northeast-3)*
-
아시아 태평양(서울)(ap-northeast-2)
-
아시아 태평양(싱가포르)(ap-southeast-1)
-
아시아 태평양(시드니)(ap-southeast-2)
-
아시아 태평양(도쿄)(ap-northeast-1)
-
캐나다(중부)(ca-central-1)
-
유럽(프랑크푸르트)(eu-central-1)
-
유럽(아일랜드)(eu-west-1)
-
유럽(런던) (eu-west-2)
-
유럽(밀라노) (eu-south-1)
-
유럽(파리) (eu-west-3)
-
유럽(스페인)(eu-south-2)
-
유럽(스톡홀름)(eu-north-1)
-
유럽(취리히)(eu-central-2)*
-
이스라엘(텔아비브)(il-central-1)*
-
중동(UAE)(me-central-1)*
-
남아메리카(상파울루)(sa-east-1)
-
AWS GovCloud (미국 동부) (gov-us-east-1)
-
AWS GovCloud (미국 서부) (gov-us-west-1)
* 이러한 리전에서는 라이브 Spark UI가 지원되지 않습니다.
-
-
사용자가 Amazon EC2 for a Workspace에서 실행되는 새 EMR 클러스터를 프로비저닝할 수 있도록 EMR Studio를 클러스터 템플릿 세트와 연결할 수 있습니다. 관리자는 Service Catalog에서 클러스터 템플릿을 정의하고 사용자 또는 그룹이 Studio 내에서 클러스터 템플릿에 액세스할 수 있는지 또는 클러스터 템플릿에 액세스하지 못하도록 할지 선택할 수 있습니다.
-
Amazon S3에 저장된 노트북 파일 또는에서 암호 읽기에 대한 액세스 권한을 정의할 때 Amazon EMR 서비스 역할을 AWS Secrets Manager사용합니다. 이러한 권한에서는 세션 정책이 지원되지 않습니다.
-
여러 EMR 스튜디오를 생성하여 다른의 EMR 클러스터에 대한 액세스를 제어할 수 있습니다VPCs.
-
AWS CLI 를 사용하여 EKS 클러스터EMR에서 Amazon을 설정합니다. 그런 다음 Studio 인터페이스를 사용하여 관리형 엔드포인트가 있는 Workspace에 클러스터를 연결하여 노트북 작업을 실행할 수 있습니다.
-
EMR Studio에도 적용되는 Amazon에서 신뢰할 EMR 수 있는 자격 증명 전파를 사용하는 경우 추가 고려 사항이 있습니다. 자세한 내용은 Identity Center 통합EMR을 통한 Amazon의 고려 사항 및 제한 사항 단원을 참조하십시오.
-
EMR Studio는 다음 Python 매직 명령을 지원하지 않습니다.
-
%alias
-
%alias_magic
-
%automagic
-
%macro
-
%%js
-
%%javascript
-
%configure
를 사용하여proxy_user
수정 -
%env
또는%set_env
를 사용하여KERNEL_USERNAME
수정
-
-
EKS 클러스터EMR의 Amazon은 EMR Studio에 대한 SparkMagic 명령을 지원하지 않습니다.
-
노트북 셀에 여러 줄의 Scala 명령문을 작성하려면 마지막 줄을 제외한 모든 줄이 마침표로 끝나야 합니다. 다음 예제에서는 여러 줄로 된 Scala 문에 올바른 구문을 사용합니다.
val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
Amazon에서 사용할 수 있는 비콘솔 애플리케이션의 보안을 강화하기 위해 EMR애플리케이션 호스팅 도메인은 퍼블릭 접미사 목록()에 등록됩니다PSL. 이러한 호스팅 도메인의 예에는
emrstudio-prod.us-east-1.amazonaws.com
,emrnotebooks-prod.us-east-1.amazonaws.com
,emrappui-prod.us-east-1.amazonaws.com
이 포함됩니다. 보안 강화를 위해 기본 도메인 이름에 민감한 쿠키를 설정해야 하는 경우__Host-
접두사가 있는 쿠키를 사용하는 것이 좋습니다. 이렇게 하면 교차 사이트 요청 위조 시도()로부터 도메인을 보호할 수 있습니다CSRF. 자세한 내용은 단원을 참조하십시오.Set-CookieMozilla 개발자 네트워크의 페이지. -
Amazon EMR Studio Workspaces 및 영구 UI 엔드포인트는 FIPS에 대해 140-2개의 검증된 암호화 모듈을 사용 encryption-in-transit하므로 규제 대상 워크로드에 대한 서비스를 더 쉽게 채택할 수 있습니다. 영구 UI 엔드포인트에 대한 추가 컨텍스트는 Amazon에서 영구 애플리케이션 사용자 인터페이스 보기를 EMR참조하세요. 노트북에 대한 추가 컨텍스트는 Amazon EMR Notebooks 개요를 참조하세요.
알려진 문제
-
신뢰할 수 있는 IAM 자격 증명 전파가 활성화된 Identity Center를 사용하는 EMR Studio는 신뢰할 수 있는 자격 증명 전파도 사용하는 EMR 클러스터에만 연결할 수 있습니다.
-
다음과 같은 프록시 관리 도구를 비활성화해야 합니다.FoxyProxy or SwitchyOmega Studio를 생성하기 전에 브라우저에서 Studio 생성을 선택하면 활성 프록시에서 오류가 발생할 수 있으며 네트워크 실패 오류 메시지가 표시될 수 있습니다.
-
EKS 클러스터에서 AmazonEMR에서 실행되는 커널은 제한 시간 문제로 인해 시작되지 않을 수 있습니다. 커널을 시작하는 중에 오류나 문제가 발생하는 경우 노트북 파일을 닫고 커널을 종료한 다음, 노트북 파일을 다시 엽니다.
-
EKS 클러스터EMR에서 Amazon을 사용할 때 커널 재시작 작업이 예상대로 작동하지 않습니다. 커널 다시 시작을 선택한 후 Workspace를 새로 고쳐 다시 시작을 적용합니다.
-
Workspace가 클러스터에 연결되지 않은 경우 Studio 사용자가 노트북 파일을 열고 커널을 선택하려고 하면 오류 메시지가 나타납니다. 확인을 선택하여 이 오류 메시지를 무시할 수 있지만 노트북 코드를 실행하려면 먼저 Workspace를 클러스터에 연결하고 커널을 선택해야 합니다.
-
Amazon EMR 6.2.0을 보안 구성과 함께 사용하여 클러스터 보안을 설정하면 Workspace 인터페이스가 비어 있고 예상대로 작동하지 않습니다. 클러스터에 대해에 EMRFS 대한 데이터 암호화 또는 Amazon S3 인증을 구성EMR하려면 지원되는 다른 버전의 Amazon을 사용하는 것이 좋습니다. Amazon S3 EMR Studio는 Amazon EMR 버전 5.32.0(Amazon EMR 5.x 시리즈) 및 6.2.0(Amazon EMR 6.x 시리즈) 이상에서 작동합니다.
-
Amazon EC2 작업에서 EMR 실행 중인 Amazon 디버깅 중에 클러스터 내 Spark UI에 대한 링크가 작동하지 않거나 표시되지 않을 수 있습니다. 링크를 재생성하려면 새 노트북 셀을 생성하고
%%info
명령을 실행합니다. -
Jupyter Enterprise Gateway는 5.32.0, 5.33.0, 6.2.0 및 6.3.0 Amazon EMR 릴리스 버전에서 클러스터의 기본 노드에 있는 유휴 커널을 정리하지 않습니다. 유휴 커널은 컴퓨팅 리소스를 소비하므로 장기 실행 클러스터가 실패할 수 있습니다. 다음 예제 스크립트를 사용하여 Jupyter Enterprise Gateway에 대한 유휴 커널 정리를 구성할 수 있습니다. 를 사용하여 Amazon EMR 클러스터 기본 노드에 연결 SSH 또는 단계로 스크립트 제출을 수행할 수 있습니다. 자세한 내용은 Amazon EMR 클러스터에서 명령 및 스크립트 실행을 참조하세요.
#!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
-
Amazon EMR 버전 5.32.0, 5.33.0, 6.2.0 또는 6.3.0에서 자동 종료 정책을 사용하는 경우 Amazon은 클러스터를 유휴 상태로 EMR 표시하고 활성 Python3 커널이 있더라도 클러스터를 자동으로 종료할 수 있습니다. Python3 커널을 실행해도 클러스터에서 Spark 작업을 제출하지 않기 때문입니다. Python3 커널에서 자동 종료를 사용하려면 Amazon EMR 버전 6.4.0 이상을 사용하는 것이 좋습니다. 자동 종료에 대한 자세한 내용은 Amazon EMR 클러스터 정리에 자동 종료 정책 사용 섹션을 참조하세요.
-
%%display
를 사용하여 테이블에 Spark를 표시할 경우 매우 넓은 테이블 DataFrame 이 잘릴 수 있습니다. 출력을 마우스 오른쪽 버튼으로 클릭하고 출력에 대한 새 보기 생성을 선택하여 스크롤 가능한 출력 보기를 표시할 수 있습니다. -
Spark 또는 SparkR과 같은 PySparkSpark 기반 커널을 시작하면 Spark 세션이 시작되고 노트북에서 셀을 실행하면 해당 세션에서 Spark 작업이 대기열에 추가됩니다. 실행 중인 셀을 중단해도 Spark 작업은 계속 실행됩니다. Spark 작업을 중지하려면 클러스터 내 Spark UI를 사용해야 합니다. Spark UI에 연결하는 방법에 대한 지침은 EMR Studio를 사용하여 애플리케이션 및 작업 디버깅 섹션을 참조하세요.
-
Amazon EMR Studio Workspaces를의 루트 사용자로 사용하면
403: Forbidden
오류가 AWS 계정 발생합니다. 이는 Amazon의 Jupyter Enterprise Gateway 구성이 루트 사용자에 대한 액세스를 허용하지 EMR 않기 때문입니다. 일상적인 태스크에는 루트 사용자를 사용하지 않는 것이 좋습니다. 기타 인증 옵션은 AWS Identity and Access Management Amazon용 섹션을 참조하세요EMR.
기능 제한 사항
Amazon EMR Studio는 다음 Amazon EMR 기능을 지원하지 않습니다.
-
Kerberos 인증을 지정하는 보안 구성을 사용하여 EMR 클러스터에서 작업 연결 및 실행
-
여러 프라이머리 노드가 있는 클러스터
-
Amazon 6.x 릴리스가 6.9.0 미만이고 EMR 5.x 릴리스가 5.36.1 미만인 경우 AWS Graviton2 기반 Amazon EC2 인스턴스를 사용하는 클러스터
다음 기능은 신뢰할 수 있는 자격 증명 전파를 사용하는 Studio에서는 지원되지 않습니다.
-
템플릿 없이 EMR 클러스터 생성.
-
EMR 서버리스 애플리케이션 사용.
-
EKS 클러스터EMR에서 Amazon 시작.
-
런타임 역할을 사용합니다.
-
SQL Explorer 또는 Workspace 공동 작업을 활성화합니다.
EMR Studio에 대한 서비스 제한
다음 표에는 EMR Studio에 대한 서비스 제한이 표시됩니다.
아이템 | Limit |
---|---|
EMR 스튜디오 | AWS 계정당 최대 100개 |
서브넷 | 각 EMR Studio와 연결된 최대 5개 |
IAM Identity Center 그룹 | 각 EMR Studio에 최대 5개 할당 |
IAM Identity Center 사용자 | 각 EMR Studio에 최대 100개 할당 |