기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
ML 수명 주기 전반에 걸쳐 대용량 데이터를 사용할 수 있는 권한을 사용자에게 부여하십시오.
형식이 10GB 또는 Parquet CSV 형식의 2.5GB보다 큰 데이터 세트를 사용하는 Amazon SageMaker Canvas 사용자는 대규모 데이터 처리를 위한 특정 권한이 필요합니다. 이러한 권한은 기계 학습 수명 주기 전반에 걸쳐 대규모 데이터를 관리하는 데 필수적입니다. 데이터세트가 명시된 임계값 또는 애플리케이션의 로컬 메모리 용량을 초과하는 경우 SageMaker Canvas는 효율적인 처리를 위해 Amazon EMR Serverless를 사용합니다. 이는 다음에 적용됩니다.
-
데이터 가져오기: 무작위 또는 계층화된 샘플링을 사용하여 대규모 데이터세트를 가져옵니다.
-
데이터 준비: 처리된 데이터를 캔버스의 데이터 랭글러에서 Amazon S3, 새 Canvas 데이터세트 또는 Canvas 모델로 내보냅니다.
-
모델 구축: 대규모 데이터세트를 기반으로 모델을 학습시킵니다.
-
추론: 대규모 데이터세트에 대한 예측
기본적으로 SageMaker Canvas는 EMR 서버리스를 사용하여 다음과 같은 앱 설정으로 이러한 원격 작업을 실행합니다.
-
사전 초기화된 용량: 구성되지 않음
-
애플리케이션 제한: 최대 용량 400개vCPUs, vCPUs 계정당 최대 동시 사용 가능 16개, 메모리 3000GB, 디스크 20000GB
-
메타스토어 구성: AWS Glue Data Catalog
-
애플리케이션 로그: AWS 관리형 스토리지 (활성화), 사용 AWS 소유한 암호화 키
-
애플리케이션 동작: 작업 제출 시 자동으로 시작되고 애플리케이션이 15분 동안 유휴 상태가 되면 자동 중지됩니다.
이러한 대용량 데이터 처리 기능을 사용하려면 사용자에게 필요한 권한이 필요하며, 이 권한은 Amazon SageMaker 도메인 설정을 통해 부여할 수 있습니다. 이러한 권한을 부여하는 방법은 Amazon SageMaker 도메인이 처음 설정된 방식에 따라 다릅니다. 세 가지 주요 시나리오를 다루겠습니다.
-
빠른 도메인 설정
-
사용자 지정 도메인 설정 (공용 인터넷 액세스 가능/없음VPC)
-
사용자 지정 도메인 설정 (공용 인터넷 VPC 액세스 포함 및 제외)
각 시나리오에는 사용자가 SageMaker Canvas의 전체 기계 학습 수명 주기에 걸쳐 대규모 데이터 처리를 위해 EMR 서버리스를 활용하는 데 필요한 권한이 있는지 확인하는 특정 단계가 필요합니다.
시나리오 1: 빠른 도메인 설정
SageMaker 도메인을 생성할 때 빠른 설정 옵션을 사용한 경우 다음 단계를 따르세요.
-
Amazon SageMaker 도메인 설정으로 이동합니다.
-
에서 Amazon SageMaker 콘솔을 엽니다 https://console.aws.amazon.com/sagemaker/
. -
왼쪽 탐색 창에서 도메인을 선택합니다.
-
도메인을 선택합니다.
-
앱 구성 탭을 선택합니다.
-
캔버스 섹션으로 스크롤하여 편집을 선택합니다.
-
-
대용량 데이터 처리 활성화:
-
대용량 데이터 처리 구성 섹션에서 대용량 데이터 처리를 위한 EMR 서버리스 활성화를 설정합니다.
-
EMR서버리스 역할 생성 또는 선택:
-
[Create] 를 선택하고 새 실행 역할을 사용하여 EMR Serverless와 신뢰 관계가 있고 AWS 관리형 정책: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy 정책이 연결된 새 IAM 역할을 생성합니다. Canvas는 이 IAM 역할을 맡아 EMR 서버리스 작업을 생성합니다.
-
또는 EMR 서버리스에 대한 신뢰 관계가 있는 실행 역할이 이미 있는 경우 기존 실행 역할 사용을 선택하고 드롭다운에서 역할을 선택합니다.
-
기존 역할의 이름은 접두사로 시작해야 합니다.
AmazonSageMakerCanvasEMRSExecutionAccess-
-
또한 선택한 역할에는 최소한 AWS 관리형 정책: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy 정책에 설명된 권한이 있어야 합니다.
-
역할에는 아래와 같이 EMR 서버리스 신뢰 정책이 있어야 합니다.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
<your-account-id>
" } } } ] }
-
-
-
-
(선택 사항) 사용자 지정 Amazon S3 버킷에 대한 Amazon S3 권한을 추가합니다.
-
Canvas 관리형 정책은 이름이
sagemaker
포함되거나SageMaker
이름이 포함된 Amazon S3 버킷에 대한 읽기 및 쓰기 권한을 자동으로 부여합니다. 또한 태그가"SageMaker": "true"
있는 사용자 지정 Amazon S3 버킷의 객체에 대한 읽기 권한을 부여합니다. -
필수 태그가 없는 사용자 지정 Amazon S3 버킷의 경우 EMR 서버리스 역할에 다음 정책을 추가하십시오.
-
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
-
Canvas에서 액세스할 수 있는 특정 Amazon S3 버킷으로 권한 범위를 좁히는 것이 좋습니다.
-
-
변경 내용을 저장하고 SageMaker Canvas 애플리케이션을 다시 시작하십시오.
시나리오 2: 사용자 지정 도메인 설정 (공용 인터넷 액세스 가능/없음VPC)
사용자 지정 도메인을 만들거나 사용하는 경우 시나리오 1의 1~3단계를 수행한 후 다음 추가 단계를 수행하십시오.
-
Canvas는 데이터 준비 및 모델 교육에 공개 Amazon ECR Docker 이미지를 사용하므로 Amazon SageMaker 실행 역할에 Amazon ECR
DescribeImages
작업에 대한 권한을 추가합니다.-
로그인하십시오. AWS 에서 콘솔을 열고 IAM 콘솔을 엽니다 https://console.aws.amazon.com/iam/
. -
역할을 선택합니다.
-
검색 상자에서 SageMaker 실행 역할을 이름으로 검색하고 선택합니다.
-
SageMaker 실행 역할에 다음 정책을 추가합니다. 새 인라인 정책으로 추가하거나 기존 정책에 정책 설명을 추가하여 이 작업을 수행할 수 있습니다. 단, IAM 역할에는 최대 10개의 정책을 연결할 수 있습니다.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
-
-
변경 내용을 저장하고 SageMaker Canvas 애플리케이션을 다시 시작합니다.
시나리오 3: 사용자 지정 도메인 설정 (공용 인터넷 액세스 유무에 관계없이) VPC
사용자 지정 도메인을 만들거나 사용하는 경우 시나리오 2의 모든 단계를 수행한 후 다음 추가 단계를 따르십시오.
-
VPC서브넷이 비공개인지 확인하십시오.
-
서브넷의 라우팅 테이블에 Internet
0.0.0.0/0
Gateway로의 항목 매핑이 없는지 확인하십시오.
-
-
네트워크 인터페이스 생성을 위한 권한 추가:
-
대규모 데이터 처리를 위해 SageMaker Canvas와 EMR Serverless를 사용하는 경우 EMR 서버리스는 EMR 서버리스 애플리케이션과 리소스 간의 네트워크 통신을 가능하게 EC2 ENIs 하기 위해 Amazon을 생성할 수 있는 기능이 필요합니다. VPC
-
Amazon SageMaker 실행 역할에 다음 정책을 추가합니다. 새 인라인 정책으로 추가하거나 기존 인라인 정책에 정책 설명을 추가하여 이 작업을 수행할 수 있습니다. 단, IAM 역할에는 최대 10개의 정책을 연결할 수 있습니다.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
-
-
(선택 사항) ENI 생성을 특정 서브넷으로 제한합니다.
-
내 서브넷의 생성을 특정 서브넷으로 제한하여 설정을 더욱 안전하게 ENIs 보호하려면 각 서브넷에 특정 VPC 조건을 지정하여 태그를 지정할 수 있습니다.
-
다음 IAM 정책을 사용하여 EMR 서버리스 애플리케이션이 허용된 서브넷 및 보안 그룹 EC2 ENIs 내에서만 Amazon을 생성할 수 있도록 하십시오.
{ "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
-
-
페이지의 인터넷에 접속할 수 VPC 없는 SageMaker 환경에서 Amazon Canvas를 구성하세요. 단계에 따라 Amazon S3의 엔드포인트를 설정합니다. 이 VPC 엔드포인트는 EMR 서버리스 및 기타에 필요합니다. AWS SageMaker Canvas에서 사용하는 서비스.
-
변경 내용을 저장하고 SageMaker Canvas 애플리케이션을 다시 시작합니다.
다음 단계를 따르면 사용자 지정 VPC 구성을 포함한 다양한 도메인 설정에 대해 SageMaker Canvas에서 대용량 데이터 처리를 활성화할 수 있습니다. 새 권한을 적용하려면 이러한 변경을 수행한 후 SageMaker Canvas 애플리케이션을 다시 시작해야 합니다.