ML 수명 주기 전반에 걸쳐 대용량 데이터를 사용할 수 있는 권한을 사용자에게 부여하십시오. - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

ML 수명 주기 전반에 걸쳐 대용량 데이터를 사용할 수 있는 권한을 사용자에게 부여하십시오.

형식이 10GB 또는 Parquet CSV 형식의 2.5GB보다 큰 데이터 세트를 사용하는 Amazon SageMaker Canvas 사용자는 대규모 데이터 처리를 위한 특정 권한이 필요합니다. 이러한 권한은 기계 학습 수명 주기 전반에 걸쳐 대규모 데이터를 관리하는 데 필수적입니다. 데이터세트가 명시된 임계값 또는 애플리케이션의 로컬 메모리 용량을 초과하는 경우 SageMaker Canvas는 효율적인 처리를 위해 Amazon EMR Serverless를 사용합니다. 이는 다음에 적용됩니다.

  • 데이터 가져오기: 무작위 또는 계층화된 샘플링을 사용하여 대규모 데이터세트를 가져옵니다.

  • 데이터 준비: 처리된 데이터를 캔버스의 데이터 랭글러에서 Amazon S3, 새 Canvas 데이터세트 또는 Canvas 모델로 내보냅니다.

  • 모델 구축: 대규모 데이터세트를 기반으로 모델을 학습시킵니다.

  • 추론: 대규모 데이터세트에 대한 예측

기본적으로 SageMaker Canvas는 EMR 서버리스를 사용하여 다음과 같은 앱 설정으로 이러한 원격 작업을 실행합니다.

  • 사전 초기화된 용량: 구성되지 않음

  • 애플리케이션 제한: 최대 용량 400개vCPUs, vCPUs 계정당 최대 동시 사용 가능 16개, 메모리 3000GB, 디스크 20000GB

  • 메타스토어 구성: AWS Glue Data Catalog

  • 애플리케이션 로그: AWS 관리형 스토리지 (활성화), 사용 AWS 소유한 암호화 키

  • 애플리케이션 동작: 작업 제출 시 자동으로 시작되고 애플리케이션이 15분 동안 유휴 상태가 되면 자동 중지됩니다.

이러한 대용량 데이터 처리 기능을 사용하려면 사용자에게 필요한 권한이 필요하며, 이 권한은 Amazon SageMaker 도메인 설정을 통해 부여할 수 있습니다. 이러한 권한을 부여하는 방법은 Amazon SageMaker 도메인이 처음 설정된 방식에 따라 다릅니다. 세 가지 주요 시나리오를 다루겠습니다.

  • 빠른 도메인 설정

  • 사용자 지정 도메인 설정 (공용 인터넷 액세스 가능/없음VPC)

  • 사용자 지정 도메인 설정 (공용 인터넷 VPC 액세스 포함 및 제외)

각 시나리오에는 사용자가 SageMaker Canvas의 전체 기계 학습 수명 주기에 걸쳐 대규모 데이터 처리를 위해 EMR 서버리스를 활용하는 데 필요한 권한이 있는지 확인하는 특정 단계가 필요합니다.

시나리오 1: 빠른 도메인 설정

SageMaker 도메인을 생성할 때 빠른 설정 옵션을 사용한 경우 다음 단계를 따르세요.

  1. Amazon SageMaker 도메인 설정으로 이동합니다.

    1. 에서 Amazon SageMaker 콘솔을 엽니다 https://console.aws.amazon.com/sagemaker/.

    2. 왼쪽 탐색 창에서 도메인을 선택합니다.

    3. 도메인을 선택합니다.

    4. 앱 구성 탭을 선택합니다.

    5. 캔버스 섹션으로 스크롤하여 편집을 선택합니다.

  2. 대용량 데이터 처리 활성화:

    1. 대용량 데이터 처리 구성 섹션에서 대용량 데이터 처리를 위한 EMR 서버리스 활성화를 설정합니다.

    2. EMR서버리스 역할 생성 또는 선택:

      1. [Create] 를 선택하고 새 실행 역할을 사용하여 EMR Serverless와 신뢰 관계가 있고 AWS 관리형 정책: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy 정책이 연결된 새 IAM 역할을 생성합니다. Canvas는 이 IAM 역할을 맡아 EMR 서버리스 작업을 생성합니다.

      2. 또는 EMR 서버리스에 대한 신뢰 관계가 있는 실행 역할이 이미 있는 경우 기존 실행 역할 사용을 선택하고 드롭다운에서 역할을 선택합니다.

        • 기존 역할의 이름은 접두사로 시작해야 합니다. AmazonSageMakerCanvasEMRSExecutionAccess-

        • 또한 선택한 역할에는 최소한 AWS 관리형 정책: AmazonSageMakerCanvas EMRServerlessExecutionRolePolicy 정책에 설명된 권한이 있어야 합니다.

        • 역할에는 아래와 같이 EMR 서버리스 신뢰 정책이 있어야 합니다.

          { "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "<your-account-id>" } } } ] }
  3. (선택 사항) 사용자 지정 Amazon S3 버킷에 대한 Amazon S3 권한을 추가합니다.

    1. Canvas 관리형 정책은 이름이 sagemaker 포함되거나 SageMaker 이름이 포함된 Amazon S3 버킷에 대한 읽기 및 쓰기 권한을 자동으로 부여합니다. 또한 태그가 "SageMaker": "true" 있는 사용자 지정 Amazon S3 버킷의 객체에 대한 읽기 권한을 부여합니다.

    2. 필수 태그가 없는 사용자 지정 Amazon S3 버킷의 경우 EMR 서버리스 역할에 다음 정책을 추가하십시오.

    3. { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
    4. Canvas에서 액세스할 수 있는 특정 Amazon S3 버킷으로 권한 범위를 좁히는 것이 좋습니다.

  4. 변경 내용을 저장하고 SageMaker Canvas 애플리케이션을 다시 시작하십시오.

시나리오 2: 사용자 지정 도메인 설정 (공용 인터넷 액세스 가능/없음VPC)

사용자 지정 도메인을 만들거나 사용하는 경우 시나리오 1의 1~3단계를 수행한 후 다음 추가 단계를 수행하십시오.

  1. Canvas는 데이터 준비 및 모델 교육에 공개 Amazon ECR Docker 이미지를 사용하므로 Amazon SageMaker 실행 역할에 Amazon ECR DescribeImages 작업에 대한 권한을 추가합니다.

    1. 로그인하십시오. AWS 에서 콘솔을 열고 IAM 콘솔을 엽니다 https://console.aws.amazon.com/iam/.

    2. 역할을 선택합니다.

    3. 검색 상자에서 SageMaker 실행 역할을 이름으로 검색하고 선택합니다.

    4. SageMaker 실행 역할에 다음 정책을 추가합니다. 새 인라인 정책으로 추가하거나 기존 정책에 정책 설명을 추가하여 이 작업을 수행할 수 있습니다. 단, IAM 역할에는 최대 10개의 정책을 연결할 수 있습니다.

      { "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
  2. 변경 내용을 저장하고 SageMaker Canvas 애플리케이션을 다시 시작합니다.

시나리오 3: 사용자 지정 도메인 설정 (공용 인터넷 액세스 유무에 관계없이) VPC

사용자 지정 도메인을 만들거나 사용하는 경우 시나리오 2의 모든 단계를 수행한 후 다음 추가 단계를 따르십시오.

  1. VPC서브넷이 비공개인지 확인하십시오.

    1. 서브넷의 라우팅 테이블에 Internet 0.0.0.0/0 Gateway로의 항목 매핑이 없는지 확인하십시오.

  2. 네트워크 인터페이스 생성을 위한 권한 추가:

    1. 대규모 데이터 처리를 위해 SageMaker Canvas와 EMR Serverless를 사용하는 경우 EMR 서버리스는 EMR 서버리스 애플리케이션과 리소스 간의 네트워크 통신을 가능하게 EC2 ENIs 하기 위해 Amazon을 생성할 수 있는 기능이 필요합니다. VPC

    2. Amazon SageMaker 실행 역할에 다음 정책을 추가합니다. 새 인라인 정책으로 추가하거나 기존 인라인 정책에 정책 설명을 추가하여 이 작업을 수행할 수 있습니다. 단, IAM 역할에는 최대 10개의 정책을 연결할 수 있습니다.

      { "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
  3. (선택 사항) ENI 생성을 특정 서브넷으로 제한합니다.

    1. 내 서브넷의 생성을 특정 서브넷으로 제한하여 설정을 더욱 안전하게 ENIs 보호하려면 각 서브넷에 특정 VPC 조건을 지정하여 태그를 지정할 수 있습니다.

    2. 다음 IAM 정책을 사용하여 EMR 서버리스 애플리케이션이 허용된 서브넷 및 보안 그룹 EC2 ENIs 내에서만 Amazon을 생성할 수 있도록 하십시오.

      { "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
  4. 페이지의 인터넷에 접속할 수 VPC 없는 SageMaker 환경에서 Amazon Canvas를 구성하세요. 단계에 따라 Amazon S3의 엔드포인트를 설정합니다. 이 VPC 엔드포인트는 EMR 서버리스 및 기타에 필요합니다. AWS SageMaker Canvas에서 사용하는 서비스.

  5. 변경 내용을 저장하고 SageMaker Canvas 애플리케이션을 다시 시작합니다.

다음 단계를 따르면 사용자 지정 VPC 구성을 포함한 다양한 도메인 설정에 대해 SageMaker Canvas에서 대용량 데이터 처리를 활성화할 수 있습니다. 새 권한을 적용하려면 이러한 변경을 수행한 후 SageMaker Canvas 애플리케이션을 다시 시작해야 합니다.