데이터 내보내기 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 내보내기

데이터를 내보내 데이터 흐름의 변환을 가져온 전체 데이터세트에 적용합니다. 데이터 흐름의 원하는 노드를 다음 위치로 내보낼 수 있습니다.

  • SageMaker Canvas 데이터 세트

  • Amazon S3

Canvas에서 모델을 훈련하려면 변환된 전체 데이터세트를 Canvas 데이터세트로 내보낼 수 있습니다. SageMaker Canvas 외부의 기계 학습 워크플로에서 변환된 데이터를 사용하려면 데이터 세트를 Amazon S3로 내보낼 수 있습니다.

Canvas 데이터세트로 내보내기

다음 절차에 따라 데이터 흐름의 노드에서 SageMaker Canvas 데이터 세트를 내보냅니다.

흐름의 노드를 SageMaker Canvas 데이터 세트로 내보내려면
  1. 데이터 흐름으로 이동합니다.

  2. 내보내려는 노드 옆에 있는 줄임표 아이콘을 선택합니다.

  3. 컨텍스트 메뉴에서 내보내기 에 마우스를 올려 놓고 Canvas 데이터세트로 데이터 내보내기를 선택합니다.

  4. Canvas 데이터세트로 내보내기 사이드 패널에 새 데이터세트의 데이터세트 이름을 입력합니다.

  5. SageMaker Canvas가 전체 데이터 세트를 처리하고 저장하도록 하려면 전체 데이터 세트 처리 옵션을 선택한 상태로 둡니다. 데이터 흐름에서 작업 중인 샘플 데이터에만 변환을 적용하려면 이 옵션을 끕니다.

  6. 내보내기를 선택합니다.

이제 Canvas 애플리케이션의 데이터세트 페이지로 이동하여 새 데이터세트를 볼 수 있습니다.

Amazon S3로 내보내기

데이터를 Amazon S3로 내보낼 때 원하는 크기의 데이터를 변환하고 처리하도록 확장할 수 있습니다. Canvas는 애플리케이션의 메모리가 데이터세트 크기를 처리할 수 있는 경우 데이터를 로컬에서 자동으로 처리합니다. 데이터세트 크기가 로컬 메모리 용량인 5GB를 초과하는 경우 Canvas는 사용자를 대신하여 원격 작업을 시작하여 추가 컴퓨팅 리소스를 프로비저닝하고 데이터를 더 빠르게 처리합니다. 기본적으로 Canvas는 Amazon EMR Serverless를 사용하여 이러한 원격 작업을 실행합니다. 그러나 EMR 서버리스 또는 SageMaker 처리 작업을 자체 설정과 함께 사용하도록 Canvas를 수동으로 구성할 수 있습니다.

참고

EMR Serverless 작업을 실행할 때 기본적으로 작업은 Canvas 애플리케이션의 IAM 역할, KMS 키 설정 및 태그를 상속합니다.

다음은 Canvas의 원격 작업에 대한 옵션을 요약한 것입니다.

  • EMR 서버리스: Canvas가 원격 작업에 사용하는 기본 옵션입니다. EMR Serverless는 컴퓨팅 리소스를 자동으로 프로비저닝하고 확장하여 데이터를 처리하므로 워크로드에 적합한 컴퓨팅 리소스를 선택할 필요가 없습니다. EMR Serverless에 대한 자세한 내용은 EMR Serverless 사용 설명서를 참조하세요.

  • SageMaker 처리: SageMaker 처리 작업은 데이터를 처리하는 데 사용되는 컴퓨팅 리소스에 대한 고급 옵션과 세분화된 제어를 제공합니다. 예를 들어 컴퓨팅 인스턴스의 유형 및 수를 지정하고, 자체에서 작업을 구성VPC하고, 네트워크 액세스를 제어하고, 처리 작업을 자동화하는 등의 작업을 수행할 수 있습니다. 처리 작업 자동화에 대한 자세한 내용은 새 데이터를 자동으로 처리하는 일정 만들기 섹션을 참조하세요. 작업 SageMaker 처리에 대한 자세한 내용은 섹션을 참조하세요 SageMaker 처리를 통한 데이터 변환 워크로드.

Amazon S3로 내보낼 때 다음 파일 유형이 지원됩니다.

  • CSV

  • PARQUET

시작하려면 다음 필수 조건을 확인하세요.

EMR Serverless 작업의 사전 조건

EMR Serverless 리소스를 사용하는 원격 작업을 생성하려면 필요한 권한이 있어야 합니다. Amazon SageMaker AI 도메인 또는 사용자 프로필 설정을 통해 권한을 부여하거나 사용자 AWS IAM 역할을 수동으로 구성할 수 있습니다. 사용자에게 대규모 데이터 처리를 수행할 수 있는 권한을 부여하는 방법에 대한 지침은 ML 수명 주기 전체에서 대규모 데이터를 사용할 수 있는 권한을 사용자에게 부여 섹션을 참조하세요.

이러한 정책을 구성하지 않지만 Data Wrangler를 통해 대규모 데이터 세트를 처리해야 하는 경우 SageMaker 처리 작업을 사용할 수도 있습니다.

데이터를 Amazon S3로 내보내려면 다음 절차를 따르세요. 원격 작업을 구성하려면 선택적 고급 단계를 따릅니다.

흐름의 노드를 Amazon S3로 내보내는 방법
  1. 데이터 흐름으로 이동합니다.

  2. 내보내려는 노드 옆에 있는 줄임표 아이콘을 선택합니다.

  3. 컨텍스트 메뉴에서 내보내기 에 마우스를 올려 놓고 Amazon S3로 데이터 내보내기를 선택합니다.

  4. Amazon S3로 내보내기 사이드 패널에서 새 데이터세트의 데이터세트 이름을 변경할 수 있습니다.

  5. S3 위치에 데이터세트를 내보낼 Amazon S3 위치를 입력합니다. S3 위치 또는 S3 액세스 포인트ARN의 S3 URI, 별칭 또는 S3를 입력할 수 있습니다. 자세한 내용은 Amazon S3 사용 설명서에서 Managing data access with Amazon S3 access points를 참조하세요.

  6. (선택 사항) 고급 설정에서 다음 필드의 값을 지정합니다.

    1. 파일 유형 - 내보낸 데이터의 파일 형식입니다.

    2. 구분 기호 - 파일의 값을 구분하는 데 사용되는 구분 기호입니다.

    3. 압축 – 파일 크기를 줄이는 데 사용되는 압축 방법입니다.

    4. 파티션 수 - Canvas가 작업의 출력으로 작성하는 데이터세트 파일의 수입니다.

    5. 열 선택 - 데이터에서 파티션에 포함할 열의 하위 집합을 선택할 수 있습니다.

  7. Canvas가 데이터 흐름 변환을 전체 데이터세트에 적용하고 결과를 내보내도록 하려면 전체 데이터세트 처리 옵션을 선택한 상태로 둡니다. 이 옵션을 선택 취소하면 Canvas는 대화형 Data Wrangler 데이터 흐름에 사용되는 데이터세트의 샘플에만 변환을 적용합니다.

    참고

    데이터의 샘플만 내보내면 Canvas는 애플리케이션에서 데이터를 처리하고 사용자 대신 원격 작업을 만들지 않습니다.

  8. Canvas가 Canvas 애플리케이션 메모리 또는 EMR 서버리스 작업을 사용하여 작업을 실행할지 여부를 자동으로 결정하도록 하려면 자동 작업 구성 옵션을 선택한 상태로 둡니다. 이 옵션을 선택 취소하고 작업을 수동으로 구성하는 경우 EMR 서버리스 또는 SageMaker 처리 작업을 사용하도록 선택할 수 있습니다. EMR 서버리스 또는 SageMaker 처리 작업을 구성하는 방법에 대한 지침은 데이터를 내보내기 전에이 절차의 다음 섹션을 참조하세요.

  9. 내보내기를 선택합니다.

다음 절차에서는 전체 데이터 세트를 Amazon S3로 내보낼 때 EMR Serverless 또는 SageMaker Processing에 대한 원격 작업 설정을 수동으로 구성하는 방법을 보여줍니다.

EMR Serverless

Amazon S3로 내보내는 동안 EMR Serverless 작업을 구성하려면 다음을 수행합니다.

  1. Amazon S3로 내보내기 사이드 패널에서 자동 작업 구성 옵션을 끕니다.

  2. EMR 서버리스를 선택합니다.

  3. 작업 이름에 EMR Serverless 작업의 이름을 입력합니다. 이름에는 문자, 숫자, 하이픈 및 밑줄만 포함해야 합니다.

  4. IAM 역할에 사용자의 IAM 실행 역할을 입력합니다. 이 역할에는 EMR Serverless 애플리케이션을 실행하는 데 필요한 권한이 있어야 합니다. 자세한 내용은 ML 수명 주기 전체에서 대규모 데이터를 사용할 수 있는 권한을 사용자에게 부여 단원을 참조하십시오.

  5. (선택 사항) KMS 키에 작업 로그를 암호화 AWS KMS key 할 ARN의 키 ID 또는를 지정합니다. 키를 입력하지 않으면 Canvas는 EMR Serverless에 기본 키를 사용합니다.

  6. (선택 사항) 모니터링 구성에 로그를 게시할 Amazon CloudWatch Logs 로그 그룹의 이름을 입력합니다.

  7. (선택 사항) 태그의 경우 키-값 페어로 구성된 EMR Serverless 작업에 메타데이터 태그를 추가합니다. 이러한 태그를 사용하여 작업을 분류하고 검색할 수 있습니다.

  8. [Export]를 선택해 작업을 시작합니다.

SageMaker Processing

Amazon S3로 내보내는 동안 SageMaker 처리 작업을 구성하려면 다음을 수행합니다.

  1. Amazon S3로 내보내기 사이드 패널에서 자동 작업 구성 옵션을 끕니다.

  2. SageMaker 처리를 선택합니다.

  3. 작업 이름에 SageMaker AI 처리 작업의 이름을 입력합니다.

  4. 인스턴스 유형에서 처리 작업을 실행할 컴퓨팅 인스턴스 유형을 선택합니다.

  5. 인스턴스 수에서 시작할 컴퓨팅 인스턴스의 수를 지정합니다.

  6. IAM 역할에 사용자의 IAM 실행 역할을 입력합니다. 이 역할에는 SageMaker AI가 사용자를 대신하여 처리 작업을 생성하고 실행하는 데 필요한 권한이 있어야 합니다. 이러한 권한은 IAM 역할에 AmazonSageMakerFullAccess 정책이 연결된 경우 부여됩니다.

  7. 볼륨 크기에 각 처리 인스턴스에 연결된 ML 스토리지 볼륨의 스토리지 크기를 GB 단위로 입력합니다. 예상 입력 및 출력 데이터 크기를 기준으로 크기를 선택합니다.

  8. (선택 사항) 볼륨 KMS 키에서 스토리지 볼륨을 암호화하는 KMS 키를 지정합니다. 키를 지정하지 않으면 기본 Amazon EBS 암호화 키가 사용됩니다.

  9. (선택 사항) KMS 키에 키를 지정KMS하여 처리 작업에서 사용하는 Amazon S3 데이터 원본의 입력을 암호화하고 출력합니다.

  10. (선택 사항) Spark 메모리 구성에서 다음을 수행합니다.

    1. 작업 조정 및 예약을 처리하는 Spark 드라이버 노드에 드라이버 메모리를 MB 단위로 입력합니다.

    2. 작업에서 개별 작업을 실행하는 Spark 실행기 노드에 대해 실행기 메모리를 MB 단위로 입력합니다.

  11. (선택 사항) 네트워크 구성에서 다음을 수행합니다.

    1. 서브넷 구성에 시작할 처리 인스턴스IDs의 VPC 서브넷를 입력합니다. 기본적으로 작업은 기본의 설정을 사용합니다VPC.

    2. 보안 그룹 구성IDs에 인바운드 및 아웃바운드 연결 규칙을 제어할 보안 그룹의를 입력합니다.

    3. 컨테이너 간 트래픽 암호화 활성화 옵션을 켜서 작업 중에 처리 컨테이너 간 네트워크 통신을 암호화합니다.

  12. (선택 사항) 연결 일정의 경우 Amazon EventBridge 일정 생성을 선택하여 반복 간격으로 처리 작업을 실행할 수 있습니다. 새 일정 만들기를 선택하고 대화 상자를 채웁니다. 이 섹션을 작성하고 일정에 따라 처리 작업을 실행하는 방법에 대한 자세한 내용은 새 데이터를 자동으로 처리하는 일정 만들기 섹션을 참조하세요.

  13. (선택 사항) 처리 작업을 분류하고 검색할 수 있도록 태그를 키-값 페어로 추가합니다.

  14. 내보내기를 선택해 처리 작업을 시작합니다.

데이터를 내보낸 후에는 지정된 Amazon S3 위치에서 완전히 처리된 데이터세트를 찾아야 합니다.