작업 생성 태스크 상태 여러 작업을 사용하여 대규모 데이터 세트 분할 여러 작업으로 전송된 데이터 분할

데이터 전송을 위한 작업 생성

작업은가 데이터를 AWS DataSync 전송하는 위치와 방법을 설명합니다. 작업은 다음으로 구성됩니다.

소스 위치 - DataSync가 데이터를 전송하는 소스 스토리지 시스템 또는 서비스입니다.
대상 위치 - DataSync가 데이터를 전송하는 대상 스토리지 시스템 또는 서비스입니다.
작업 옵션 - 전송할 파일, 데이터 확인 방법, 작업 실행 시기 등과 같은 설정입니다.
태스크 실행 - 태스크를 실행하는 것을 태스크 실행이라고 합니다.

작업 생성

DataSync 작업을 생성할 때 소스 및 대상 위치를 지정합니다. 전송할 파일, 메타데이터 처리 방법, 일정 설정 등을 선택하여 작업을 사용자 지정할 수도 있습니다.

작업을 생성하기 전에 DataSync 전송 방식을 이해하고 작업 할당량을 검토해야 합니다.

중요

Amazon S3 위치와 데이터를 주고받을 계획이라면 시작하기 전에 DataSync가 S3 요청 요금에 미치는 영향 및 DataSync 요금 페이지를 검토하세요.

https://console.aws.amazon.com/datasync/ AWS DataSync 콘솔을 엽니다.
데이터를 전송할 AWS 리전 에 있는지 확인합니다.
왼쪽 탐색 창에서 데이터 전송을 확장한 다음 작업을 선택하고 작업 생성을 선택합니다.
소스 위치 구성 페이지에서 소스 위치를 생성하거나 선택하고 다음을 선택합니다.
대상 위치 구성 페이지에서 대상 위치를 생성하거나 선택하고 다음을 선택합니다.
(권장) 설정 구성 페이지에서 작업에 기억할 수 있는 이름을 지정합니다.
설정 구성 페이지에서 작업 옵션을 선택하거나 기본 설정을 사용합니다.

다음 옵션 중 일부에 관심이 있을 수 있습니다.
- 사용할 작업 모드를 지정합니다.
- 매니페스트 또는 필터를 사용하여 전송할 데이터를 지정합니다.
- 파일 메타데이터를 처리하고 데이터 무결성을 확인하는 방법을 구성합니다.
- 작업 보고서 또는 Amazon CloudWatch를 사용하여 전송을 모니터링합니다. 작업에 대한 일종의 모니터링을 설정하는 것이 좋습니다.
완료했으면 다음을 선택합니다.
작업 구성을 검토한 후 작업 생성을 선택합니다.

작업을 시작할 준비가 되었습니다.

DataSync 소스 및 대상 위치를 생성하면 작업을 생성할 수 있습니다.

AWS CLI 설정에서 데이터를 전송 AWS 리전 하려는 중 하나를 사용하고 있는지 확인합니다.

다음 create-task명령을 복사합니다.


aws datasync create-task \
  --source-location-arn "arn:aws:datasync:us-east-1:account-id:location/location-id" \
  --destination-location-arn "arn:aws:datasync:us-east-1:account-id:location/location-id" \
  --name "task-name"

--source-location-arn에서 소스 위치의 Amazon 리소스 이름(ARN)을 지정합니다.
--destination-location-arn에서 대상 위치의 ARN을 지정합니다.

AWS 리전 또는 계정 간에 전송하는 경우 ARN에 다른 리전 또는 계정 ID가 포함되어 있는지 확인합니다.
(권장) --name에서 기억할 수 있는 작업의 이름을 지정합니다.
필요에 따라 다른 작업 옵션을 지정합니다. 다음 옵션 중 일부에 관심이 있을 수 있습니다.
- 매니페스트 또는 필터를 사용하여 전송할 데이터를 지정합니다.
- 파일 메타데이터를 처리하고 데이터 무결성을 확인하는 방법을 구성합니다.
- 작업 보고서 또는 Amazon CloudWatch를 사용하여 전송을 모니터링합니다. 작업에 대한 일종의 모니터링을 설정하는 것이 좋습니다.
자세한 옵션은 create-task 섹션을 참조하세요. 다음은 여러 옵션을 지정하는 예제 create-task 명령입니다.
```
aws datasync create-task \
  --source-location-arn "arn:aws:datasync:us-east-1:account-id:location/location-id" \
  --destination-location-arn "arn:aws:datasync:us-east-1:account-id:location/location-id" \
  --cloud-watch-log-group-arn "arn:aws:logs:region:account-id" \
  --name "task-name" \
  --options VerifyMode=NONE,OverwriteMode=NEVER,Atime=BEST_EFFORT,Mtime=PRESERVE,Uid=INT_VALUE,Gid=INT_VALUE,PreserveDevices=PRESERVE,PosixPermissions=PRESERVE,PreserveDeletedFiles=PRESERVE,TaskQueueing=ENABLED,LogLevel=TRANSFER
```
create-task 명령을 실행합니다.

명령이 성공하면 생성한 작업의 ARN을 보여주는 응답을 받게 됩니다. 예시:
```
{ 
    "TaskArn": "arn:aws:datasync:us-east-1:111222333444:task/task-08de6e6697796f026" 
}
```

작업을 시작할 준비가 되었습니다.

태스크 상태

DataSync 작업을 생성할 때 상태를 확인하여 실행할 준비가 되었는지 확인할 수 있습니다.

콘솔 상태	API 상태	설명
Available	`AVAILABLE`	작업이 데이터 전송을 시작할 준비가 되었습니다.
실행 중	`RUNNING`	작업 실행이 진행 중입니다. 자세한 내용은 태스크 실행 상태 단원을 참조하십시오.
Unavailable	`UNAVAILABLE`	태스크에 사용되는 DataSync 에이전트는 오프라인 상태입니다. 자세한 내용은 에이전트가 오프라인 상태인 경우, 어떻게 해야 하나요? 단원을 참조하세요.
대기됨	`QUEUED`	동일한 DataSync 에이전트를 사용하는 다른 작업 실행이 진행 중입니다. 자세한 내용은 작업이 대기열에 있는 시점 파악 단원을 참조하십시오.

여러 작업을 사용하여 대규모 데이터 세트 분할

수백만 개의 파일 또는 객체 마이그레이션과 같은 대규모 데이터 세트를 전송하는 경우 여러 DataSync 작업으로 데이터 세트를 분할하는 것이 좋습니다. 소스 데이터를 여러 작업(및 위치에 따라 에이전트)으로 분할하면 DataSync가 데이터를 준비하고 전송하는 데 걸리는 시간을 줄일 수 있습니다.

여러 DataSync 작업에서 대규모 데이터 세트를 분할할 수 있는 몇 가지 방법을 고려해 보세요.

별도의 폴더를 전송하는 작업을 생성합니다. 예를 들어 소스 스토리지/FolderB에서 각각 /FolderA 및를 대상으로 하는 두 개의 태스크를 생성할 수 있습니다.
매니페스트 또는 필터를 사용하여 파일, 객체 및 폴더의 하위 집합을 전송하는 작업을 생성합니다.

이러한 접근 방식으로 스토리지 시스템의 I/O 작업이 증가하고 네트워크 대역폭에 영향을 미칠 수 있다는 점에 유의하세요. 자세한 내용은 How to accelerate your data transfers with DataSync scale out architectures에 관한 블로그를 참조하세요.

여러 작업으로 전송된 데이터 분할

서로 다른 데이터세트를 동일한 대상으로 전송하는 경우 전송하는 데이터를 분할하는 데 도움이 되는 여러 작업을 생성할 수 있습니다.

예를 들어 MyBucket이라는 동일한 S3 버킷으로 전송하는 경우 각 작업에 해당하는 다른 접두사를 버킷에 생성할수 있습니다. 이 접근 방식은 파일 이름이 데이터세트와 충돌하는 것을 방지하고 각 접두사에 대해 서로 다른 권한을 설정할 수 있습니다. 이를 설정하는 방법은 다음과 같습니다.

task1, task2, task3라는 이름의 대상 MyBucket에 세 개의 접두사를 생성합니다.
- s3://MyBucket/task1
- s3://MyBucket/task2
- s3://MyBucket/task3
task1, task2, task3라는 이름의 DataSync 작업 세 개를 생성하여 MyBucket의 해당 접두사로 전송합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Snowball Edge에서 S3 호환 스토리지로 또는 S3 호환 스토리지에서 전송

전송을 위한 작업 모드 선택