기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 를 사용하여 대규모 데이터 마이그레이션 수행 AWS DataSync
<a name="datasync-large-migration"></a>

대규모 데이터 마이그레이션에는 다양한 형식으로 수백만 개의 파일 또는 객체를 포함하는 상당한 양의 데이터를 전송하는 작업이 포함될 수 있습니다.는 예약, 모니터링, 암호화 및 데이터 확인을 관리하여 이러한 복잡한 전송을 간소화 AWS DataSync 합니다.

## 대규모 데이터 마이그레이션이란 무엇인가요?
<a name="datasync-large-migration-definition"></a>

대규모 데이터 마이그레이션에는 일반적으로 다양한 소스에 분산된 테라바이트 이상의 데이터를 새 대상 스토리지 환경(이 경우 AWS)으로 전송하는 작업이 포함됩니다. 이러한 마이그레이션은 비즈니스 중단을 최소화하면서 데이터를 성공적으로 이동하기 위해 조직 내에서 신중한 계획과 조정을 거쳐야 합니다.

DataSync는 일반적으로 복잡한 이러한 마이그레이션을 단순화할 수 있습니다. 마이그레이션에 DataSync를 사용할 때 얻을 수 있는 몇 가지 이점은 다음과 같습니다.
+ 고성능의 안전한 데이터 전송에 필요한 데이터 전송 프로세스 및 인프라 관리를 자동화합니다.
+ 암호화 및 데이터 무결성 검증을 포함한 엔드투엔드 보안을 통해 데이터가 안전하게, 손상되지 않고, 즉시 사용할 수 있도록 보장합니다.
+ 마이그레이션 속도를 높이기 위한 목적으로 특별히 구축된 네트워크 프로토콜과 병렬 다중 스레드 아키텍처입니다.

## 대규모 데이터 마이그레이션의 주요 단계
<a name="datasync-large-migration-stages"></a>

일반적으로 대규모 마이그레이션을 다음 단계로 나눌 수 있습니다.
+ **(1단계) 데이터 마이그레이션 계획** - 이 단계에서는 마이그레이션하는 이유와 작업 중인 데이터 유형을 이해합니다. 계획 활동에는 다음이 포함됩니다.
  + 마이그레이션하려는 이유 이해 
  + 마이그레이션의 모든 측면을 지원하는 팀 구성
  + 데이터 위치, 형식, 사용 패턴 식별
  + 사용 가능한 하드웨어 리소스 및 네트워크 요구 사항 평가(온프레미스 데이터 센터에서 마이그레이션하는 경우)
  + DataSync를 통해 개념 증명(POC) 테스트를 실행하여 마이그레이션 타임라인 추정, 전환 기간 계획, DataSync 구성 방법 파악
+ **(2단계) 대규모 데이터 마이그레이션 구현** - 이 시점에서는 계획을 검증하고 마이그레이션을 시작합니다. 구현 활동에는 다음이 포함됩니다.
  + 마이그레이션 계획 검증
  + 예상대로 데이터 전송이 이루어지는지 모니터링 및 확인하는 등 단계별 전환 실행
  + 각 전환 사이에 필요에 따라 최적화 및 조정
  + 완료 후 미사용 리소스 정리

## 추가 리소스
<a name="review-migration-data-resources"></a>

AWS 권장 가이드에는 대규모 마이그레이션을 계획하고 구현하는 데 도움이 되는 다음과 같은 리소스가 있습니다. 이 가이드를 사용하여 일반적인 마이그레이션 프로세스 및 활동의 맥락에서 DataSync가 작동하는 방법을 이해합니다.
+ [AWS 클라우드로의 대규모 마이그레이션](https://aws.amazon.com/prescriptive-guidance/large-migrations/?large-migration-strategies.sort-by=item.additionalFields.sortText&large-migration-strategies.sort-order=desc&large-migration-playbooks.sort-by=item.additionalFields.sortText&large-migration-playbooks.sort-order=desc&large-migration-patterns.sort-by=item.additionalFields.sortText&large-migration-patterns.sort-order=desc)
+ [AWS 대규모 마이그레이션을 위한 전략 및 모범 사례](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-large-scale-migrations/welcome.html)
+ [AWS 대규모 마이그레이션에서 공유 파일 시스템 마이그레이션](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/migrate-shared-file-systems-in-an-aws-large-migration.html) -이 리소스에는 파일 공유 수준에서 마이그레이션을 계획하는 데 사용하고 다운로드할 수 있는 **SFS-Discovery-Workbook**이 포함되어 있습니다.

# 1단계: 대규모 데이터 마이그레이션 계획
<a name="datasync-large-migraton-stage-1"></a>

대규모 데이터세트를 마이그레이션할 때는 계획이 필수입니다. 마이그레이션하려는 데이터, 마이그레이션 동기,가 원하는 위치에 데이터를 가져오는 AWS DataSync 데 도움이 되는 방법을 이해해야 합니다.

**Topics**
+ [마이그레이션을 위한 요구 사항 수집](gathering-migration-requirements.md)
+ [DataSync 개념 증명 실행](datasync-large-migration-poc.md)
+ [마이그레이션 타임라인 추정](datasync-large-migration-timelines.md)

# 마이그레이션을 위한 요구 사항 수집
<a name="gathering-migration-requirements"></a>

대규모 데이터 마이그레이션의 첫 번째 단계에서는 조직 전체에서 다양한 정보를 수집해야 합니다.

이 정보는 마이그레이션 [프로세스](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-large-scale-migrations/process.html)를 생성하는 데 도움이 되며, 대규모 마이그레이션의 경우 이는 소스에서 대상 스토리지로 작업([여러 웨이브에 걸쳐 수행](https://docs.aws.amazon.com/prescriptive-guidance/latest/application-portfolio-assessment-guide/wave-planning.html))을 전환하기 위한 여러 전송 및 절차를 포함할 수 있습니다.

## 마이그레이션하려는 이유 이해
<a name="define-migration-goals-why"></a>

마이그레이션을 시작하려면 먼저 데이터를 마이그레이션 AWS하는 이유를 명확하게 이해해야 합니다. 이를 통해 기한 준수, 리소스 관리, 팀 간 조정과 같은 일반적인 마이그레이션 문제를 해결할 수 있습니다.

마이그레이션 동기를 확인하는 데 도움이 필요한 경우 다음 질문에 답하세요.
+ 온프레미스 스토리지 공간을 확보하고 있나요?
+ 하드웨어 지원 계약 기한을 충족하고 있나요?
+ 데이터 센터 종료를 위한 것인가요?
+ 마이그레이션 타임라인은 어떻게 되나요?
+ 다른 클라우드 스토리지에서 데이터를 전송하고 있나요?
+ 부분 또는 전체 데이터세트를 마이그레이션하고 있나요?
+ 데이터 아카이브를 위한 것인가요?
+ 애플리케이션 또는 사용자가 이 데이터에 정기적으로 액세스해야 하나요?

## 물류 파악
<a name="define-migration-goals-logistics"></a>

스토리지 환경, 마이그레이션, 조직에 대한 몇 가지 기본 물류를 다룹니다.

1. 현재 데이터 스토리지 인프라에 대한 기본적인 사항을 이해합니다.

1. [DataSync 에이전트](do-i-need-datasync-agent.md)가 필요한지 확인합니다. 예를 들어 온프레미스 스토리지에서 전송하는 경우 에이전트가 필요합니다.

1. 에이전트가 필요한 경우 [에이전트 요구 사항](agent-requirements.md)을 이해해야 합니다.
   + 에이전트는 VMware ESXi의 가상 머신(VM), Linux 커널 기반 가상 머신(KVM), Microsoft Hyper-V 하이퍼바이저로 실행할 수 있습니다. 또한 에이전트를 AWS내에서 Amazon EC2 인스턴스로 배포할 수 있습니다.
   + 대규모 마이그레이션은 일반적으로 메모리 집약적입니다. 에이전트에 충분한 RAM이 있는지 확인합니다.

1. 마이그레이션에 참여해야 하는 리더십, 네트워킹, 스토리지, IT 부서의 주요 이해관계자를 파악합니다. 여기에는 다음이 포함됩니다.
   + 프로젝트와 그 결과를 전담하는 [단일 스레드 리더](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-large-scale-migrations/people.html)를 찾습니다.
   + 마이그레이션하는 데이터의 소유권 및 분류를 담당하는 사용자를 파악합니다.
   + 소스를 관리하는 사용자와 마이그레이션하려는 AWS 스토리지 서비스를 관리할 사용자를 식별합니다.
   + 데이터가 들어오면 누가 데이터에 대한 다른 프로세스를 생성하고 관리할지 알아봅니다 AWS.

1. 부서 간 통신 채널을 설정합니다.

1. 비상 상황에 대한 롤백 계획을 생성합니다.

1. 웨이브, 검증, 전환 절차 등 전체 마이그레이션 프로세스를 문서화합니다. 이를 전체 마이그레이션의 런북으로 사용합니다. 마이그레이션을 계획하고 구현할 때 이 프로세스를 업데이트합니다.

## 마이그레이션하려는 데이터 검토
<a name="review-migration-data"></a>

스토리지 및 애플리케이션 팀과 협력하여 마이그레이션 중인 데이터의 특성을 분석합니다. 이 정보는 DataSync로 실행할 수 있는 마이그레이션 전략을 확인하는 데 도움이 됩니다.

**Contents**
+ [데이터 사용 패턴 확인](#review-migration-data-usage)
+ [데이터 구조 및 레이아웃 식별](#review-migration-data-structure)
+ [공유 및 폴더 문서화](#review-migration-data-document-shares)
+ [파일 크기 분석](#review-migration-data-file-sizes)

### 데이터 사용 패턴 확인
<a name="review-migration-data-usage"></a>
+ 자주 수정하며 적극적으로 사용하는 데이터의 경우 비즈니스 운영이 중단되지 않도록 여러 웨이브에 걸쳐 증분 전송을 계획합니다.
+ 아카이브용으로 간주될 수 있는 읽기 전용 데이터의 경우 여러 웨이브에 걸쳐 진행하도록 계획할 필요가 없을 수 있습니다.
+ 데이터 사용 패턴이 혼합된 경우 이러한 서로 다른 데이터세트를 별도로 마이그레이션하는 웨이브를 계획합니다. 예를 들어 아카이브 데이터에 하나의 웨이브를 계획하고, 나머지 단계는 활성 데이터 마이그레이션만을 위해 계획할 수 있습니다.

### 데이터 구조 및 레이아웃 식별
<a name="review-migration-data-structure"></a>
+ 데이터가 기간(년, 월, 일) 또는 기타 패턴별로 구성되어 있는지 확인합니다.
+ 이 조직 구조를 사용하여 마이그레이션 웨이브를 계획합니다. 예를 들어 하나의 웨이브로 1년 분량의 아카이브 데이터를 마이그레이션할 수 있습니다.

### 공유 및 폴더 문서화
<a name="review-migration-data-document-shares"></a>
+ 공유 및 폴더 인벤토리를 생성합니다(각 인벤토리에 대한 파일 또는 객체 수 포함).
+ 활성 데이터세트가 있는 공유 및 폴더를 식별합니다. 마이그레이션 과정에서 증분 전송이 필요할 수 있습니다.
+ [DataSync 할당량](datasync-limits.md)을 검토합니다. 이는 DataSync 구성 시 데이터세트 분할 방법을 계획하는 데 도움이 될 수 있습니다.

### 파일 크기 분석
<a name="review-migration-data-file-sizes"></a>
+ 더 큰 파일(MB 또는 GB)을 전송하는 경우 더 작은 파일(KB)을 전송할 때에 비해 데이터 처리량이 더 높을 것으로 예상됩니다.
+ 더 작은 파일을 많이 사용하는 경우 스토리지 시스템에 더 많은 메타데이터 작업이 필요하고 데이터 처리량이 더 낮을 것으로 예상됩니다. DataSync는 소스 및 대상 위치를 비교하고 확인할 때 이러한 작업을 수행합니다.

## 스토리지 요구 사항 식별
<a name="determine-storage-requirements"></a>

호환되는 AWS 스토리지 서비스를 선택하여 데이터를 마이그레이션하려면 소스 스토리지 시스템의 특성과 성능을 평가해야 합니다.

또한 이 정보는 마이그레이션 과정에서 비즈니스 운영에 미치는 영향을 최소화하기 위해 [전송을 예약](task-scheduling.md)하는 데 도움이 될 수 있습니다.

**Contents**
+ [소스 스토리지 지원 확인](#determine-storage-requirements-protocols)
+ [메타데이터 보존 요구 사항 검토](#determine-storage-requirements-metadata)
+ [소스 스토리지에서 성능 지표 수집](#determine-storage-requirements-performance)
+ [대상 AWS 스토리지 서비스 선택](#determine-storage-requirements-destination)

### 소스 스토리지 지원 확인
<a name="determine-storage-requirements-protocols"></a>

DataSync는 NFS, SMB, HDFS, S3 호환 객체 스토리지 클라이언트를 통해 액세스할 수 있는 다양한 스토리지 시스템에서 작동할 수 있습니다.

다른 클라우드 스토리지에서 마이그레이션하는 경우 DataSync가 해당 공급자와 함께 작동할 수 있는지 확인합니다. 지원하는 소스 목록은 [데이터를 어디로 전송할 수 있나요 AWS DataSync?](working-with-locations.md)을(를) 참조하세요.

### 메타데이터 보존 요구 사항 검토
<a name="determine-storage-requirements-metadata"></a>

DataSync는 전송 과정에서 파일 또는 객체 메타데이터를 보존할 수 있습니다. 메타데이터 보존 방법은 전송 위치와 해당 위치에서 유사한 유형의 메타데이터를 사용하는지 여부에 따라 달라집니다.

DataSync는 경우에 따라 NTFS 임의 액세스 목록(DACL)과 같은 파일 메타데이터를 보존하기 위해 추가 권한이 필요합니다.

자세한 내용은 [DataSync가 파일 및 객체 메타데이터를 처리하는 방법 이해](metadata-copied.md) 단원을 참조하십시오.

### 소스 스토리지에서 성능 지표 수집
<a name="determine-storage-requirements-performance"></a>

소스 스토리지의 평균 및 피크 워크로드 기간 동안 기준 IOPS 및 디스크 처리량을 측정합니다. 데이터를 전송하면 소스 및 대상 스토리지 시스템 모두에 I/O 오버헤드가 추가됩니다.

이 성능 데이터를 스토리지 시스템의 사양과 비교하여 사용 가능한 성능 리소스를 확인합니다.

### 대상 AWS 스토리지 서비스 선택
<a name="determine-storage-requirements-destination"></a>

이 시점에서 데이터에 적합한 AWS 스토리지 서비스가 무엇인지 알고 있을 수 있습니다. 그렇지 않다면 데이터 사용 패턴과 스토리지 성능은 결정 시 고려해야 할 몇 가지 영역입니다. 예를 들어, 아카이브 데이터가 있다면 Amazon S3를, 활성 데이터에 대해서는 Amazon FSx 또는 Amazon EFS를 고려할 수 있습니다.

데이터에 적합한 객체 또는 파일 기반 스토리지를 결정하는 데 도움이 필요하면 [AWS 스토리지 서비스 선택을](https://docs.aws.amazon.com/decision-guides/latest/storage-on-aws-how-to-choose/choosing-aws-storage-service.html) 참조하세요.

## 네트워크 요구 사항 확인
<a name="datasync-migration-network-requirements"></a>

DataSync로 데이터를 마이그레이션하려면 소스 스토리지, 에이전트 및 간에 네트워크 연결을 설정해야 합니다 AWS. 또한 충분한 네트워크 대역폭과 인프라를 계획해야 합니다.

네트워크 엔지니어 및 스토리지 관리자와 협력하여 다음 네트워크 요구 사항을 수집합니다.

**Contents**
+ [사용 가능한 네트워크 대역폭 평가](#datasync-migration-network-bandwidth)
+ [네트워크를에 연결하기 위한 옵션 고려 AWS](#datasync-migration-network-connection-options)
+ [에이전트 통신을 위한 서비스 엔드포인트 선택](#datasync-migration-network-service-endpoint)
+ [충분한 네트워크 인프라 확보 계획](#datasync-migration-network-interfaces)

### 사용 가능한 네트워크 대역폭 평가
<a name="datasync-migration-network-bandwidth"></a>

사용 가능한 네트워크 대역폭은 전송 속도와 전체 마이그레이션 시간에 영향을 미칩니다. 온프레미스 스토리지 시스템에서 전송하는 경우 다음을 수행합니다.
+ 네트워크 팀과 협력하여 평균 및 최대 대역폭 사용률을 결정합니다.
+ 데이터 전송 가능 기간을 파악하여 일상 작업이 중단되지 않도록 합니다. 그러면 마이그레이션 웨이브와 전환이 언제 발생하는지 알 수 있습니다.

DataSync가 사용하는 대역폭의 양을 제어할 수 있습니다. 자세한 내용은 [AWS DataSync 작업에 대한 대역폭 제한 설정](configure-bandwidth.md) 단원을 참조하십시오.

다른 클라우드 스토리지에서 전송은 일반적으로 퍼블릭 인터넷을 통해 이루어지므로 이러한 전송에는 일반적으로 대역폭 제한 및 고려 사항이 적습니다.

### 네트워크를에 연결하기 위한 옵션 고려 AWS
<a name="datasync-migration-network-connection-options"></a>

DataSync 전송을 위한 네트워크 연결을 설정하려면 다음 옵션을 고려하세요.
+ **Direct Connect** - DataSync와 함께 Direct Connect를 사용하기 위한 [아키텍처 및 라우팅 예시](direct-connect-architecture.md)를 검토합니다. [Amazon CloudWatch](https://docs.aws.amazon.com/directconnect/latest/UserGuide/monitoring-cloudwatch.html)를 사용하여 Direct Connect 활동을 모니터링할 수 있습니다.
+ **VPN** - [AWS Site-to-Site VPN](https://docs.aws.amazon.com/vpn/latest/s2svpn/VPC_VPN.html)은 터널당 최대 1.25Gbps의 처리량을 제공합니다.
+ **퍼블릭 인터넷** - 네트워크 사용 데이터에 대해서는 인터넷 서비스 공급자에게 문의하세요.

### 에이전트 통신을 위한 서비스 엔드포인트 선택
<a name="datasync-migration-network-service-endpoint"></a>

DataSync 에이전트는 [서비스 엔드포인트](choose-service-endpoint.md)를 사용하여 DataSync 서비스와 통신합니다. 사용하는 엔드포인트 유형은 네트워크에 대해 AWS에 연결하는 방법에 따라 달라집니다.

### 충분한 네트워크 인프라 확보 계획
<a name="datasync-migration-network-interfaces"></a>

생성하는 모든 전송 작업에 대해 DataSync는 데이터 전송을 위한 네트워크 인프라를 자동으로 생성하고 관리합니다. 이 인프라를 *네트워크 인터페이스* 또는 *탄력적 네트워크 인터페이스*라고 하며, 이는 가상 네트워크 카드를 나타내는 Amazon 가상 프라이빗 클라우드(VPC)의 논리적 네트워킹 구성 요소입니다. 자세한 내용은 [https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-eni.html](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-eni.html)를 참조하세요.

각 네트워크 인터페이스는 대상 VPC 서브넷에서 단일 IP 주소를 사용합니다. 마이그레이션에 충분한 네트워크 인프라가 있는지 확인하려면 다음을 수행합니다.
+ DataSync가 사용자의 DataSync 대상 위치에 생성한 [네트워크 인터페이스](required-network-interfaces.md) 수에 주목합니다.
+ 서브넷에 DataSync 작업에 필요한 충분한 IP 주소가 있는지 확인하세요. 예를 들어 에이전트를 사용하는 작업에는 4개의 IP 주소가 필요합니다. 마이그레이션을 위해 4개의 작업을 생성하는 경우 서브넷에 사용 가능한 IP 주소 16개가 필요합니다.

# DataSync 개념 증명 실행
<a name="datasync-large-migration-poc"></a>

를 사용하여 개념 증명(POC)을 실행하면 데이터 마이그레이션 계획의 다음 측면을 검증하는 AWS DataSync 데 도움이 됩니다.
+ 소스 위치와 대상 위치 간의 네트워크 연결을 확인합니다.
+ 초기 DataSync 작업 구성을 검증합니다.
+ 데이터 전송 성능을 측정합니다.
+ 마이그레이션 타임라인을 추정합니다.
+ 마이그레이션 작업을 진행하는 주요 이해관계자와 함께 성공 기준을 정의합니다.

## 개념 증명 시작하기
<a name="datasync-large-migration-poc-getting-started"></a>

1. DataSync 에이전트 생성:

   1. [에이전트를 배포](deploy-agents.md)합니다.

   1. 에이전트용 [서비스 엔드포인트를 선택](choose-service-endpoint.md)합니다.

   1. [에이전트 활성화](activate-agent.md).

   1. [에이전트의 네트워크 연결을 확인](test-agent-connections.md)합니다.

1. 마이그레이션할 데이터를 대표하는 데이터의 작은 하위 집합을 선택합니다.

   예를 들어, 소스 스토리지에 용량이 큰 파일과 작은 파일이 혼합되어 있는 경우 POC에서 전송하는 데이터의 하위 집합도 이러한 특성을 반영해야 합니다. 이를 통해 스토리지 시스템, 네트워크, DataSync의 성능을 예비적으로 이해할 수 있습니다.

1. [온프레미스](transferring-on-premises-storage.md) 또는 [기타 클라우드](transferring-other-cloud-storage.md) 스토리지 시스템에 대한 DataSync 소스 위치를 생성합니다.

1. [AWS 스토리지 서비스의](transferring-aws-storage.md) DataSync 대상 위치를 생성합니다.

1. 데이터 하위 집합만 전송하는 [필터](filtering.md)를 사용하여 [DataSync 전송 작업을 생성](create-task-how-to.md)합니다.

1. [DataSync 작업을 시작](run-task.md)합니다.

1. 다음을 모니터링하여 전송 성능 지표를 수집합니다.
   + 작업 실행에 대한 데이터 및 파일 처리량입니다. DataSync 콘솔 또는 [DescribeTaskExecution](https://docs.aws.amazon.com/datasync/latest/userguide/API_DescribeTaskExecution.html) 작업을 통해이를 수행할 수 있습니다. `DescribeTaskExecution`을 사용하는 경우 이러한 지표를 계산하는 방법은 다음과 같습니다.
     + **데이터 처리량**: `BytesWritten`를 `TransferDuration`으로 나누기
     + **파일 처리량**: `FilesTransferred`을 `TransferDuration`으로 나누기
   + 소스 및 대상 스토리지 사용률입니다. 스토리지 관리자와 긴밀히 협력하여 이 정보를 얻습니다.
   + 네트워크 사용량입니다.

1. 대상 위치에서 전송된 데이터를 확인합니다.
   + CloudWatch Logs 에서 작업 실행 오류를 검토합니다.
   + 대상 위치에 권한과 메타데이터가 보존되어 있는지 확인합니다.
   + 애플리케이션과 사용자가 예상대로 대상 데이터에 액세스할 수 있는지 확인합니다.
   + 발생하는 모든 문제를 해결합니다. 자세한 내용은 [AWS DataSync 문제 해결](troubleshooting-datasync.md) 단원을 참조하십시오.

1. 작업을 몇 번 더 실행하여 DataSync가 데이터를 준비, 전송, 확인하는 데 걸리는 시간을 파악할 수 있습니다. (자세한 내용은 [태스크 실행 상태](run-task.md#understand-task-execution-statuses) 섹션을 참조하세요.)

   작업을 두 번 이상 실행하면 DataSync는 기본적으로 증분 전송을 수행하고 이전 작업 실행에서 변경된 데이터만 복사합니다.

   전송 시간의 경우 증분 전송이 더 짧을 수 있지만, DataSync는 항상 위치를 스캔하고 비교하여 전송할 대상을 식별하여 동일한 방식으로 전송을 준비합니다. 이러한 준비 시간을 사용하여 마이그레이션의 [전환 타임라인을 추정](datasync-large-migration-timelines.md#datasync-large-migration-cutover-timelines)할 수 있습니다.

1. 필요한 경우 POC 중에 학습한 내용을 기반으로 마이그레이션 계획을 업데이트합니다.

# 마이그레이션 타임라인 추정
<a name="datasync-large-migration-timelines"></a>

지금까지 수집한 정보를 바탕으로 AWS DataSync사용 시 마이그레이션에 걸리는 시간을 추정할 수 있습니다.

## 데이터 전송 타임라인 추정
<a name="datasync-large-migration-transfer-timelines"></a>

마이그레이션 요구 사항 수집 중에 수집한 다음 정보와 DataSync 개념 증명(POC)을 기반으로 DataSync가 데이터를 전송하는 데 걸리는 시간을 추정할 수 있습니다.
+ [사용 가능한 네트워크 대역폭](gathering-migration-requirements.md#datasync-migration-network-bandwidth)
+ 소스 및 대상 스토리지 사용률 지표
+ [DataSync POC](datasync-large-migration-poc.md)의 성능 지표

**데이터 전송 타임라인을 추정하는 방법**

1. POC의 데이터 및 파일 처리량을 사용 가능한 네트워크 대역폭과 비교합니다.

1. 처리량이 사용 가능한 대역폭보다 낮은 경우(예: 네트워크 대역폭이 10Gbps이고 처리량이 300MiB/s인 경우) 데이터세트를 여러 작업으로 파티셔닝하여 대역폭 사용을 극대화하는 것이 좋습니다.

   DataSync에는 데이터세트를 파티셔닝하는 몇 가지 옵션이 있습니다. 자세한 내용은 [데이터 파티셔닝을 사용하여 마이그레이션 가속화](datasync-large-migration-data-partitioning.md) 단원을 참조하십시오.

1. 이론적 최소 전송 시간을 제공하는 다음 공식을 사용하여 전송에 걸리는 일수를 계산합니다.

   ```
   (DATA_SIZE * 8 bits per byte)/(CIRCUIT * NETWORK_UTILIZATION percentage * 3600 seconds per hour * AVAILABLE_HOURS) = Number of days
   ```

   이 공식을 사용할 때는 다음을 고유한 값으로 변경합니다.
   + `DATA_SIZE`: 마이그레이션하려는 데이터의 양입니다(바이트로 표시).
   + `CIRCUIT`: 사용 가능한 네트워크 대역폭입니다(초당 비트로 표시).
   + `NETWORK_UTILIZATION`: 사용 중인 네트워크의 백분율입니다.
   + `AVAILABLE_HOURS`: 매일 이용 가능한 작업 시간입니다.

   예를 들어, 다음과 같이 100TB의 데이터, 1Gbps 인터넷 연결, 80% 네트워크 사용률, 하루 24시간 가용성이 있는 마이그레이션을 계산할 수 있습니다.

   `(100,000,000,000,000 bytes * 8) / (1,000,000,000 bps * 0.80 * 3600 * 24) = 11.57 days`

   이 경우 실제 환경을 고려하지 않았을 때 마이그레이션은 거의 12일이 걸립니다.

1. 실제 조건을 고려하여 계산된 전송 기간을 조정합니다.
   + 네트워크 성능 변동
   + 스토리지 성능 변형
   + 마이그레이션 웨이브 간 가동 중지 시간

## 전환 타임라인 추정
<a name="datasync-large-migration-cutover-timelines"></a>

활성 데이터세트를 마이그레이션하는 경우 비즈니스 운영을 중단하지 않기 위해 전환이 필요할 수 있습니다.

전환에 걸리는 시간을 과소평가하지 마세요. 대규모 마이그레이션에서 전환 활동이 전체 마이그레이션 시간의 최대 30%를 차지하는 일은 흔히 일어납니다.

1. 증분 변경 사항을 스캔하는 데이터의 양을 줄이기 위해 여러 웨이브에서 전환을 수행해야 하는지 평가합니다.

   이를 위해 공유, 폴더, 스토리지 시스템을 기반으로 파티셔닝한 데이터세트를 전환하는 전략을 수행할 수 있습니다.

1. DataSync가 POC 중에 데이터를 준비, 전송, 확인하는 데 일반적으로 얼마나 걸렸는지 검토합니다.

   특히 작업 실행 준비에 걸린 기간에 주목합니다. 이 정보를 찾으려면 [DescribeTaskExecution](https://docs.aws.amazon.com/datasync/latest/userguide/API_DescribeTaskExecution.html) 작업을 실행한 다음 지속 시간(밀리초) 동안의 [PrepareDuration](https://docs.aws.amazon.com/datasync/latest/userguide/API_TaskExecutionResultDetail.html#DataSync-Type-TaskExecutionResultDetail-PrepareDuration) 값을 확인합니다.

1. 병렬 작업의 시간 델타를 측정하여 전환에 걸리는 시간을 추정합니다.

   병렬 작업에 대한 자세한 내용은 [데이터 파티셔닝을 사용하여 마이그레이션 가속화](datasync-large-migration-data-partitioning.md)을(를) 참조하세요.

1. 전환 추정을 사용하여 전환 일정을 예약합니다. 본질적으로 이는 소스 데이터를 수정할 수 없는 유지 관리 기간입니다.

## 다음 단계
<a name="estimate-cutover-timelines-next-steps"></a>

타임라인을 추정하고 나면 마이그레이션 구현을 시작할 준비가 끝납니다.

# 2단계: 대규모 데이터 마이그레이션 구현
<a name="datasync-large-migraton-stage-2"></a>

계획 중에 수집한 정보를 사용하여 AWS DataSync 를 사용하여 새 스토리지 시스템으로 마이그레이션할 수 있습니다. 아직 이를 수행하지 않은 경우 [대규모 마이그레이션을 위한AWS 권장 가이드 리소스를 검토하는](datasync-large-migration.md#review-migration-data-resources) 것이 좋습니다.

**Topics**
+ [데이터 파티셔닝을 사용하여 마이그레이션 가속화](datasync-large-migration-data-partitioning.md)
+ [DataSync 전송 작업 실행](datasync-large-migration-running-tasks.md)
+ [전송 모니터링](datasync-large-migration-monitoring.md)

# 데이터 파티셔닝을 사용하여 마이그레이션 가속화
<a name="datasync-large-migration-data-partitioning"></a>

대규모 마이그레이션의 경우 데이터세트를 여러 DataSync 작업으로 파티셔닝하는 것이 좋습니다. 소스 데이터를 여러 작업(필요한 경우 에이전트)으로 분할하면 전송을 병렬로 처리하고 마이그레이션 타임라인을 줄일 수 있습니다.

파티셔닝은 DataSync [할당량](datasync-limits.md) 내에서 작업의 모니터링 및 디버깅을 간소화하는 데도 도움이 됩니다.

다음 다이어그램은 여러 DataSync 작업 및 에이전트를 사용하여 동일한 소스 스토리지 위치에서 데이터를 전송하는 방법을 보여줍니다. 이 시나리오에서 각 작업은 소스 위치의 특정 폴더를 대상으로 합니다. 이러한 접근 방식에 대한 자세한 내용과 예제는 [AWS DataSync 스케일 아웃 아키텍처를 사용하여 데이터 전송을 가속화하는 방법을 참조하세요](https://aws.amazon.com/blogs/storage/how-to-accelerate-your-data-transfers-with-aws-datasync-scale-out-architectures/).

![\[DataSync를 사용하여 소스 데이터를 파티셔닝하고 대규모 마이그레이션을 가속화하는 한 가지 접근 방식을 보여주는 다이어그램입니다.\]](http://docs.aws.amazon.com/ko_kr/datasync/latest/userguide/images/datasync-partition-by-folder.png)


## 폴더 또는 접두사별로 데이터세트 파티셔닝
<a name="configure-task-by-folder"></a>

DataSync 소스 위치 생성 시 DataSync가 읽을 폴더, 디렉터리, 접두사를 지정할 수 있습니다. 예를 들어 최상위 디렉터리가 있는 파일 공유를 마이그레이션하는 경우 다른 디렉터리 경로를 지정하여 여러 위치를 생성할 수 있습니다. 그런 다음 이러한 위치를 사용하여 마이그레이션 중에 여러 DataSync 작업을 실행할 수 있습니다.

## 필터를 사용하여 데이터세트 파티셔닝
<a name="configure-task-with-filters"></a>

전송 시 [필터](filtering.md)를 적용하여 소스 위치의 데이터를 포함하거나 제외할 수 있습니다. 대규모 마이그레이션 맥락에서 필터는 데이터세트의 특정 부분으로 작업 범위를 지정하는 데 도움이 될 수 있습니다.

예를 들어 연도별로 구성된 아카이브 데이터를 마이그레이션하는 경우 특정 연도 또는 여러 연도에 일치하는 포함 필터를 생성할 수 있습니다. 작업을 실행할 때마다 다른 연도와 일치하도록 필터를 수정할 수도 있습니다.

## 매니페스트를 사용하여 데이터세트 파티셔닝
<a name="configure-task-with-manifest"></a>

[매니페스트](transferring-with-manifest.md)는 DataSync가 전송하려는 파일 또는 객체의 목록입니다. 매니페스트를 사용하면 DataSync가 전송할 대상을 결정하기 위해 소스 위치의 모든 데이터를 읽을 필요가 없습니다.

소스 스토리지의 인벤토리에서 또는 이벤트 기반 접근 방식을 통해 매니페스트를 생성할 수 있습니다(예: [수억 개의 객체 AWS DataSync 로 구현](https://aws.amazon.com/blogs/storage/implementing-aws-datasync-with-hundreds-of-millions-of-objects/) 참조). 작업을 시작할 때마다 다른 매니페스트를 사용하면, 같은 작업을 통해 다양한 데이터세트를 전송할 수 있습니다.

# DataSync 전송 작업 실행
<a name="datasync-large-migration-running-tasks"></a>

각 마이그레이션 웨이브 동안 데이터 전송은 대부분 같은 일반 프로세스를 따릅니다.

1. 데이터에 대한 초기 전체 전송을 실행합니다.

1. 대상의 데이터를 확인합니다.

1. 초기 전송 이후 변경되었을 수 있는 모든 데이터에 대해 증분 전송을 실행합니다.

1. 작업을 대상 위치로 전환합니다.

1. 전환 결과를 검토합니다.

## 작업 실행
<a name="datasync-large-migration-running-tasks-how-to"></a>

전체 마이그레이션 시간을 최소화하려면 업무 시간 중에 DataSync 전송 작업을 실행해야 할 수 있습니다. 이러한 상황에서는 초기 전체 전송을 실행한 다음 사용자 및 애플리케이션으로 인해 소스 위치에서 발생한 변경을 반영하는 증분 전송을 실행하는 것이 일반적입니다.

업무 시간 동안 네트워크 관련 문제를 방지하려면 작업에서 사용하는 대역폭의 양을 제한할 수 있습니다. 자세한 내용은 [AWS DataSync 작업에 대한 대역폭 제한 설정](configure-bandwidth.md) 단원을 참조하십시오.

1. 초기 전체 전송을 실행합니다.

   1. [DataSync 작업을 시작](run-task.md)(병렬로 작업을 실행하는 경우 여러 작업을 시작)합니다.

   1. 작업 실행의 진행 상황과 성능을 모니터링합니다.

   1. 데이터가 예상대로 전송되었는지 확인합니다(예: 파일 메타데이터가 보존되었는지).

1. 증분 전송 실행:

   1. [작업을 예약](task-scheduling.md)하여 주기적으로 실행하도록 설정합니다.

   1. 작업 실행을 모니터링하고 오류가 발생하면 수정합니다.

## 전환 수행
<a name="datasync-migration-cutting-over-how-to"></a>

초기 및 증분 전송 후 대상 위치로 작업을 전환하는 프로세스를 시작할 수 있습니다.

1. 예약된 유지 관리 기간을 시작합니다.

1. 애플리케이션 및 사용자에 대해 소스 스토리지 시스템을 읽기 전용으로 업데이트합니다.

1. 최종 증분 전송을 실행하여 소스 위치와 대상 위치 간에 남아 있는 델타를 복사합니다.

1. 철저한 데이터 검증을 수행합니다(예: CloudWatch Logs 및 [작업 보고서](task-reports.md) 검토).

1. 애플리케이션과 사용자를 대상 위치의 새 환경으로 전환합니다.

1. 애플리케이션 기능을 테스트하고 사용자가 대상 위치의 데이터에 액세스할 수 있는지 확인합니다.

1. 마이그레이션 팀과 전송 결과를 검토하기 위한 회고 회의 일정을 예약합니다. 다음 예시와 같은 탐색 질문을 제시합니다.
   + 전환에 성공했나요? 실패했다면 어떤 문제가 있었나요?
   + 사용 가능한 모든 대역폭을 사용했나요?
   + 소스 및 대상 스토리지가 완전히 활용되었나요?
   + 추가 작업으로 더 많은 데이터 처리량을 확보할 수 있나요?
   + 유지 관리 기간을 더 길게 계획해야 하나요?

1. 필요한 경우 다음 단계를 시작하기 전에 마이그레이션 계획을 업데이트합니다.

# 전송 모니터링
<a name="datasync-large-migration-monitoring"></a>

AWS DataSync 는 전송을 검증하고 디버깅하는 데 도움이 되는 몇 가지 모니터링 옵션을 제공합니다.

## CloudWatch 지표를 사용하여 전송 모니터링
<a name="datasync-migration-monitoring-cloudwatch-metrics"></a>

DataSync 작업 실행의 지표를 사용하여 사용자 지정 CloudWatch 대시보드를 생성할 수 있습니다. 자세한 내용은 [Amazon CloudWatch 지표를 사용한 데이터 전송 모니터링](monitor-datasync.md) 단원을 참조하십시오.

## 태스크 리포트로 이체 모니터링
<a name="datasync-migration-monitoring-task-reports"></a>

수백만 개의 파일 또는 객체를 전송하는 경우 작업 보고서 사용을 고려하세요. 작업 보고서는 작업 실행 중에 DataSync가 전송, 건너뛰기, 확인, 삭제하려는 항목에 대한 자세한 정보를 제공합니다. 자세한 내용은 [작업 보고서로 데이터 전송 모니터링](task-reports.md) 단원을 참조하십시오.

 AWS Glue, Amazon Athena 및 Amazon Quick과 같은 AWS 서비스를 사용하여 작업 보고서를 시각화할 수도 있습니다. 자세한 내용은 [AWS 스토리지 블로그](https://aws.amazon.com/blogs/storage/derive-insights-from-aws-datasync-task-reports-using-aws-glue-amazon-athena-and-amazon-quicksight/)를 참조하세요.

## CloudWatch Logs를 사용하여 전송 모니터링
<a name="datasync-migration-monitoring-cloudwatch-logs"></a>

최소한 기본 정보를 기록하고 오류를 전송하도록 작업을 구성하는 것이 좋습니다. 자세한 내용은 단원을 참조하십시오[Amazon CloudWatch Logs를 사용한 데이터 전송 모니터링](configure-logging.md).