

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用执行大型数据迁移 AWS DataSync
<a name="datasync-large-migration"></a>

大规模的数据迁移可能涉及传输大量数据，这些数据包含数百万个不同格式的文件或对象。 AWS DataSync 通过管理调度、监控、加密和数据验证来简化这些复杂的传输。

## 什么是大规模数据迁移？
<a name="datasync-large-migration-definition"></a>

大规模数据迁移通常涉及将分布在不同来源的 TB 级或更多数据传输到新的目标存储环境（在此情况下为 AWS）。这种迁移需要在组织内部精心规划和协调，以确保成功迁移数据，同时最大限度地减少业务中断。

DataSync 可以简化这些迁移，这些迁移本质上通常很复杂。 DataSync 用于迁移的一些好处包括：
+ 自动管理数据传输过程以及高性能和安全数据传输所需的基础架构。
+ End-to-end 安全性，包括加密和数据完整性验证，以帮助确保您的数据安全、完好无损且随时可用。
+ 专用网络协议和并行多线程架构，可加快迁移速度。

## 大规模数据迁移的关键阶段
<a name="datasync-large-migration-stages"></a>

通常可以将大规模迁移分为以下几个阶段：
+ **（第 1 阶段）规划数据迁移**：在此阶段，您正在尝试了解迁移的原因，以及正在使用什么样的数据。规划活动包括：
  + 了解迁移的原因 
  + 组建一支团队，协助您处理迁移的各方面事务。
  + 识别数据位置、格式和使用模式
  + 评估可用硬件资源和网络需求（如果从本地数据中心迁移）
  + 使用概念验证 (POC) 测试 DataSync 来估算迁移时间表、规划切换窗口，并了解需要如何配置 DataSync
+ **（第 2 阶段）实施大规模数据迁移**：此时，您正在验证迁移计划并开始迁移。实施活动包括：
  + 验证迁移计划
  + 执行阶段割接，包括监控和验证数据传输是否符合预期
  + 在割接的间期根据需要进行优化和调整
  + 完成后，清理未使用的资源

## 其他资源
<a name="review-migration-data-resources"></a>

AWS 规范性指导包含以下资源，可以帮助您规划和实施大规模迁移。使用本指南来了解 DataSync 如何在常见迁移流程和活动的背景下工作。
+ [向云端的大规模迁移 AWS](https://aws.amazon.com/prescriptive-guidance/large-migrations/?large-migration-strategies.sort-by=item.additionalFields.sortText&large-migration-strategies.sort-order=desc&large-migration-playbooks.sort-by=item.additionalFields.sortText&large-migration-playbooks.sort-order=desc&large-migration-patterns.sort-by=item.additionalFields.sortText&large-migration-patterns.sort-order=desc)
+ [AWS 大型迁移的策略和最佳实践](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-large-scale-migrations/welcome.html)
+ 在@@ [AWS 大规模迁移中迁移共享文件系统 — 此资源包括一个](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/migrate-shared-file-systems-in-an-aws-large-migration.html) **SFS-Discovery-Workbook，您可以下载该工作簿**并使用它来规划文件共享级别的迁移。

# 第 1 阶段：规划大规模数据迁移
<a name="datasync-large-migraton-stage-1"></a>

迁移大型数据集时，规划至关重要。你必须了解要迁移的数据、迁移的动机，以及 AWS DataSync 如何帮助你将数据放在你想要的地方。

**Topics**
+ [收集迁移要求](gathering-migration-requirements.md)
+ [运行 DataSync 概念验证](datasync-large-migration-poc.md)
+ [估算迁移时间表](datasync-large-migration-timelines.md)

# 收集迁移要求
<a name="gathering-migration-requirements"></a>

在大规模数据迁移的第一步中，需要在整个组织中收集各种信息。

这些信息有助于建立迁移[过程](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-large-scale-migrations/process.html)，对于大规模迁移，这一过程可能包括从源存储到目标存储的多次传输和割接操作（[多波](https://docs.aws.amazon.com/prescriptive-guidance/latest/application-portfolio-assessment-guide/wave-planning.html)完成）步骤。

## 了解迁移的原因
<a name="define-migration-goals-why"></a>

在开始迁移到之前 AWS，您需要清楚地了解迁移数据的原因。这有助于应对常见的迁移挑战，例如满足截止日期要求、管理资源以及跨团队协调。

如果需要帮助确定迁移的动机，请回答以下问题：
+ 您是否正在释放本地存储空间？
+ 您的硬件是否在硬件支持合同的期限内？
+ 这是为了退出数据中心吗？
+ 迁移时间表如何？
+ 是否要从其他云存储传输数据？
+ 是迁移部分数据集还是完整数据集？
+ 这是为了归档数据吗？
+ 应用程序或用户是否需要定期访问这些数据？

## 解决后勤问题
<a name="define-migration-goals-logistics"></a>

解决有关存储环境、迁移与组织的一些基本后勤问题：

1. 粗略了解当前的数据存储基础架构。

1. 验证是否需要代[DataSync 理](do-i-need-datasync-agent.md)。例如，如果从本地存储进行传输，则需要代理。

1. 如果需要代理，请确保了解[代理要求](agent-requirements.md)：
   + 代理可以作为 VMware ESXi、Linux 基于内核的虚拟机（KVM）和 Microsoft Hyper-V 虚拟机监控程序上的虚拟机（VM）运行。您还可以在 AWS中将代理部署为 Amazon EC2 实例。
   + 大规模迁移通常占用大量内存。确保代理具有足够的 RAM。

1. 确定领导层、网络、存储和 IT 部门中需要参与迁移的主要利益相关人。这可能包括：
   + 寻找一位专注于项目及其结果的[专职领导者](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-large-scale-migrations/people.html)。
   + 确定迁移数据所有权和分类的负责人。
   + 确定谁管理您的来源，以及谁最终将管理您要迁移到的 AWS 存储服务。
   + 找出谁将为您的数据创建和管理任何其他流程 AWS。

1. 建立跨部门沟通渠道。

1. 制定突发事件回滚计划。

1. 记录完整的迁移过程，包括多波完成、验证和割接步骤。将其作为整个迁移的运行手册。在规划和实施迁移时需要更新此流程。

## 查看要迁移的数据
<a name="review-migration-data"></a>

与存储和应用程序团队合作，分析要迁移的数据特征。此信息可帮助您确定可以执行的迁移策略 DataSync。

**Contents**
+ [确定数据使用模式](#review-migration-data-usage)
+ [识别数据结构和布局](#review-migration-data-structure)
+ [记录共享和文件夹](#review-migration-data-document-shares)
+ [分析文件大小](#review-migration-data-file-sizes)

### 确定数据使用模式
<a name="review-migration-data-usage"></a>
+ 对于经常修改的常用数据，可规划多波增量传输，以避免业务运营中断。
+ 对于可能视为存档的只读数据，可能无需规划多波完成。
+ 如果有多种数据使用模式，需规划独立完成这些不同数据集的迁移波次。例如，存档数据可能是一个波次，其余波次专门用于迁移活动数据。

### 识别数据结构和布局
<a name="review-migration-data-structure"></a>
+ 确定数据是按时间段（年、月、日）还是其他模式组织的。
+ 使用此组织结构规划迁移波次。例如，您可能在一个波次中迁移一整年的存档数据。

### 记录共享和文件夹
<a name="review-migration-data-document-shares"></a>
+ 创建共享和文件夹清单（包括列明每个共享和文件夹的文件或对象数量）。
+ 使用活动数据集识别共享和文件夹。这些共享和文件夹在迁移期间可能需要增量传输。
+ 查看配[DataSync 额](datasync-limits.md)。这可以帮助您在配置时计划如何对数据集进行分区 DataSync。

### 分析文件大小
<a name="review-migration-data-file-sizes"></a>
+ 大文件（MB 或 GB）的传输数据吞吐量预计会比小文件（KB）更高。
+ 如果您正在处理大量较小的文件，则预计存储系统上的元数据操作会更多，数据吞吐量会降低。 DataSync在比较和验证源位置和目标位置时执行这些操作。

## 确定存储要求
<a name="determine-storage-requirements"></a>

要选择兼容的 AWS 存储服务来迁移数据，您需要评估源存储系统的特性和性能。

这些信息还可以帮助[安排传输时间](task-scheduling.md)，以最大限度地降低迁移期间对业务运营的影响。

**Contents**
+ [确定源存储支持](#determine-storage-requirements-protocols)
+ [查看元数据保留要求](#determine-storage-requirements-metadata)
+ [从源存储收集性能指标](#determine-storage-requirements-performance)
+ [选择目标 AWS 存储服务](#determine-storage-requirements-destination)

### 确定源存储支持
<a name="determine-storage-requirements-protocols"></a>

DataSync 可以与各种存储系统配合使用，这些存储系统允许通过 NFS、SMB、HDFS 和 S3 兼容的对象存储客户端进行访问。

如果您要从其他云存储迁移，请确认该提供商是否 DataSync 可以使用。有关受支持的源位置的列表，请参阅[我可以在哪里传输我的数据 AWS DataSync？](working-with-locations.md)。

### 查看元数据保留要求
<a name="determine-storage-requirements-metadata"></a>

DataSync 可以在传输过程中保留您的文件或对象元数据。如何保留元数据取决于您的传输位置以及这些位置是否使用类似类型的元数据。

DataSync 在某些情况下，需要额外的权限才能保留文件元数据，例如 NTFS 自由访问列表 () DACLs。

有关更多信息，请参阅 [了解如何 DataSync 处理文件和对象元数据](metadata-copied.md)。

### 从源存储收集性能指标
<a name="determine-storage-requirements-performance"></a>

测量源存储在平均和峰值工作负载期间的基准 IOPS 与磁盘吞吐量。传输数据会增加源存储系统和目标存储系统的 I/O 开销。

将此性能数据与存储系统的规格参数进行比较，确定可用的性能资源。

### 选择目标 AWS 存储服务
<a name="determine-storage-requirements-destination"></a>

此时，您可能已经知道哪种 AWS 存储服务对您的数据有意义。如果不知道，数据使用模式和存储性能是决策时需要考虑的两个方面。例如，如果您有存档数据，则可以考虑使用 Amazon S3，而对于活动数据，则可以考虑使用 Amazon FSx 或 Amazon EFS。

为了帮助您为数据选择正确的对象或基于文件的存储，请参阅[选择 AWS 存储服务](https://docs.aws.amazon.com/decision-guides/latest/storage-on-aws-how-to-choose/choosing-aws-storage-service.html)。

## 确定网络要求
<a name="datasync-migration-network-requirements"></a>

要使用迁移数据 DataSync，必须在源存储、代理和之间建立网络连接 AWS。此外还需要规划足够的网络带宽和基础设施。

与网络工程师和存储管理员合作，收集以下网络需求。

**Contents**
+ [评估可用网络带宽](#datasync-migration-network-bandwidth)
+ [考虑将您的网络连接至的选项 AWS](#datasync-migration-network-connection-options)
+ [选择代理通信的服务端点](#datasync-migration-network-service-endpoint)
+ [规划足够的网络基础设施](#datasync-migration-network-interfaces)

### 评估可用网络带宽
<a name="datasync-migration-network-bandwidth"></a>

可用网络带宽会影响传输速度和总迁移时间。如果要从本地存储系统进行传输，请执行以下操作：
+ 与网络团队合作确定平均和峰值带宽利用率。
+ 确定何时可以传输数据，避免日常运营中断。这可以提供迁移波次和割接何时发生的信息。

您可以控制带宽 DataSync 使用量。有关更多信息，请参阅 [为 AWS DataSync 任务设置带宽限制](configure-bandwidth.md)。

由于来自其他云存储的传输通常发生在公共互联网上，因此这种传输的带宽限制和注意事项通常较少。

### 考虑将您的网络连接至的选项 AWS
<a name="datasync-migration-network-connection-options"></a>

在为 DataSync 传输建立网络连接时，请考虑以下选项：
+ **Direct Connect**-查看使用 Direct Connect 的[架构和路由示例](direct-connect-architecture.md) DataSync。您可以使用[亚马逊](https://docs.aws.amazon.com/directconnect/latest/UserGuide/monitoring-cloudwatch.html)监控 Direct Connect 活动 CloudWatch。
+ **VPN**：[AWS Site-to-Site VPN](https://docs.aws.amazon.com/vpn/latest/s2svpn/VPC_VPN.html) 提供每条隧道高达 1.25 Gbps 的吞吐量。
+ **公共互联网**：请联系互联网服务提供商获取网络使用量数据。

### 选择代理通信的服务端点
<a name="datasync-migration-network-service-endpoint"></a>

DataSync 代理使用[服务端点](choose-service-endpoint.md)与 DataSync 服务通信。所用端点类型取决于网络与 AWS连接的方式。

### 规划足够的网络基础设施
<a name="datasync-migration-network-interfaces"></a>

对于您创建的每项传输任务，都会 DataSync 自动生成和管理用于数据传输的网络基础架构。这种基础设施称为*网络接口*或*弹性网络接口*，它们是 Amazon 虚拟私有云（VPC）中代表虚拟网卡的逻辑网络组件。有关更多信息，请参阅[《Amazon EC2 用户指南》](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-eni.html)**。

每个网络接口在目标 VPC 子网中使用一个 IP 地址。要确保有足够的网络基础设施进行迁移，请执行以下操作：
+ 记下 DataSync 将为您的 DataSync目标位置创建的[网络接口](required-network-interfaces.md)的数量。
+ 确保您的子网有足够的 IP 地址来 DataSync完成您的任务。例如，使用代理的任务需要四个 IP 地址。如果为迁移创建了四个任务，则意味着子网中需要 16 个可用的 IP 地址。

# 运行 DataSync 概念验证
<a name="datasync-large-migration-poc"></a>

通过运行概念验证 (POC) AWS DataSync 可以帮助您验证数据迁移计划的以下方面：
+ 验证源位置和目标位置之间的网络连接。
+ 验证您的初始 DataSync 任务配置。
+ 测量数据传输性能。
+ 估算迁移时间表。
+ 与参与迁移的主要利益相关者一起定义成功的标准。

## 开始使用概念验证
<a name="datasync-large-migration-poc-getting-started"></a>

1. 创建您的 DataSync 代理：

   1. [部署代理](deploy-agents.md)。

   1. 选择代理的[服务端点](choose-service-endpoint.md)。

   1. [激活您的代理](activate-agent.md)。

   1. [验证代理的网络连接](test-agent-connections.md)。

1. 选择一小部分数据代表要迁移的数据。

   例如，如果源存储混合了大文件和小文件，则在 POC 中传输的数据子集中应反映这一点。这使您可以初步了解存储系统、网络和的性能 DataSync。

1. 为您的[本地](transferring-on-premises-storage.md)[或其他云](transferring-other-cloud-storage.md)存储系统创建 DataSync 源位置。

1. 为您的[AWS 存储服务](transferring-aws-storage.md)创建 DataSync 目标位置。

1. 使用仅@@ [ DataSync 传输您的数据子集的[筛选器](filtering.md)创建传输任务](create-task-how-to.md)。

1. [开始你的 DataSync 任务](run-task.md)。

1. 通过监控以下内容来收集传输性能指标：
   + 任务执行的数据与文件吞吐量。您可以通过 DataSync 控制台或操作来执行此[DescribeTaskExecution](https://docs.aws.amazon.com/datasync/latest/userguide/API_DescribeTaskExecution.html)操作。如果使用的是 `DescribeTaskExecution`，以下是计算这些指标的方法：
     + **数据吞吐量**：`BytesWritten` 除以 `TransferDuration`
     + **文件吞吐量**：`FilesTransferred` 除以 `TransferDuration`
   + 源存储和目标存储的利用率。与存储管理员密切合作以获取此信息。
   + 网络使用量。

1. 验证传输到目标位置的数据：
   + 查看 CloudWatch 日志中是否存在任务执行错误。
   + 验证目标位置是否保留了相应权限和元数据。
   + 确认应用程序和用户可以按预期访问目标数据。
   + 解决遇到的任何问题。有关更多信息，请参阅 [疑难解答 AWS DataSync 问题](troubleshooting-datasync.md)。

1. 再运行几次任务，以了解准备、传输和验证数据需要 DataSync 多长时间。（有关更多信息，请参阅 [任务执行状态](run-task.md#understand-task-execution-statuses)。）

   如果您多次运行任务，则 DataSync 默认情况下会执行增量传输，并且仅复制与上一次任务运行相比更改的数据。

   虽然增量传输的传输时间可能会更短， DataSync 但通过扫描和比较您的位置以确定要传输的内容，始终以相同的方式准备传输。可使用这些准备时间来[估算迁移的割接时间表](datasync-large-migration-timelines.md#datasync-large-migration-cutover-timelines)。

1. 如果需要，请根据 POC 期间了解的信息更新迁移计划。

# 估算迁移时间表
<a name="datasync-large-migration-timelines"></a>

使用到目前为止收集的信息，您可以使用 AWS DataSync估算迁移要花费的时间。

## 估算数据传输时间表
<a name="datasync-large-migration-transfer-timelines"></a>

您可以根据您在收集迁移需求期间收集的以下信息以及概念 DataSync 验证 (POC) 来估算传输数据所需的时间 DataSync ：
+ [可用网络带宽](gathering-migration-requirements.md#datasync-migration-network-bandwidth)
+ 源存储和目标存储的利用率指标
+ 来自 [DataSync PO](datasync-large-migration-poc.md) C 的绩效指标

**估算数据传输时间表**

1. 将 POC 的数据和文件吞吐量与可用的网络带宽进行比较。

1. 如果您的吞吐量低于可用带宽（例如，网络带宽为 10 Gbps 的吞吐量为 300 MiB/s ），请考虑将数据集分为多个任务，以最大限度地提高带宽使用率。

   DataSync 有几个用于对数据集进行分区的选项。有关更多信息，请参阅 [通过数据分区加速迁移](datasync-large-migration-data-partitioning.md)。

1. 使用以下公式计算传输天数，该公式提供了理论上的最短传输时间：

   ```
   (DATA_SIZE * 8 bits per byte)/(CIRCUIT * NETWORK_UTILIZATION percentage * 3600 seconds per hour * AVAILABLE_HOURS) = Number of days
   ```

   使用此公式时，请将以下内容替换为您自己的值：
   + `DATA_SIZE`：要迁移的数据量（以字节表示）。
   + `CIRCUIT`：可用网络带宽（以每秒位数表示）。
   + `NETWORK_UTILIZATION`: 网络使用百分比。
   + `AVAILABLE_HOURS`：每天可用的运行小时数。

   例如，可以按以下方式计算涉及 100 TB 数据、1 Gbps 互联网连接、80% 网络利用率和每天 24 小时可用性的迁移：

   `(100,000,000,000,000 bytes * 8) / (1,000,000,000 bps * 0.80 * 3600 * 24) = 11.57 days`

   在这种情况下，若不考虑到实际情况，迁移过程可能耗时近 12 天。

1. 请根据实际情况，调整计算的传输时长：
   + 网络性能波动
   + 存储性能差异
   + 迁移波次之间的停机时间

## 估算割接时间表
<a name="datasync-large-migration-cutover-timelines"></a>

如果要迁移活动数据集，可能需要割接，以免中断业务运营。

不要低估割接需要的时间。在大规模迁移中，割接活动占到总迁移时间的 30% 的情况并不少见。

1. 评估是否需要进行多波割接，以减少为增量更改而扫描的数据量。

   为实现这一点，一种策略是对根据共享、文件夹或存储系统分区的数据集进行割接。

1. 查看在 POC 期间准备、传输和验证数据通常 DataSync 需要多长时间。

   请特别注意任务执行的准备时长。要查找此信息，请运行该[DescribeTaskExecution](https://docs.aws.amazon.com/datasync/latest/userguide/API_DescribeTaskExecution.html)操作，然后检查持续时间（以毫秒[PrepareDuration](https://docs.aws.amazon.com/datasync/latest/userguide/API_TaskExecutionResultDetail.html#DataSync-Type-TaskExecutionResultDetail-PrepareDuration)为单位）的值。

1. 通过测量并行任务之间的时间差，估算割接可能需要的时间。

   有关并行任务的更多信息，请参阅[通过数据分区加速迁移](datasync-large-migration-data-partitioning.md)。

1. 使用割接估算值来安排割接活动。当源数据无法修改时，这些时间本质上就是维护时段。

## 后续步骤
<a name="estimate-cutover-timelines-next-steps"></a>

在估算好时间表之后，就可以开始实施迁移了。

# 第 2 阶段：实施大规模数据迁移
<a name="datasync-large-migraton-stage-2"></a>

利用您在规划期间收集的信息，就可以开始使用迁移 AWS DataSync 到新的存储系统了。如果还没有开始，建议查看[大规模迁移的AWS Prescriptive Guidance 资源](datasync-large-migration.md#review-migration-data-resources)。

**Topics**
+ [通过数据分区加速迁移](datasync-large-migration-data-partitioning.md)
+ [正在运行您的 DataSync 转移任务](datasync-large-migration-running-tasks.md)
+ [监控传输](datasync-large-migration-monitoring.md)

# 通过数据分区加速迁移
<a name="datasync-large-migration-data-partitioning"></a>

对于大规模迁移，我们建议使用多个 DataSync任务对数据集进行分区。将源数据划分到多个任务（可能还有代理）中，可以并行处理传输并缩短迁移时间。

分区还可以帮助您保持在 DataSync [配额](datasync-limits.md)范围内，并简化对任务的监控和调试。

下图显示了如何使用多个 DataSync 任务和代理从同一个源存储位置传输数据。在这种情况下，各项任务都专注于源位置的特定文件夹。有关这些方法的更多信息和示例，请参阅[如何使用横向 AWS DataSync 扩展架构加速数据传输](https://aws.amazon.com/blogs/storage/how-to-accelerate-your-data-transfers-with-aws-datasync-scale-out-architectures/)。

![\[该图显示了一种 DataSync 用于对源数据进行分区的方法，以帮助加快大规模迁移。\]](http://docs.aws.amazon.com/zh_cn/datasync/latest/userguide/images/datasync-partition-by-folder.png)


## 按文件夹或前缀对数据集进行分区
<a name="configure-task-by-folder"></a>

创建 DataSync 源位置时，您可以指定从中 DataSync 读取的文件夹、目录或前缀。例如，如果要迁移具有顶级目录的文件共享，则可创建多个位置来指定不同的目录路径。然后，您可以在迁移期间使用这些位置运行多个 DataSync任务。

## 使用筛选条件对数据集进行分区
<a name="configure-task-with-filters"></a>

您可以应用[筛选条件](filtering.md)，在传输中包含或排除源位置的数据。在大规模迁移的背景下，筛选条件有助于将任务范围限定到数据集的特定部分。

例如，如果要迁移按年份组织的存档数据，则可创建一个包含筛选条件来匹配特定年份或多个年份。此外还可以在每次运行任务时修改筛选条件以匹配不同的年份。

## 使用清单对数据集进行分区
<a name="configure-task-with-manifest"></a>

[清单](transferring-with-manifest.md)是您要传输的文件或对象 DataSync 的列表。有了清单，就 DataSync 不必读取源位置的所有内容就能确定要传输的内容。

您可以根据源存储的清单创建清单，也可以通过事件驱动的方法创建清单（例如，参见[AWS DataSync 使用数亿个对象实现](https://aws.amazon.com/blogs/storage/implementing-aws-datasync-with-hundreds-of-millions-of-objects/)）。也可以在每次启动任务时使用不同的清单，这样就可以在同一个任务中传输不同的数据集。

# 正在运行您的 DataSync 转移任务
<a name="datasync-large-migration-running-tasks"></a>

在每个迁移波次中，数据传输通常遵循相同的常规过程：

1. 对数据进行初始全量传输。

1. 验证目标中的数据。

1. 对自首次传输以来可能发生变化的所有数据运行增量传输。

1. 将操作割接到目标位置。

1. 查看割接结果。

## 运行任务
<a name="datasync-large-migration-running-tasks-how-to"></a>

您可能需要在工作时间运行 DataSync 转移任务，以最大限度地缩短总体迁移时间。在这些情况下，通常会先进行全量传输，然后根据用户和应用程序对源位置的更改进行增量传输。

为避免在工作时间出现与网络相关的问题，可以限制任务使用的带宽量。有关更多信息，请参阅 [为 AWS DataSync 任务设置带宽限制](configure-bandwidth.md)。

1. 运行初始全量传输：

   1. [启动您的 DataSync 任务](run-task.md)（如果您正在并行运行任务，则启动任务）。

   1. 监控任务执行的进度和性能。

   1. 验证数据是否按照预期的方式传输（例如，保留文件元数据）。

1. 运行增量传输：

   1. [安排任务](task-scheduling.md)定期运行。

   1. 监控任务执行情况，并在遇到错误时修复错误。

## 执行割接
<a name="datasync-migration-cutting-over-how-to"></a>

完成初始和增量传输后，就可以启动将操作割接到目标位置的过程。

1. 启动计划的维护时段。

1. 将源存储系统更新为应用程序和用户只读模式。

1. 运行最终的增量传输，在源位置和目标位置之间复制剩余增量。

1. 进行全面的数据验证（例如，通过查看 CloudWatch日志和[任务报告](task-reports.md)）。

1. 将应用程序和用户切换至目标位置的新环境。

1. 测试应用程序的功能，并确保用户可访问目标位置的数据。

1. 安排回顾会议，与迁移团队一起回顾传输情况。提出以下调查性的示例问题：
   + 割接成功了吗？ 如果没成功，问题出在哪里？
   + 是否使用了所有可用的带宽？
   + 源存储和目标存储是否得到充分利用？
   + 能否通过额外的任务获得更大的数据吞吐量？
   + 是否需要计划更长的维护时段？

1. 如果需要，请在开始下一波迁移之前更新迁移计划。

# 监控传输
<a name="datasync-large-migration-monitoring"></a>

AWS DataSync 提供了多个监控选项，可帮助您验证和调试传输。

## 使用 CloudWatch 指标监控您的转账
<a name="datasync-migration-monitoring-cloudwatch-metrics"></a>

您可以使用 DataSync 任务执行中的指标创建自定义 CloudWatch 仪表板。有关更多信息，请参阅 [使用 Amazon CloudWatch 指标监控数据传输](monitor-datasync.md)。

## 使用任务报告监控您的传输
<a name="datasync-migration-monitoring-task-reports"></a>

如果要传输数百万个文件或对象，可考虑使用任务报告。任务报告提供有关在任务执行期间 DataSync 尝试传输、跳过、验证和删除的内容的详细信息。有关更多信息，请参阅 [使用任务报告监控您的数据传输](task-reports.md)。

您还可以使用 Amazon Athena 和 Amazon Quick 等 AWS AWS Glue服务将任务报告可视化。有关更多信息，请参阅 [AWS 存储博客](https://aws.amazon.com/blogs/storage/derive-insights-from-aws-datasync-task-reports-using-aws-glue-amazon-athena-and-amazon-quicksight/)。

## 使用 CloudWatch 日志监控您的转账
<a name="datasync-migration-monitoring-cloudwatch-logs"></a>

建议将任务配置为至少记录基本信息和传输错误。有关更多信息，请参阅[使用 Amazon CloudWatch 日志监控数据传输](configure-logging.md)。