

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Snowball Edge 迁移大数据
<a name="LargeDataMigration"></a>

从本地迁移大量数据需要仔细规划、编排和执行，从而确保您的数据成功迁移到 AWS。

我们建议您在开始迁移之前制定数据迁移策略，以避免错过最后期限、超出预算和迁移失败的可能性。 AWS Snow 服务可帮助您通过中的 Snowball Edge 大数据迁移管理器 (LDMM) 功能下达、订购和跟踪大型数据迁移项目。 AWS Snow 系列管理控制台

主题 [使用 Snowball Edge 计划您的大额转会](#copy-general-planning) 和 [使用 Snowball Edge 校准大型传输](calibrating-large-transfer.md) 描述了手动数据迁移过程。您可以使用 Snowball Edge LDMM 迁移计划简化手动步骤。

**Topics**
+ [使用 Snowball Edge 计划您的大额转会](#copy-general-planning)
+ [使用 Snowball Edge 校准大型传输](calibrating-large-transfer.md)
+ [使用 Snowball Edge 制定大型数据迁移计划](create-data-migration-plan.md)
+ [在 Snowball Edge 中使用大数据迁移计划](understanding-data-migration-plan.md)

## 使用 Snowball Edge 计划您的大额转会
<a name="copy-general-planning"></a>

我们建议您按照以下各节中的指南，规划和校准现场 AWS Snowball Edge 设备与服务器之间的大型数据传输。

**Topics**
+ [第 1 步：了解您要迁移到云中的数据](#understand-the-transfer)
+ [第 2 步：计算您的目标传输速率](#calculate-rate)
+ [第 3 步：确定你需要多少 Snowball Edge](#number-of-snowballs)
+ [第 4 步：创建您的作业](#make-jobs)
+ [第 5 步：将您的数据分为传输分段](#prepare-segments)

### 第 1 步：了解您要迁移到云中的数据
<a name="understand-the-transfer"></a>

在使用创建第一个任务之前 AWS Snow 系列管理控制台，请务必评估需要传输的数据量、当前存储位置以及要将其传输到的目的地。对于规模为 PB 或更大的数据传输，这种管理内务管理可以让 Snowball Edge 到货时变得更加轻松。

如果您是首次将数据迁移到，我们建议您设计云迁移模型。 AWS 云 云迁移不是一朝一夕就能完成的。这项工作需要严谨的规划流程，从而确保所有系统都能按预期运行。

完成此步骤后，您应了解要迁移到云中的数据总量。

### 第 2 步：计算您的目标传输速率
<a name="calculate-rate"></a>

重要的是要估计将数据传输到连接到每台服务器的 Snowball Edge 的速度。这个以 MB/秒 为单位的预估速度决定了使用本地网络基础设施将数据从数据来源传输到 Snowball Edge 设备的速度。

**注意**  
对于大型数据传输，我们建议您使用 Amazon S3 数据传输方法。在 AWS Snow 系列管理控制台中预定设备时，必须选择此选项。

要确定基准传输速率，请将数据的一小部分传输到 Snowball Edge 设备，或者传输 10 GB 的示例文件并观察吞吐量。

在确定您的目标传输速度时，请谨记您可以通过调整环境（包括网络配置）来提高吞吐量，其方法为更改网络速度、所传输文件的大小以及从本地服务器读取数据的速度。在您的条件允许的情况下，Amazon S3 适配器会尽快将数据复制到 Snowball Edge。

### 第 3 步：确定你需要多少 Snowball Edge
<a name="number-of-snowballs"></a>

根据您计划迁移到云中的数据总量、估计的传输速度以及您希望允许将数据迁移到云中的天数 AWS，确定大规模数据迁移需要多少 Snowball Edge。根据设备类型的不同，Snowball Edge 设备大约有 39.5 TB 或 210 TB 的可用存储空间。例如，如果您想在 10 天内将 300 TB 的数据移至 AWS 超过 10 天，并且传输速度为 250 MB/s，则需要 2 台具有 210 TB 存储空间的 Snowball Edge 设备。

**注意**  
Snowball Edge LDMM 提供了一个向导，用于估算可以同时支持的 Snowball Edge 数量。有关更多信息，请参阅 [使用 Snowball Edge 制定大型数据迁移计划](create-data-migration-plan.md)。

### 第 4 步：创建您的作业
<a name="make-jobs"></a>

在你知道需要多少 Snowball Edge 之后，你需要为每台设备创建一个导入任务。Snowball Edge LDMM 简化了创建多个工作岗位的过程。有关更多信息，请参阅 [下达下一个作业订单](understanding-data-migration-plan.md#placing-next-job-order)。

**注意**  
您可以下达下一个作业订单，并直接从**建议的作业预定**计划表自动将其添加到计划中。有关更多信息，请参阅 [建议的作业预定计划](understanding-data-migration-plan.md#job-ordering-schedule)。

### 第 5 步：将您的数据分为传输分段
<a name="prepare-segments"></a>

对于包含多个作业的大型数据传输，其最佳实操是将数据有序划分为数个易于管理的小型数据集。这样一来，您可以每次传输一个分区，或者并行传输多个分区。在规划分区时，请确保分区的组合数据适合在 Snowball Edge 上完成任务。例如，您可以通过以下任一方法将传输的数据分成多个分区：
+ 例如，您可以创建 10 个分区，每个分区为 20 TB，与具有 210 TB 存储的 Snowball Edge 设备配合使用。
+ 对于大型文件，每个文件均可为一个单独的分区，但不得超过 Amazon S3 中对象的 5 TB 大小限制。
+ 各分区的大小可有所不同，每个单独的分区都可由相同类型的数据组成，例如，一个分区由小型文件组成，另一个分区由压缩存档文件组成，而另一个分区则由大型文件组成等。这种方法能够帮助您确定不同类型文件的平均传输速率。

**注意**  
对于传输的每个文件，均会执行元数据操作。不论文件大小，此开销都是相同的。因此，通过将小文件压缩为更大的捆绑包、批处理您的文件或传输更大的单个文件，您将获得更快的传输速度。

创建此类数据传输分段能够让您轻松快速地解决任何传输问题，因为在大型的异构传输运行一天或更长时间后尝试对该传输进行故障排除可能会很复杂。

规划完 PB 级数据传输计划后，我们建议您将服务器上的几个分段传输到 Snowball Edge 设备上，以校准速度和总传输时间。

# 使用 Snowball Edge 校准大型传输
<a name="calibrating-large-transfer"></a>

您可以通过传输一组具有代表性的数据分区来校准传输性能。选择您已定义的多个分区并将它们传输到 Snowball Edge 设备。记录每个操作的传输速度和总传输时间。如果校准结果低于目标传输速率，您也许能够同时复制多个分区。在这种情况下，使用其他数据集的分区来重复校准。

在校准过程中继续添加并行复制操作，直到您发现当前正在传输数据的所有实例的总传输速度呈递减状态。终止最后一个活跃实例，并记下您的新目标传输速率。

通过使用以下方案之一并行传输数据，可以更快地将数据传输到 Snowball Edge：
+ 在工作站上对单个 Snowball Edge 设备使用 S3 适配器的多个会话。
+ 在多个工作站上对单个 Snowball Edge 设备使用 S3 适配器的多个会话。
+ 使用针对多个 Snowball Edge 的 S3 接口的多个会话（使用单个或多个工作站）。

完成这些步骤后，您应该知道将数据传输到 Snowball Edge 设备的速度有多快。

# 使用 Snowball Edge 制定大型数据迁移计划
<a name="create-data-migration-plan"></a>

Snowball Edge 大数据迁移计划功能使您能够使用多个 Snowball Edge 服务产品规划、跟踪、监控和管理从 500 TB 到数 PB 的大型数据迁移。

使用大数据迁移计划功能收集有关数据迁移目标的信息，例如要移动到的数据大小 AWS 以及同时迁移数据所需的 Snowball Edge 数量。使用该计划为您的数据迁移项目创建预期计划和建议的作业预定计划来实现您的目标。

**注意**  
目前，该数据迁移计划适用于大于 500 TB 的导入作业。

**Topics**
+ [第 1 步：选择迁移详细信息](#migration-details)
+ [第 2 步：选择您的运输、安全和通知偏好](#shipping-security-notifications)
+ [第 6 步：查看并创建计划](#review-create-plan)

## 第 1 步：选择迁移详细信息
<a name="migration-details"></a>

**注意**  
大型数据迁移计划适用于大于 500 TB 的数据迁移。在 Snowball Edge 上为小于 500 TB 的数据传输项目单独创建任务单。有关更多信息，请参阅本指南中的[创建订购 Snowball Edge 设备的任务](https://docs.aws.amazon.com/snowball/latest/developer-guide/create-job-common.html)。

1. 登录到 [AWS Snow 系列管理控制台](https://console.aws.amazon.com/snowfamily/home)。如果这是你第一次使用这篇文章 AWS 区域，你会 AWS Snow 系列管理控制台 看到 Snowball Edge 页面。否则，您会看到现有作业的列表。

1. 如果这是您的第一个数据迁移计划，请从主页上选择**创建您的大数据迁移计划**。否则，请选择**大型数据迁移计划**。选择**创建数据迁移计划**，打开计划创建向导。

1. 在**为您的数据迁移计划命名**中，提供**数据迁移计划名称**。计划名称最多可以包含 64 个字符。有效字符为 A-Z、a-z、0-9 和 -（连字符）。计划名称不得以 **aws:** 开头。

1. 在**要迁移到的数据总**数中 AWS，输入要迁移到的数据量 AWS。

1. 在 Sno **w 设备**中，选择一个 Snowball Edge 设备。
**注意**  
在某些 AWS 区域中，支持的设备选项可能会因设备可用性而异。

1. 对于**并发设备**，请输入您所在位置可以同时将数据复制到的 Snowball Edge 的数量。如果您不确定，请跳到下一部分，了解有关使用并发设备估算器向导来确定该内容的信息。

1. 选择**下一步**。

### 使用并发设备估算器向导
<a name="concurrent-devices-estimator"></a>

并发设备估算器向导可帮助您确定在大型数据迁移期间可以使用的并发设备数量。

先决条件：
+ 您进行了概念验证，以测试您的数据传输方法，并在您的环境中使用 Snowball Edge 设备测量了性能。
+ 您了解网络以及与后端存储的连接。

#### 第 1 步：输入数据来源信息
<a name="input-data-source-parameters"></a>

首先，确定从存储源复制数据的最大理论吞吐量。

1. 在**要迁移的数据总量**中，输入计划迁移的数据量。

   在**单位**中，选择计划迁移数据量的计量单位（GB 或 TB）。

1. 在**活动网络接口量**中，输入可用于从存储源迁移数据的活动网络接口的数量。  
![\[活动网络接口数字段显示默认条目为 1。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-active-interfaces-console.png)

1. 在**网络接口速度**中，请选择存储源的网络接口速度。网络速度以 Gb/s 为单位。  
![\[网络接口速度显示默认速度为 10 Gb/s。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-interface-speed-console.png)

1. 在**最大网络吞吐量**中，请输入您在概念验证期间确定的存储源的最大测试网络吞吐量。吞吐量以 MB/S 为单位。  
![\[最大网络吞吐量默认情况下为空。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-network-throughput-console.png)

1. 在**存储后端网络使用情况**中，请指定存储源是否与后端存储共享网络。
   + 如果网络未共享，请选择**是**。您无需输入单个流的存储互连速度。
   + 如果网络已共享，请选择**否**。输入单个流的存储互连速度，以 MB/s 为单位。

   根据您的选择，向导会更新页面底部**数据来源的最大迁移吞吐量（MB/s）**的值。  
![\[存储后端网络使用情况显示默认值为“是”。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-network-backend-console.png)

1. 选择**下一步**。

#### 第 2 步：输入迁移工作站参数
<a name="input-migration-workstation-parameters"></a>

你可以将 YourSnowball Edge 直接连接到你的存储源（例如微软 Windows 服务器）。相反，你可以选择将 YourSnowball Edge 连接到一个或多个工作站，以便从存储源复制数据。

1. 在**迁移工作站的使用情况**中，请指明您要选择的工作站的使用情况。
   + 选择**无 - 直接使用数据来源直接**，从而直接从数据来源传输数据，而不使用工作站，然后选择**下一步**。
   + 选择**其他 - 使用复印工作站**，从而使用一个或多个工作站来传输数据。  
![\[迁移工作站使用情况显示默认值为“其他 - 使用复制工作站”。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-migration-workstation-console.png)

1. 在**活动网络接口数量**中，输入用于数据迁移的端口数。  
![\[活动网络接口数显示默认值为 1。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-active-interfaces-wkstn-console.png)

1. 在**网络接口速度**中，请选择网络接口的速度（以 Gb/s 为单位）。  
![\[网络接口速度显示默认值为 10。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-network-speed-wkstn-console.png)

1. 在**存储后端网络使用情况**中，请指定工作站所在的网络是否与后端存储共享。
   + 如果已共享，请选择**是**。
   + 如果未共享，请选择**否**。输入单个流的存储互连速度，以 MB/s 为单位。  
![\[存储后端网络使用情况显示默认值为“是”。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-network-backend-wkstn-console.png)

根据您的输入，向导会在**迁移工作站数量**中显示建议。如果您不同意该建议，可以手动更改数量。此数量将出现在大型数据迁移计划的**并发设备**中。

![\[迁移工作站数量显示默认条目为 0。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-number-workstations-console.png)


#### 第 3 步：输入 Snowball Edge 的平均传输吞吐量
<a name="input-average-snow-throughput"></a>

1. 在 **Snow 设备平均传输吞吐量**字段中，输入您在概念验证期间所见的传输吞吐量（以 MB/s 为单位）。  
![\[Snow 设备的平均传输吞吐量默认情况下为空\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/concurrent_devices-average-snow-throughput.png)

   根据您的平均吞吐量，向导会更新迁移计划详细信息中的**建议的并发 Snow 设备数量**和**最大并发设备数量**。

1. 选择**使用此数量**来继续，然后返回选择您的迁移详细信息部分。选择**下一步**，然后继续进行下一步（[第 2 步：选择您的运输、安全和通知偏好](#shipping-security-notifications)）。

**注意**  
您最多可以使用 5 台并发 Snow 设备。

## 第 2 步：选择您的运输、安全和通知偏好
<a name="shipping-security-notifications"></a>

1. 在**送货地址**部分，选择一个现有地址或创建一个新地址。
   + 
**注意**  
地址中的国家/地区必须与设备的目的地国家/地区相匹配，并且必须在该国家/地区有效。

1. 在**选择服务访问类型**中，执行以下操作之一：
   + 允许 Snowball Edge 为您创建一个新的服务相关角色，该角色具有发布您的 Snowball Edge 任务的 CloudWatch 指标和亚马逊 SNS 通知的所有必要权限。
   + 添加一个具有必要权限的现有服务角色。有关如何设置此角色的示例，请参阅[示例 4：预期角色权限和信任策略](access-policy-examples-for-sdk-cli.md#expected-role-permissions-and-trust-policy)。

1. 在**发送通知**中，选择是否发送通知。请注意，如果您选择**不发送有关数据迁移计划的通知**，则不会收到来自该计划的通知，但您仍会收到作业通知。

1. 在**设置通知**中，
   + 选择**使用现有 SNS 主题**
   +  或**创建新 SNS 主题**。

## 第 6 步：查看并创建计划
<a name="review-create-plan"></a>

1. 查看您在**计划详细信息**和**运输、安全和通知偏好**中的信息，并在必要时进行编辑。

1.  选择**创建数据迁移计划**，创建计划。

# 在 Snowball Edge 中使用大数据迁移计划
<a name="understanding-data-migration-plan"></a>

创建大数据迁移计划后，您可以使用生成的计划和控制面板来指导您完成迁移过程的其余部分。

## 建议的作业预定计划
<a name="job-ordering-schedule"></a>

创建 Snowball Edge 大型迁移计划后，您可以使用推荐的任务排序计划来创建新作业。

**注意**  
手动更新数据大小或并发设备数量会导致计划发生调整。如果未在建议的订单日期之前预定作业，或已在建议的订单日期之前预定作业，则计划会自动调整。如果作业在建议的订单日期之前返回，则计划会自动调整。

![\[建议的作业预定计划显示建议的订单日期、设备类型和预定的设备数量。右上角有一个“操作”按钮。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/recmnd-job-sched-console.png)


### 下达下一个作业订单
<a name="placing-next-job-order"></a>

要下达下一个订单，您可以选择克隆之前预定的作业或创建一个预先填充的作业，而不必手动创建作业然后将其添加到计划中。

**要克隆作业，请执行以下操作：**

1. 从**建议的作业预定**计划中选择下一个订单（第一个状态为**未预定**的建议），然后从**操作**菜单中选择**克隆作业**。此时将出现**克隆作业**窗口。

1. 在**克隆作业**窗口的**已预订作业**部分，选择要克隆的作业。

1. 在**新作业详细信息**部分，选择您要预定的设备。对于所选的每台设备，**作业名称**将根据所选作业自动填充。您可以覆盖作业名称。

1. 选择**确认**，为所选设备下达作业订单。系统会为每台设备克隆作业。

**要创建新作业，请执行以下操作：**

1. 从**建议的作业预定**计划中选择下一个订单（第一个状态为**未预定**的建议），然后从**操作**菜单中选择**创建新作业**。此时将出现**创建新作业**窗口。  
![\[建议的作业预定计划显示下一个选择的作业。右上角的“操作”菜单已打开，显示“创建新作业”。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/recmnd-job-sched-action-new-job-console.png)

1. 在**设备选择**部分，选择要预定的设备。选择**继续**。  
![\[“设备选择”部分显示两台设备已选择，右下角有“继续”按钮。\]](http://docs.aws.amazon.com/zh_cn/snowball/latest/developer-guide/images/recmnd-job-sched-device-selection-console.png)

1. 此时将出现**创建新作业**页面。作业类型、送货地址和设备类型等大多数参数都将根据计划设置。系统会为每台设备创建作业。

您可以查看是否已成功创建一个或多个作业。成功创建的作业会自动添加到计划中。

## 已预订作业列表
<a name="job-ordered-list"></a>

每个计划显示一个已预订作业列表。该列表最初为空。开始预定作业时，您可以从**操作**菜单中选择**添加作业**，从而将作业添加到计划中。您在此处添加的作业将在监控控制面板上进行跟踪。

同样，您可以从**操作**菜单中选择**移除作业**，从而将作业从已预订作业列表中删除。

我们建议使用计划中提供的作业预定计划表，以便实现顺畅的数据迁移。

## 监控控制面板
<a name="monitoring-dashboard"></a>

将任务添加到计划后，当任务返回到要 AWS 提取时，您可以在控制面板上看到指标。这些指标可帮助您跟踪进度：
+ **数据迁移到 AWS** — 到目前为 AWS 止已迁移到的数据量...
+ **平均每个作业迁移数据量**：每个作业迁移的平均数据量，以 TB 为单位。
+ **Snow 作业总量**：与待预定作业相比，已预订的 Snowball Edge 作业量。
+ **迁移作业平均持续时间**：每个迁移作业的平均持续时间，以天为单位。
+ **Snow 作业状态**：每种状态下的作业量。