

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 准备第一方输入数据
<a name="prepare-input-data"></a>

[以下步骤描述了如何准备第一方数据，以用于[基于规则的匹配工作流程、基于机器学习的匹配工作流程](creating-matching-workflow-rule-based.md)[或身份映射工作流程](create-matching-workflow-ml.md)。](create-id-mapping-workflow.md)

## 步骤 1：准备第一方数据表
<a name="prepare-first-party-tables"></a>

每种匹配的工作流程类型都有一套不同的建议和指南，以帮助确保成功。

要准备第一方数据表，请查阅下表：


**第一方数据表指南**  

| 工作流程类型 | 必需 | 
| --- | --- | 
| 具有高级规则类型的基于规则的匹配工作流程 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/prepare-input-data.html)  | 
| 具有简单规则类型的基于规则的匹配工作流程 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/prepare-input-data.html)  | 
| 基于机器学习的匹配工作流程 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/prepare-input-data.html)  | 
| ID 映射工作流程  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/prepare-input-data.html)  | 

## 步骤 2：以支持的数据格式保存输入数据表
<a name="save-input-data"></a>

如果您已经以支持的数据格式保存了第一方输入数据，则可以跳过此步骤。

要使用 AWS Entity Resolution 数据匹配服务，输入数据必须采用 AWS Entity Resolution 数据匹配服务 支持的格式。

AWS Entity Resolution 数据匹配服务 支持以下数据格式：
+ 逗号分隔值 (CSV)
+ Parquet

## 步骤 3：将您的输入数据表上传到 Amazon S3
<a name="upload-to-s3"></a>

如果您在 Amazon S3 中已经有了第一方数据表，则可以跳过此步骤。

**注意**  
您可以将输入数据存储在支持 S3 的 AWS 商业分区中任何区域的 Amazon S3Resources 中。可以从其他地区访问这些数据，也可以在运行匹配工作流程 AWS 账户 时访问这些数据。

**将您的输入数据表上传到 Amazon S3**

1. 登录 AWS 管理控制台 并打开 Amazon S3 控制台，网址为[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)。

1. 选择 **Buckets**，然后选择一个存储桶来存储您的数据表。

1. 选择**上传**，然后按照提示进行操作。

1. 选择**对象**选项卡，查看存储数据的前缀。记下文件夹的名称。

   您可以选择要查看数据表的文件夹。

## 步骤 4：创建 AWS Glue 表
<a name="create-glue-table"></a>

**注意**  
如果您需要分区 AWS Glue 表，请跳至。[步骤 4：创建分区表 AWS Glue](#create-partitioned-glue-table)

Amazon S3 中的输入数据必须编入目录 AWS Glue 并以 AWS Glue 表格形式表示。有关如何使用 Amazon S3 作为输入创建 AWS Glue 表的更多信息，请参阅[*AWS Glue 开发者指南*中的在 AWS Glue 控制台上使用爬虫](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)。

在此步骤中，您将在中设置一个爬虫 AWS Glue 来抓取 S3 存储桶中的所有文件并创建 AWS Glue 表。

**注意**  
AWS Entity Resolution 数据匹配服务 目前不支持注册的 Amazon S3 地点 AWS Lake Formation。

**创建 AWS Glue 表**

1. 登录 AWS 管理控制台 并打开 AWS Glue 控制台，网址为[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)。

1. 从导航栏中，选择**爬网程序**。

1. 从列表中选择您的 S3 存储桶，然后选择**创建抓取工具**。

1. **在 “**设置 Crawler 属性**” 页上，输入 Crawler **名称**（可选**描述**），然后选择 “下一步”。**

1. 继续浏览**添加爬网程序页面**，指定详细信息。

1. 在**选择 IAM 角色**页面上，选择**选择现有 IAM 角色**，然后选择**下一步**。

   如果需要，您也可以选择**创建 IAM 角色**或让管理员创建 IAM 角色。

1. 对于**为此爬网程序创建计划**，请保留默认**频率**（**按需运行**），然后选择**下一步**。

1. 对于 **“配置 Crawler 的输出**”，输入 AWS Glue 数据库，然后选择 “**下一步**”。

1. 查看所有详细信息，然后选择 “**完成**”。

1. 在**爬网程序**页面上，选中 S3 存储桶旁边的复选框，然后选择**运行爬网程序**。

1. 爬网程序运行完毕后，在 AWS Glue 导航栏上选择**数据库**，然后选择您的数据库名称。

1. 在**数据库**页面上，选择 **\$1your database name\$1 中的表**。

   1. 查看 AWS Glue 数据库中的表。

   1. 要查看表的架构，请选择一个特定的表。

   1. 记下 AWS Glue 数据库名称和 AWS Glue 表名。

现在，您可以创建架构映射了。有关更多信息，请参阅 [创建架构映射](create-schema-mapping.md)。

## 步骤 4：创建分区表 AWS Glue
<a name="create-partitioned-glue-table"></a>

**注意**  
中的 AWS Glue 分区功能 AWS Entity Resolution 数据匹配服务 仅在 ID 映射工作流程中受支持。此 AWS Glue 分区功能使您可以选择用于处理 AWS Entity Resolution 数据匹配服务的特定分区。  
如果您不需要分区 AWS Glue 表，则可以跳过此步骤。

当您在数据结构中添加新文件夹（例如一个月以下的新日文件夹）时，分区 AWS Glue AWS Glue 表会自动反映表中的新分区。

在中创建分区 AWS Glue 表时 AWS Entity Resolution 数据匹配服务，可以指定要在 ID 映射工作流程中处理哪些分区。然后，每次运行 ID 映射工作流时，只处理这些分区中的数据，而不是处理整个 AWS Glue 表中的所有数据。此功能允许在中进行更精确、更高效、更具成本效益的数据处理 AWS Entity Resolution 数据匹配服务，从而让您在管理实体解析任务时拥有更大的控制权和灵活性。

您可以在 ID 映射工作流程中为源账户创建分区 AWS Glue 表。

您必须首先将 Amazon S3 中的输入数据编入目录， AWS Glue 并将其表示为 AWS Glue 表。有关如何使用 Amazon S3 作为输入创建 AWS Glue 表的更多信息，请参阅[*AWS Glue 开发者指南*中的在 AWS Glue 控制台上使用爬虫](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)。

在此步骤中，您将在中设置一个爬虫 AWS Glue 来抓取 S3 存储桶中的所有文件，然后创建分区 AWS Glue 表。

**注意**  
AWS Entity Resolution 数据匹配服务 目前不支持注册的 Amazon S3 地点 AWS Lake Formation。

**创建分区表 AWS Glue**

1. 登录 AWS 管理控制台 并打开 AWS Glue 控制台，网址为[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)。

1. 从导航栏中，选择**爬网程序**。

1. 从列表中选择您的 S3 存储桶，然后选择**创建抓取工具**。

1. **在 “**设置 Crawler 属性**” 页上，输入 Crawler **名称**、可选**描述**，然后选择 “下一步”。**

1. 继续浏览**添加爬网程序页面**，指定详细信息。

1. 在**选择 IAM 角色**页面上，选择**选择现有 IAM 角色**，然后选择**下一步**。

   如果需要，您也可以选择**创建 IAM 角色**或让管理员创建 IAM 角色。

1. 对于**为此爬网程序创建计划**，请保留默认**频率**（**按需运行**），然后选择**下一步**。

1. 对于 **“配置 Crawler 的输出**”，输入 AWS Glue 数据库，然后选择 “**下一步**”。

1. 查看所有详细信息，然后选择 “**完成**”。

1. 在**爬网程序**页面上，选中 S3 存储桶旁边的复选框，然后选择**运行爬网程序**。

1. 爬网程序运行完毕后，在 AWS Glue 导航栏上选择**数据库**，然后选择您的数据库名称。

1. 在**数据库**页面的**表**下，选择要分区的表。

1. 在**表格概述**上，选择**操作**下拉列表，然后选择**编辑表格**。

   1. 在**表格属性**下，选择**添加**。

   1. 对于新**密钥**，请输入**aerPushDownPredicateString**。

   1. 对于新**值**，请输入**'<PartitionKey>=<PartitionValue'**。

   1. 记下 AWS Glue 数据库名称和 AWS Glue 表名。

您现在已准备好执行以下操作：
+ [创建架构映射](create-schema-mapping.md)，然后为架构映射[创建 ID 映射工作流程 AWS 账户](creating-id-mapping-workflow-same-account.md)。
+ [创建 ID 命名空间源](create-id-namespace-source.md)，[创建 ID 命名空间目标](create-id-namespace-target.md)，然后[跨两个命名空间创建 ID 映射工作流程 AWS 账户](creating-id-mapping-workflow-two-accounts.md)。