

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 準備輸入資料表
<a name="prepare-data-tables"></a>

在 中 AWS Entity Resolution，每個*輸入資料表*都包含來源記錄。這些記錄包含消費者識別符，例如名字、姓氏、電子郵件地址或電話號碼。這些來源記錄可與您在相同或其他輸入資料表中提供的其他來源記錄相符。每個記錄都必須有唯一的記錄 ID ([唯一 ID](glossary.md#unique-id-defn))，而且您必須在建立結構描述映射時將其定義為主索引鍵 AWS Entity Resolution。

每個輸入資料表都可以做為 Amazon S3 支援的 AWS Glue 資料表。您可以使用已在 Amazon S3 中的第一方資料，或從其他第三方 SaaS 供應商將資料表匯入 Amazon S3。將資料上傳至 Amazon S3 之後，您可以使用 AWS Glue 爬蟲程式在 中建立資料表 AWS Glue Data Catalog。然後，您可以使用資料表做為 的輸入 AWS Entity Resolution。

下列各節說明如何準備第一方資料和第三方資料。

**Topics**
+ [準備第一方輸入資料](prepare-input-data.md)
+ [準備第三方輸入資料](prepare-third-party-input-data.md)

# 準備第一方輸入資料
<a name="prepare-input-data"></a>

下列步驟說明如何準備第一方資料，以在[規則型比對工作流程](creating-matching-workflow-rule-based.md)、[機器學習型比對工作流程](create-matching-workflow-ml.md)或 [ID 映射工作流程](create-id-mapping-workflow.md)中使用。

## 步驟 1：準備第一方資料表
<a name="prepare-first-party-tables"></a>

每個相符的工作流程類型都有一組不同的建議和指導方針，以協助確保成功。

若要準備第一方資料表，請參閱下表：


**第一方資料表準則**  

| 工作流程類型 | 必要 | 
| --- | --- | 
| 具有進階規則類型的規則型比對工作流程 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/entityresolution/latest/userguide/prepare-input-data.html)  | 
| 使用簡易規則類型的規則型比對工作流程 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/entityresolution/latest/userguide/prepare-input-data.html)  | 
| 機器學習型比對工作流程 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/entityresolution/latest/userguide/prepare-input-data.html)  | 
| ID 映射工作流程  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/entityresolution/latest/userguide/prepare-input-data.html)  | 

## 步驟 2：以支援的資料格式儲存您的輸入資料表
<a name="save-input-data"></a>

如果您已以支援的資料格式儲存第一方輸入資料，您可以略過此步驟。

若要使用 AWS Entity Resolution，輸入資料必須是 AWS Entity Resolution 支援的格式。

AWS Entity Resolution 支援下列資料格式：
+ 逗號分隔值 (CSV)
+ Parquet

## 步驟 3：將輸入資料表上傳至 Amazon S3
<a name="upload-to-s3"></a>

如果您已在 Amazon S3 中擁有第一方資料表，您可以略過此步驟。

**注意**  
您可以在支援 S3 的商業分割區的任何區域中，將輸入資料儲存在 Amazon S3resources 中。 AWS S3 您可以從不同區域或在執行相符工作流程 AWS 帳戶 時存取此資料。

**將輸入資料表上傳至 Amazon S3**

1. 登入 AWS 管理主控台 ，並在 https：//[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/) 開啟 Amazon S3 主控台。

1. 選擇**儲存貯體**，然後選擇儲存貯體來存放資料表。

1. 選擇**上傳**，然後依照提示操作。

1. 選擇**物件**索引標籤，以檢視儲存資料的字首。記下資料夾的名稱。

   您可以選取要檢視資料表的資料夾。

## 步驟 4：建立 AWS Glue 資料表
<a name="create-glue-table"></a>

**注意**  
如果您需要分割的 AWS Glue 資料表，請跳至 [步驟 4：建立分割的 AWS Glue 資料表](#create-partitioned-glue-table)。

Amazon S3 中的輸入資料必須編製目錄， AWS Glue 並以 AWS Glue 資料表表示。如需如何使用 Amazon S3 做為輸入來建立 AWS Glue 資料表的詳細資訊，請參閱《 開發人員指南》中的[在 AWS Glue 主控台上使用爬蟲程式](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)。 *AWS Glue *

在此步驟中，您會在 中設定爬蟲程式 AWS Glue ，以編目 S3 儲存貯體中的所有檔案並建立 AWS Glue 資料表。

**注意**  
AWS Entity Resolution 目前不支援向 註冊的 Amazon S3 位置 AWS Lake Formation。

**建立 AWS Glue 資料表**

1. 登入 AWS 管理主控台 ，並在 https：//[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) 開啟 AWS Glue 主控台。

1. 從導覽列中選取**爬蟲程式**。

1. 從清單中選擇您的 S3 儲存貯體，然後選擇**建立爬蟲程式**。

1. 在**設定爬蟲程式屬性**頁面上，輸入爬蟲程式**名稱**選用**描述**，然後選擇**下一步**。

1. 繼續執行**新增爬蟲程式頁面**，指定詳細資訊。

1. 在**選擇 IAM 角色**頁面上，選擇**選擇現有的 IAM 角色**，然後選擇**下一步**。

   您也可以選擇**建立 IAM 角色，**或讓管理員視需要建立 IAM 角色。

1. 對於**建立此爬蟲程式的排程**，請保持**頻率預設值 **(**隨需執行**)，然後選擇**下一步**。

1. 針對**設定爬蟲程式的輸出**，輸入 AWS Glue 資料庫，然後選擇**下一步**。

1. 檢閱所有詳細資訊，然後選擇**完成**。

1. 在**爬蟲程式**頁面上，選取 S3 儲存貯體旁的核取方塊，然後選擇**執行爬蟲程式**。

1. 爬蟲程式執行完成後，請在 AWS Glue 導覽列上選擇**資料庫**，然後選擇您的資料庫名稱。

1. 在**資料庫**頁面上，選擇 **\$1您的資料庫名稱\$1 中的資料表**。

   1. 檢視 AWS Glue 資料庫中的資料表。

   1. 若要檢視資料表的結構描述，請選取特定資料表。

   1. 記下 AWS Glue 資料庫名稱和 AWS Glue 資料表名稱。

您現在已準備好建立結構描述映射。如需詳細資訊，請參閱[建立結構描述映射](create-schema-mapping.md)。

## 步驟 4：建立分割的 AWS Glue 資料表
<a name="create-partitioned-glue-table"></a>

**注意**  
只有 ID 映射工作流程 AWS Entity Resolution 支援 中的 AWS Glue 分割功能。此 AWS Glue 分割功能可讓您選擇使用 處理的特定分割區 AWS Entity Resolution。  
如果您不需要分割的 AWS Glue 資料表，可以略過此步驟。

當您將新資料夾新增至資料結構 （例如一個月內的新日期資料夾） 時，分割的 AWS Glue 資料表會自動反映 AWS Glue 資料表中的新分割區。

在 中建立分割的 AWS Glue 資料表時 AWS Entity Resolution，您可以指定要在 ID 映射工作流程中處理的分割區。然後，每次執行 ID 映射工作流程時，只會處理這些分割區中的資料，而不是處理整個 AWS Glue 資料表中的所有資料。此功能可讓您在 中進行更精確、更有效率且符合成本效益的資料處理 AWS Entity Resolution，讓您在管理實體解析任務時擁有更大的控制和彈性。

您可以在 ID 映射工作流程中為來源帳戶建立分割的 AWS Glue 資料表。

您必須先在 中為 Amazon S3 中的輸入資料編製目錄， AWS Glue 並將其表示為 AWS Glue 資料表。如需如何使用 Amazon S3 做為輸入來建立 AWS Glue 資料表的詳細資訊，請參閱《 開發人員指南》中的[在 AWS Glue 主控台上使用爬蟲程式](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)。 *AWS Glue *

在此步驟中，您會在 中設定爬蟲程式 AWS Glue ，以編目 S3 儲存貯體中的所有檔案，然後建立分割的 AWS Glue 資料表。

**注意**  
AWS Entity Resolution 目前不支援向 註冊的 Amazon S3 位置 AWS Lake Formation。

**建立分割的 AWS Glue 資料表**

1. 登入 AWS 管理主控台 ，並在 https：//[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) 開啟 AWS Glue 主控台。

1. 從導覽列中選取**爬蟲程式**。

1. 從清單中選擇您的 S3 儲存貯體，然後選擇**建立爬蟲程式**。

1. 在**設定爬蟲程式屬性**頁面上，輸入爬蟲程式**名稱**、選用**的描述**，然後選擇**下一步**。

1. 繼續執行**新增爬蟲程式頁面**，指定詳細資訊。

1. 在**選擇 IAM 角色**頁面上，選擇**選擇現有的 IAM 角色**，然後選擇**下一步**。

   您也可以選擇**建立 IAM 角色**，或讓管理員視需要建立 IAM 角色。

1. 對於**建立此爬蟲程式的排程**，請保持**頻率預設值 **(**隨需執行**)，然後選擇**下一步**。

1. 針對**設定爬蟲程式的輸出**，輸入 AWS Glue 資料庫，然後選擇**下一步**。

1. 檢閱所有詳細資訊，然後選擇**完成**。

1. 在**爬蟲程式**頁面上，選取 S3 儲存貯體旁的核取方塊，然後選擇**執行爬蟲程式**。

1. 爬蟲程式執行完成後，請在 AWS Glue 導覽列上選擇**資料庫**，然後選擇您的資料庫名稱。

1. 在**資料庫**頁面的**資料表**下，選擇要分割的資料表。

1. 在**資料表概觀**上，選取**動作**下拉式清單，然後選擇**編輯資料表**。

   1. 在**資料表屬性**下，選擇**新增**。

   1. 針對新的**金鑰**，輸入 **aerPushDownPredicateString**。

   1. 對於新**值**，輸入 **'<PartitionKey>=<PartitionValue'**。

   1. 記下 AWS Glue 資料庫名稱和 AWS Glue 資料表名稱。

您現在已準備好：
+ [建立結構描述映射](create-schema-mapping.md)，然後[為一個 建立 ID 映射工作流程 AWS 帳戶](creating-id-mapping-workflow-same-account.md)。
+ [建立 ID 命名空間來源](create-id-namespace-source.md)、[建立 ID 命名空間目標](create-id-namespace-target.md)，然後[跨兩個 建立 ID 映射工作流程 AWS 帳戶](creating-id-mapping-workflow-two-accounts.md)。

# 準備第三方輸入資料
<a name="prepare-third-party-input-data"></a>

第三方資料服務提供的識別符可與已知的識別符相符。

AWS Entity Resolution 目前支援下列第三方資料提供者服務：


**資料提供者服務**  

| 公司名稱 | 可用 AWS 區域 | 識別符 | 
| --- | --- | --- | 
| LiveRamp | 美國東部 （維吉尼亞北部） (us-east-1)、美國東部 （俄亥俄） (us-east-2) 和美國西部 （奧勒岡） (us-west-2) | Ramp ID | 
| TransUnion | 美國東部 （維吉尼亞北部） (us-east-1)、美國東部 （俄亥俄） (us-east-2) 和美國西部 （奧勒岡） (us-west-2) | TransUnion 個人和家庭 IDs | 
| 統一 ID 2.0 | 美國東部 （維吉尼亞北部） (us-east-1)、美國東部 （俄亥俄） (us-east-2) 和美國西部 （奧勒岡） (us-west-2) | 原始 UID 2 | 

下列步驟說明如何準備第三方資料，以使用[提供者服務型比對工作流程](glossary.md#provider-service-matching)或[提供者服務型 ID 映射工作流程](create-IDMW-provider-services-one-acct.md)。

**Topics**
+ [步驟 1：在 上訂閱提供者服務 AWS Data Exchange](#subscribe-provider-service)
+ [步驟 2：準備第三方資料表](#prepare-third-party-data-tables)
+ [步驟 3：以支援的資料格式儲存您的輸入資料表](#save-third-party-data-tables)
+ [步驟 4：將輸入資料表上傳至 Amazon S3](#upload-third-party-data-tables)
+ [步驟 5：建立 AWS Glue 資料表](#create-glue-table-third-party-data-tables)

## 步驟 1：在 上訂閱提供者服務 AWS Data Exchange
<a name="subscribe-provider-service"></a>

如果您透過 訂閱提供者服務 AWS Data Exchange，您可以使用下列其中一個提供者服務執行相符的工作流程，以將已知的識別符與您偏好的提供者相符。您的資料將與您偏好的提供者定義的一組輸入相符。

在 上訂閱提供者服務 AWS Data Exchange

1. 檢視 上的提供者清單 AWS Data Exchange。下列供應商清單可供使用：
   + LiveRamp
     + [LiveRamp 身分解析](https://aws.amazon.com/marketplace/pp/prodview-v4557zxjo6ykq)
     + [LiveRamp 轉碼](https://aws.amazon.com/marketplace/pp/prodview-bpp2fvfcxk2kg)
   + TransUnion
     + TruAudience 身分解析與強化
   + 統一 ID 2.0
     + [統一 ID 2.0 身分解析](https://aws.amazon.com/marketplace/pp/prodview-66zqls7iqsm6o?sr=0-4&ref_=beagle&applicationId=AWSMPContessa#offers)

1. 根據您的優惠類型，完成下列其中一個步驟。
   + **私有優惠** – 如果您與供應商有現有關係，請遵循*AWS Data Exchange 《 使用者指南*》中的[私有產品和優惠](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-private-offer.html)程序來接受私有優惠 AWS Data Exchange。
   + **自備訂閱** – 如果您已有供應商的現有資料訂閱，請遵循*AWS Data Exchange 《 使用者指南*》中的[自備訂閱 (BYOS) 優惠](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-byos-offer.html)程序來接受 BYOS 優惠 AWS Data Exchange。

1. 訂閱提供者服務之後 AWS Data Exchange，您就可以使用該提供者服務建立相符的工作流程或 ID 映射工作流程。

如需如何存取包含 APIs的提供者產品的詳細資訊，請參閱*AWS Data Exchange 《 使用者指南*》中的[存取 API 產品](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribing-to-product.html#use-API-product)。

## 步驟 2：準備第三方資料表
<a name="prepare-third-party-data-tables"></a>

每個第三方服務都有一組不同的建議和準則，以協助確保成功的相符工作流程。

若要準備第三方資料表，請參閱下表：


**資料提供者服務準則**  

| 供應商服務 | 需要唯一 ID？ | 動作 | 
| --- | --- | --- | 
| LiveRamp | 是 |  請確認下列事項： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| TransUnion | 是 |  請確定輸入檢視中的`string`類型資料欄如下： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| 統一 ID 2.0 | 是 |  請確認下列事項： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/entityresolution/latest/userguide/prepare-third-party-input-data.html)  無論誰提出請求，特定電子郵件或電話號碼在任何特定時間都會產生相同的原始 UID2 值。 原始 UID2s是透過從大約每年輪換一次的鹽儲存貯體中新增鹽來建立，導致原始 UID2 也會隨之輪換。不同的 salt 儲存貯體會在一年中的不同時間輪換。 AWS Entity Resolution 目前不會追蹤輪換 salt 儲存貯體和原始 UID2s，因此建議您每天重新產生原始 UID2s。如需詳細資訊，請參閱 [ UID2s.0 文件中的 UID2 應該多久重新整理一次以進行增量更新？](https://unifiedid.com/docs/getting-started/gs-faqs#how-often-should-uid2s-be-refreshed-for-incremental-updates)。   | 

## 步驟 3：以支援的資料格式儲存您的輸入資料表
<a name="save-third-party-data-tables"></a>

如果您已經以支援的資料格式儲存第三方輸入資料，您可以略過此步驟。

若要使用 AWS Entity Resolution，輸入資料必須是 AWS Entity Resolution 支援的格式。

AWS Entity Resolution 支援下列資料格式：
+ 逗號分隔值 (CSV)
**注意**  
LiveRamp 僅支援 CSV 檔案。
+ Parquet

## 步驟 4：將輸入資料表上傳至 Amazon S3
<a name="upload-third-party-data-tables"></a>

如果您在 Amazon S3 中已有第三方資料表，您可以略過此步驟。

**注意**  
您可以在支援 S3 的商業分割區的任何區域中，將輸入資料存放在 Amazon S3 資源中。 AWS 您可以從不同區域或在執行相符工作流程 AWS 帳戶 時存取此資料。

**將輸入資料表上傳至 Amazon S3**

1. 登入 AWS 管理主控台 ，並在 https：//[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/) 開啟 Amazon S3 主控台。

1. 選擇**儲存貯體**，然後選擇儲存貯體來存放資料表。

1. 選擇**上傳**，然後依照提示操作。

1. 選擇**物件**索引標籤，以檢視儲存資料的字首。記下資料夾的名稱。

   您可以選取要檢視資料表的資料夾。

## 步驟 5：建立 AWS Glue 資料表
<a name="create-glue-table-third-party-data-tables"></a>

Amazon S3 中的輸入資料必須編製目錄， AWS Glue 並以 AWS Glue 資料表表示。如需如何使用 Amazon S3 做為輸入來建立 AWS Glue 資料表的詳細資訊，請參閱《 開發人員指南》中的[在 AWS Glue 主控台上使用爬蟲程式](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)。 *AWS Glue *

**注意**  
AWS Entity Resolution 不支援分割資料表。

在此步驟中，您會在 中設定爬蟲程式 AWS Glue ，以編目 S3 儲存貯體中的所有檔案並建立 AWS Glue 資料表。

**注意**  
AWS Entity Resolution 目前不支援向 註冊的 Amazon S3 位置 AWS Lake Formation。

**建立 AWS Glue 資料表**

1. 登入 AWS 管理主控台 ，並在 https：//[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) 開啟 AWS Glue 主控台。

1. 從導覽列中選取**爬蟲程式**。

1. 從清單中選擇您的 S3 儲存貯體，然後選擇**新增爬蟲程式**。

1. 在**新增爬蟲程式**頁面上，輸入**爬蟲程式名稱**，然後選擇**下一步**。

1. 繼續進行**新增爬蟲程式頁面**，指定詳細資訊。

1. 在**選擇 IAM 角色**頁面上，選擇**選擇現有的 IAM 角色**，然後選擇**下一步**。

   您也可以選擇**建立 IAM 角色**，或讓管理員視需要建立 IAM 角色。

1. 對於**建立此爬蟲程式的排程**，請保持**頻率預設值 **(**隨需執行**)，然後選擇**下一步**。

1. 針對**設定爬蟲程式的輸出**，輸入 AWS Glue 資料庫，然後選擇**下一步**。

1. 檢閱所有詳細資訊，然後選擇**完成**。

1. 在**爬蟲程式**頁面上，選取 S3 儲存貯體旁的核取方塊，然後選擇**執行爬蟲程式**。

1. 爬蟲程式執行完成後，請在 AWS Glue 導覽列上選擇**資料庫**，然後選擇您的資料庫名稱。

1. 在**資料庫**頁面上，選擇 **\$1您的資料庫名稱\$1 中的資料表**。

   1. 檢視 AWS Glue 資料庫中的資料表。

   1. 若要檢視資料表的結構描述，請選取特定資料表。

   1. 記下 AWS Glue 資料庫名稱和 AWS Glue 資料表名稱。

您現在已準備好建立結構描述映射。如需詳細資訊，請參閱[建立結構描述映射](create-schema-mapping.md)。