

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 入力データテーブルを準備する
<a name="prepare-data-tables"></a>

では AWS Entity Resolution、各*入力データテーブル*にソースレコードが含まれています。これらのレコードには、姓、名、E メールアドレス、電話番号などのコンシューマー識別子が含まれます。これらのソースレコードは、同じまたは他の入力データテーブル内で指定した他のソースレコードと照合できます。各レコードには一意のレコード ID ([一意の ID](glossary.md#unique-id-defn)) が必要であり、スキーママッピングの作成時にプライマリキーとして定義する必要があります AWS Entity Resolution。

すべての入力データテーブルは、Amazon S3 にバックアップされた AWS Glue テーブルとして使用できます。既に Amazon S3 内にあるファーストパーティデータを使用することも、他のサードパーティー SaaS プロバイダーから Amazon S3 にデータテーブルをインポートすることもできます。Amazon S3 にデータをアップロードした後、 AWS Glue クローラを使用して にデータテーブルを作成できます AWS Glue Data Catalog。その後、データテーブルを入力として使用できます AWS Entity Resolution。

以下のセクションでは、ファーストパーティデータとサードパーティーデータを準備する方法について説明します。

**Topics**
+ [ファーストパーティ入力データの準備](prepare-input-data.md)
+ [サードパーティーの入力データの準備](prepare-third-party-input-data.md)

# ファーストパーティ入力データの準備
<a name="prepare-input-data"></a>

次の手順では、[ルールベースのマッチングワークフロー](creating-matching-workflow-rule-based.md)、[機械学習ベースの](create-matching-workflow-ml.md)マッチングワークフロー、または [ID マッピングワークフロー](create-id-mapping-workflow.md)で使用するファーストパーティデータを準備します。

## ステップ 1: ファーストパーティーデータテーブルを準備する
<a name="prepare-first-party-tables"></a>

一致するワークフロータイプごとに、成功を確実にするための推奨事項とガイドラインのセットが異なります。

ファーストパーティデータテーブルを準備するには、次の表を参照してください。


**ファーストパーティデータテーブルのガイドライン**  

| ワークフロータイプ | 必須 | 
| --- | --- | 
| 高度なルールタイプを使用したルールベースのマッチングワークフロー |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Simple ルールタイプのルールベースのマッチングワークフロー |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/entityresolution/latest/userguide/prepare-input-data.html)  | 
| 機械学習ベースのマッチングワークフロー |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/entityresolution/latest/userguide/prepare-input-data.html)  | 
| ID マッピングワークフロー  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/entityresolution/latest/userguide/prepare-input-data.html)  | 

## ステップ 2: 入力データテーブルをサポートされているデータ形式で保存する
<a name="save-input-data"></a>

ファーストパーティー入力データをサポートされているデータ形式で既に保存している場合は、このステップをスキップできます。

を使用するには AWS Entity Resolution、入力データが が AWS Entity Resolution サポートする形式である必要があります。

AWS Entity Resolution は、次のデータ形式をサポートしています。
+ カンマ区切り値 (CSV)
+ Parquet

## ステップ 3: 入力データテーブルを Amazon S3 にアップロードする
<a name="upload-to-s3"></a>

Amazon S3 にファーストパーティデータテーブルがすでにある場合は、このステップをスキップできます。

**注記**  
入力データは、S3resourcesに保存できます。 AWS S3 このデータは、別のリージョンから、または一致するワークフローを実行する AWS アカウント ときにアクセスできます。

**入力データテーブルを Amazon S3 にアップロードするには**

1. にサインイン AWS マネジメントコンソール し、[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/) で Amazon S3 コンソールを開きます。

1. **バケット**を選択し、データテーブルを保存するバケットを選択します。

1. **[アップロード]** を選択し、プロンプトに従います。

1. **[オブジェクト]** タブを選択し、データが保存されているプレフィックスを表示します。フォルダの名前を書き留めます。

   データテーブルを表示するフォルダを選択できます。

## ステップ 4: AWS Glue テーブルを作成する
<a name="create-glue-table"></a>

**注記**  
パーティション AWS Glue テーブルが必要な場合は、「」に進みます[ステップ 4: パーティション分割された AWS Glue テーブルを作成する](#create-partitioned-glue-table)。

Amazon S3 の入力データは、 でカタログ化 AWS Glue され、 AWS Glue テーブルとして表される必要があります。Amazon S3 を入力として AWS Glue テーブルを作成する方法の詳細については、「 [AWS Glue デベロッパーガイド」の「コンソールでのクローラの使用](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)*AWS Glue 」を参照してください。*

このステップでは、S3 バケット内のすべてのファイルをクロールし、 AWS Glue AWS Glue テーブルを作成するクローラを にセットアップします。

**注記**  
AWS Entity Resolution は現在、 に登録されている Amazon S3 ロケーションをサポートしていません AWS Lake Formation。

**AWS Glue テーブルを作成するには**

1. にサインイン AWS マネジメントコンソール し、[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) で AWS Glue コンソールを開きます。

1. ナビゲーションバーから、**[クローラ]** を選択します。

1. リストから S3 バケットを選択し、**クローラの作成**を選択します。

1. **クローラープロパティの設定**ページで、crawler**Name** オプション**の説明**を入力し、次**へ**を選択します。

1. 引き続き **[クローラを追加]** ページで、詳細を指定します。

1. **[IAM ロールの選択]** ページで **[既存の IAM ロールを選択]** を選択し **[次へ]** 選択します。

   **[IAM ロールを作成する]** を選択することも、必要に応じて管理者に IAM ロールを作成してもらうこともできます。

1. **[このクローラのスケジュールを設定する]** で、**[頻度]** をデフォルト (**[オンデマンドで実行]**) のままにして、**[次へ]** を選択します。

1. **クローラの出力を設定する **で、 AWS Glue データベースを入力し、**次へ** を選択します。

1. すべての詳細を確認し、**完了**を選択します。

1. **[クローラ]** ページで、S3 バケットの横にあるチェックボックスをオンにし、**[クローラの実行]** を選択します。

1. クローラの実行が完了したら、 AWS Glue ナビゲーションバーで**データベース**を選択し、データベース名を選択します。

1. **[データベース]** ページで、**[\$1データベース名\$1 のテーブル]** を選択します。

   1.  AWS Glue データベース内のテーブルを表示します。

   1. テーブルのスキーマを表示するには、特定のテーブルを選択します。

   1.  AWS Glue データベース名と AWS Glue テーブル名を書き留めます。

これで、スキーママッピングを作成する準備ができました。詳細については、「[スキーママッピングの作成](create-schema-mapping.md)」を参照してください。

## ステップ 4: パーティション分割された AWS Glue テーブルを作成する
<a name="create-partitioned-glue-table"></a>

**注記**  
の AWS Glue パーティショニング機能は AWS Entity Resolution 、ID マッピングワークフローでのみサポートされています。この AWS Glue パーティショニング機能を使用すると、 で処理する特定のパーティションを選択できます AWS Entity Resolution。  
パーティション AWS Glue テーブルが必要ない場合は、このステップをスキップできます。

パーティション分割された AWS Glue テーブルは、データ構造に新しいフォルダ (1 か月未満の新しい日フォルダなど) を追加すると、 AWS Glue テーブル内の新しいパーティションを自動的に反映します。

でパーティション分割された AWS Glue テーブルを作成するときに AWS Entity Resolution、ID マッピングワークフローで処理するパーティションを指定できます。次に、ID マッピングワークフローを実行するたびに、 AWS Glue テーブル全体のすべてのデータを処理するのではなく、それらのパーティションのデータのみが処理されます。この機能を使用すると、 でより正確で効率的で費用対効果の高いデータ処理が可能になり AWS Entity Resolution、エンティティ解決タスクの管理の制御と柔軟性が向上します。

ID マッピングワークフローでソースアカウントのパーティション AWS Glue テーブルを作成できます。

まず、 で Amazon S3 の入力データをカタログ AWS Glue 化し、テーブルとして AWS Glue 表現する必要があります。Amazon S3 を入力として AWS Glue テーブルを作成する方法の詳細については、「 [AWS Glue デベロッパーガイド」の「コンソールでのクローラの使用](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)*AWS Glue 」を参照してください。*

このステップでは、S3 バケット内のすべてのファイルをクロール AWS Glue し、パーティションテーブルを作成するクローラを にセットアップします AWS Glue 。

**注記**  
AWS Entity Resolution は現在、 に登録されている Amazon S3 ロケーションをサポートしていません AWS Lake Formation。

**パーティション分割された AWS Glue テーブルを作成するには**

1. にサインイン AWS マネジメントコンソール し、[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) で AWS Glue コンソールを開きます。

1. ナビゲーションバーから、**[クローラ]** を選択します。

1. リストから S3 バケットを選択し、**クローラの作成**を選択します。

1. **クローラのプロパティの設定**ページで、クローラ**名**、オプション**の説明**を入力し、次**へ**を選択します。

1. 引き続き **[クローラを追加]** ページで、詳細を指定します。

1. **[IAM ロールの選択]** ページで **[既存の IAM ロールを選択]** を選択し **[次へ]** 選択します。

   **[IAM ロールを作成する]** を選択することも、必要に応じて管理者に IAM ロールを作成してもらうこともできます。

1. **[このクローラのスケジュールを設定する]** で、**[頻度]** をデフォルト (**[オンデマンドで実行]**) のままにして、**[次へ]** を選択します。

1. **クローラの出力を設定する **で、 AWS Glue データベースを入力し、**次へ** を選択します。

1. すべての詳細を確認し、**完了**を選択します。

1. **[クローラ]** ページで、S3 バケットの横にあるチェックボックスをオンにし、**[クローラの実行]** を選択します。

1. クローラの実行が完了したら、 AWS Glue ナビゲーションバーで**データベース**を選択し、データベース名を選択します。

1. **データベース**ページの**テーブル**で、パーティション化するテーブルを選択します。

1. **テーブルの概要**で、**アクション**ドロップダウンを選択し、**テーブルの編集**を選択します。

   1. **テーブルプロパティ**で、**追加** を選択します。

   1. 新しい**キー**には、「」と入力します**aerPushDownPredicateString**。

   1. 新しい**値**には、 と入力します**'<PartitionKey>=<PartitionValue'**。

   1.  AWS Glue データベース名と AWS Glue テーブル名を書き留めます。

これで次の作業に進むことができます。
+ [スキーママッピングを作成し](create-schema-mapping.md)、1 [つの の ID マッピングワークフローを作成します AWS アカウント](creating-id-mapping-workflow-same-account.md)。
+ [ID 名前空間ソースを作成し](create-id-namespace-source.md)、[ID 名前空間ターゲットを作成し](create-id-namespace-target.md)、2 [つの にまたがる ID マッピングワークフローを作成します AWS アカウント](creating-id-mapping-workflow-two-accounts.md)。

# サードパーティーの入力データの準備
<a name="prepare-third-party-input-data"></a>

サードパーティーのデータサービスは、既知の識別子と照合できる識別子を提供します。

AWS Entity Resolution は現在、以下のサードパーティーのデータプロバイダーサービスをサポートしています。


**データプロバイダーサービス**  

| 会社名 | 使用可能 AWS リージョン | 識別子 | 
| --- | --- | --- | 
| LiveRamp | 米国東部 (バージニア北部) (us-east-1)、米国東部 (オハイオ) (us-east-2)、米国西部 (オレゴン) (us-west-2) | ランプ ID | 
| TransUnion | 米国東部 (バージニア北部) (us-east-1)、米国東部 (オハイオ) (us-east-2)、米国西部 (オレゴン) (us-west-2) | TransUnion 個人 ID と世帯 IDs | 
| 統合 ID 2.0 | 米国東部 (バージニア北部) (us-east-1)、米国東部 (オハイオ) (us-east-2)、米国西部 (オレゴン) (us-west-2) | raw UID 2 | 

次の手順では、[プロバイダーのサービスベースのマッチングワークフロー](glossary.md#provider-service-matching)または[プロバイダーのサービスベースの ID マッピングワークフロー](create-IDMW-provider-services-one-acct.md)を使用するようにサードパーティーデータを準備する方法について説明します。

**Topics**
+ [ステップ 1: でプロバイダーサービスをサブスクライブする AWS Data Exchange](#subscribe-provider-service)
+ [ステップ 2: サードパーティーのデータテーブルを準備する](#prepare-third-party-data-tables)
+ [ステップ 3: 入力データテーブルをサポートされているデータ形式で保存する](#save-third-party-data-tables)
+ [ステップ 4: 入力データテーブルを Amazon S3 にアップロードする](#upload-third-party-data-tables)
+ [ステップ 5: AWS Glue テーブルを作成する](#create-glue-table-third-party-data-tables)

## ステップ 1: でプロバイダーサービスをサブスクライブする AWS Data Exchange
<a name="subscribe-provider-service"></a>

を通じてプロバイダーサービスにサブスクリプションがある場合は AWS Data Exchange、次のいずれかのプロバイダーサービスで一致するワークフローを実行して、既知の識別子を任意のプロバイダーと一致させることができます。データは、優先プロバイダーによって定義された一連の入力と照合されます。

でプロバイダーサービスをサブスクライブするには AWS Data Exchange

1. プロバイダーのリストを表示します AWS Data Exchange。次のプロバイダーリストを利用できます。
   + LiveRamp
     + [LiveRamp ID の解決](https://aws.amazon.com/marketplace/pp/prodview-v4557zxjo6ykq)
     + [LiveRamp のトランスコーディング](https://aws.amazon.com/marketplace/pp/prodview-bpp2fvfcxk2kg)
   + TransUnion
     + TruAudience アイデンティティ解決とエンリッチメント
   + 統合 ID 2.0
     + [統合 ID 2.0 ID 解決](https://aws.amazon.com/marketplace/pp/prodview-66zqls7iqsm6o?sr=0-4&ref_=beagle&applicationId=AWSMPContessa#offers)

1. オファータイプに応じて、次のいずれかの手順を実行します。
   + **プライベートオファー** – プロバイダーと既存の関係がある場合は、*AWS Data Exchange 「 ユーザーガイド*[」の「プライベート製品とオファー](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-private-offer.html)」の手順に従って、プライベートオファーを受け入れます AWS Data Exchange。
   + **独自のサブスクリプションを使用する** – プロバイダーに既存のデータサブスクリプションがある場合は、*AWS Data Exchange 「 ユーザーガイド*」の[「Bring Your Own Subscription (BYOS)](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-byos-offer.html) offers」手順に従って BYOS オファーを受け入れます AWS Data Exchange。

1. でプロバイダーサービスをサブスクライブしたら AWS Data Exchange、そのプロバイダーサービスと一致するワークフローまたは ID マッピングワークフローを作成できます。

APIs*AWS Data Exchange 「 ユーザーガイド*」の[「 API 製品へのアクセス](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribing-to-product.html#use-API-product)」を参照してください。

## ステップ 2: サードパーティーのデータテーブルを準備する
<a name="prepare-third-party-data-tables"></a>

各サードパーティーサービスには、マッチングワークフローを成功させるのに役立つ推奨事項とガイドラインのセットがあります。

サードパーティーのデータテーブルを準備するには、次の表を参照してください。


**データプロバイダーサービスのガイドライン**  

| プロバイダーサービス | 一意の ID が必要ですか? | アクション | 
| --- | --- | --- | 
| LiveRamp | はい |  以下のことを確認してください。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| TransUnion | はい |  入力ビューの`string`型列が以下であることを確認します。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| 統合 ID 2.0 | はい |  以下のことを確認してください。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/entityresolution/latest/userguide/prepare-third-party-input-data.html)  特定の E メールまたは電話番号は、リクエストを行ったユーザーに関係なく、任意の時点で同じ raw UID2 値になります。 Raw UID2sは、1 年に約 1 回ローテーションされるソルトバケットからソルトを追加することで作成され、それに伴って raw UID2 もローテーションされます。異なるソルトバケットは年間を通じて異なる時間にローテーションします。 AWS Entity Resolution は現在、ローテーションするソルトバケットと未加工UID2s を追跡しないため、未加工の UID2s毎日再生成することをお勧めします。詳細については、[UID2s「増分更新のために UID2 を更新する頻度](https://unifiedid.com/docs/getting-started/gs-faqs#how-often-should-uid2s-be-refreshed-for-incremental-updates)」を参照してください。   | 

## ステップ 3: 入力データテーブルをサポートされているデータ形式で保存する
<a name="save-third-party-data-tables"></a>

サポートされているデータ形式でサードパーティーの入力データを既に保存している場合は、このステップをスキップできます。

を使用するには AWS Entity Resolution、入力データが が AWS Entity Resolution サポートする形式である必要があります。

AWS Entity Resolution は、次のデータ形式をサポートしています。
+ カンマ区切り値 (CSV)
**注記**  
LiveRamp は CSV ファイルのみをサポートしています。
+ Parquet

## ステップ 4: 入力データテーブルを Amazon S3 にアップロードする
<a name="upload-third-party-data-tables"></a>

Amazon S3 にサードパーティーのデータテーブルがすでにある場合は、このステップをスキップできます。

**注記**  
入力データは、S3 がサポートされている商用パーティションの任意のリージョンの Amazon S3 リソースに保存できます。 AWS このデータは、別のリージョンから、または一致するワークフローを実行する AWS アカウント ときにアクセスできます。

**入力データテーブルを Amazon S3 にアップロードするには**

1. にサインイン AWS マネジメントコンソール し、[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/) で Amazon S3 コンソールを開きます。

1. **バケット**を選択し、データテーブルを保存するバケットを選択します。

1. **[アップロード]** を選択し、プロンプトに従います。

1. **[オブジェクト]** タブを選択し、データが保存されているプレフィックスを表示します。フォルダの名前を書き留めます。

   フォルダを選択して、データテーブルを表示できます。

## ステップ 5: AWS Glue テーブルを作成する
<a name="create-glue-table-third-party-data-tables"></a>

Amazon S3 の入力データは、 でカタログ化 AWS Glue され、 AWS Glue テーブルとして表される必要があります。Amazon S3 を入力として AWS Glue テーブルを作成する方法の詳細については、「 [AWS Glue デベロッパーガイド」の「コンソールでのクローラの使用](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)*AWS Glue 」を参照してください。*

**注記**  
AWS Entity Resolution はパーティションテーブルをサポートしていません。

このステップでは、S3 バケット内のすべてのファイルをクロールして AWS Glue AWS Glue テーブルを作成するクローラを にセットアップします。

**注記**  
AWS Entity Resolution は現在、 に登録されている Amazon S3 ロケーションをサポートしていません AWS Lake Formation。

**AWS Glue テーブルを作成するには**

1. にサインイン AWS マネジメントコンソール し、[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) で AWS Glue コンソールを開きます。

1. ナビゲーションバーから、**[クローラ]** を選択します。

1. リストから S3 バケットを選択し、**[クローラを追加]** を選択します。

1. **[クローラを追加]** ページで **[クローラの名前]** を入力し、**[次へ]** を選択します。

1. 引き続き **[クローラを追加]** ページで、詳細を指定します。

1. **[IAM ロールの選択]** ページで **[既存の IAM ロールを選択]** を選択し **[次へ]** 選択します。

   **[IAM ロールを作成する]** を選択することも、必要に応じて管理者に IAM ロールを作成してもらうこともできます。

1. **[このクローラのスケジュールを設定する]** で、**[頻度]** をデフォルト (**[オンデマンドで実行]**) のままにして、**[次へ]** を選択します。

1. **クローラの出力を設定する **で、 AWS Glue データベースを入力し、次**へ** を選択します。

1. 詳細を確認し、**[完了]** を選択します。

1. **[クローラ]** ページで、S3 バケットの横にあるチェックボックスをオンにし、**[クローラの実行]** を選択します。

1. クローラの実行が完了したら、 AWS Glue ナビゲーションバーで**データベース**を選択し、データベース名を選択します。

1. **[データベース]** ページで、**[\$1データベース名\$1 のテーブル]** を選択します。

   1.  AWS Glue データベース内のテーブルを表示します。

   1. テーブルのスキーマを表示するには、特定のテーブルを選択します。

   1.  AWS Glue データベース名と AWS Glue テーブル名を書き留めます。

これで、スキーママッピングを作成する準備ができました。詳細については、「[スキーママッピングの作成](create-schema-mapping.md)」を参照してください。