

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Préparer des tableaux de données d'entrée
<a name="prepare-data-tables"></a>

Dans Résolution des entités AWS, chacune de vos *tables de données d'entrée* contient des enregistrements source. Ces dossiers contiennent des identifiants de consommateurs tels que le prénom, le nom de famille, l'adresse e-mail ou le numéro de téléphone. Ces enregistrements source peuvent être mis en correspondance avec d'autres enregistrements source que vous fournissez dans la même table de données ou dans d'autres tables de données d'entrée. Chaque enregistrement doit avoir un identifiant d'enregistrement unique ([Identifiant unique](glossary.md#unique-id-defn)) et vous devez le définir comme clé primaire lors de la création d'un mappage de schéma à l'intérieur de celui-ci Résolution des entités AWS.

Chaque table de données d'entrée est disponible sous forme de AWS Glue table soutenue par Amazon S3. Vous pouvez utiliser vos données de première partie déjà présentes dans Amazon S3 ou importer des tables de données provenant d'autres fournisseurs de SaaS tiers dans Amazon S3. Après avoir chargé les données sur Amazon S3, vous pouvez utiliser un AWS Glue robot d'exploration pour créer une table de données dans le AWS Glue Data Catalog. Vous pouvez ensuite utiliser le tableau de données comme entrée pour Résolution des entités AWS.

Les sections suivantes décrivent comment préparer des données de première partie et des données de tiers.

**Topics**
+ [Préparation des données d'entrée de première partie](prepare-input-data.md)
+ [Préparation de données d'entrée tierces](prepare-third-party-input-data.md)

# Préparation des données d'entrée de première partie
<a name="prepare-input-data"></a>

[Les étapes suivantes décrivent comment préparer des données de première partie à utiliser dans un flux de travail de correspondance basé sur des [règles, un flux de travail de correspondance basé sur](creating-matching-workflow-rule-based.md) le [machine learning ou un flux de travail de mappage](create-matching-workflow-ml.md) d'identifiants.](create-id-mapping-workflow.md) 

## Étape 1 : préparer des tableaux de données de première partie
<a name="prepare-first-party-tables"></a>

Chaque type de flux de travail correspondant comporte un ensemble différent de recommandations et de directives pour garantir le succès.

Pour préparer des tableaux de données de première partie, consultez le tableau suivant : 


**Directives relatives aux tableaux de données de première partie**  

| Type de flux de travail | Obligatoire | 
| --- | --- | 
| Flux de travail de correspondance basé sur des règles avec type de règle avancé |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/entityresolution/latest/userguide/prepare-input-data.html)  | 
| flux de travail de correspondance basé sur des règles avec type de règle simple |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/entityresolution/latest/userguide/prepare-input-data.html)  | 
| flux de travail de correspondance basé sur l'apprentissage automatique |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Workflow de mappage des identifiants  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/entityresolution/latest/userguide/prepare-input-data.html)  | 

## Étape 2 : Enregistrez votre tableau de données d'entrée dans un format de données pris en charge
<a name="save-input-data"></a>

Si vous avez déjà enregistré vos données d'entrée internes dans un format de données pris en charge, vous pouvez ignorer cette étape. 

Pour être utilisées Résolution des entités AWS, les données d'entrée doivent être dans un format Résolution des entités AWS compatible. 

Résolution des entités AWS prend en charge les formats de données suivants :
+ valeur séparée par des virgules (CSV)
+ Parquet

## Étape 3 : Chargez votre table de données d'entrée sur Amazon S3
<a name="upload-to-s3"></a>

Si vous disposez déjà de votre table de données de première partie dans Amazon S3, vous pouvez ignorer cette étape.

**Note**  
Vous pouvez stocker les données d'entrée dans Amazon S3 Resources dans n'importe quelle région de la partition AWS commerciale où S3 est pris en charge. Ces données sont accessibles depuis une autre région ou Compte AWS lors de l'exécution du flux de travail correspondant.

**Pour télécharger votre tableau de données d'entrée sur Amazon S3**

1. Connectez-vous à la console Amazon S3 AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/).

1. Choisissez **Buckets**, puis choisissez un bucket pour stocker votre table de données. 

1. Choisissez **Télécharger**, puis suivez les instructions.

1. Choisissez l'onglet **Objets** pour afficher le préfixe dans lequel vos données sont stockées. Notez le nom du dossier.

   Vous pouvez sélectionner le dossier pour afficher le tableau de données.

## Étape 4 : Création d'une AWS Glue table
<a name="create-glue-table"></a>

**Note**  
Si vous avez besoin de AWS Glue tables partitionnées, passez à[Étape 4 : Création d'une table partitionnée AWS Glue](#create-partitioned-glue-table).

Les données d'entrée dans Amazon S3 doivent être cataloguées AWS Glue et représentées sous forme de AWS Glue tableau. Pour plus d'informations sur la création d'une AWS Glue table avec Amazon S3 en entrée, consultez la section Utilisation des [robots d'exploration sur la AWS Glue console](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) dans le *manuel du AWS Glue développeur*.

Au cours de cette étape, vous configurez un robot d'exploration AWS Glue qui analyse tous les fichiers de votre compartiment S3 et crée une AWS Glue table. 

**Note**  
Résolution des entités AWS ne prend actuellement pas en charge les sites Amazon S3 enregistrés auprès de AWS Lake Formation.

**Pour créer une AWS Glue table**

1. Connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Dans la barre de navigation, sélectionnez **Crawlers**.

1. Sélectionnez votre compartiment S3 dans la liste, puis choisissez **Create crawler**.

1. **Sur la page **Définir les propriétés du robot d'exploration**, entrez le **nom du** robot de recherche (**description** facultative), puis choisissez Next.**

1. Parcourez la **page Ajouter un robot** d'exploration en spécifiant les détails. 

1. **Sur la page **Choisir un rôle IAM**, **choisissez Choisir un rôle IAM existant, puis cliquez** sur Suivant.**

   Vous pouvez également choisir **Créer un rôle IAM ou demander** à votre administrateur de créer le rôle IAM si nécessaire.

1. Pour **Créer un calendrier pour ce robot d'exploration**, conservez la **fréquence** par défaut (**Exécuter à la demande**), puis choisissez **Next**.

1. Pour **Configurer la sortie du robot d'**exploration, entrez dans la AWS Glue base de données, puis choisissez **Next**.

1. Vérifiez tous les détails, puis choisissez **Terminer**.

1. Sur la page **Crawlers**, cochez la case à côté de votre compartiment S3, puis choisissez **Run crawler**.

1. Une fois l'exécution du robot d'exploration terminée, dans la barre de AWS Glue navigation, choisissez **Databases**, puis le nom de votre base de données.

1. Sur la page **Base de données**, sélectionnez **Tables dans \$1nom de votre base de données\$1**.

   1. Consultez les tables de la AWS Glue base de données.

   1. Pour afficher le schéma d'une table, sélectionnez une table spécifique.

   1. Notez le nom de la AWS Glue base de données et le nom de AWS Glue la table.

Vous êtes maintenant prêt à créer un mappage de schéma. Pour de plus amples informations, veuillez consulter [Création d'un mappage de schéma](create-schema-mapping.md).

## Étape 4 : Création d'une table partitionnée AWS Glue
<a name="create-partitioned-glue-table"></a>

**Note**  
La fonctionnalité de AWS Glue partitionnement n' Résolution des entités AWS est prise en charge que dans les flux de travail de mappage d'identifiants. Cette fonction de AWS Glue partitionnement vous permet de choisir des partitions spécifiques pour le traitement. Résolution des entités AWS  
Si vous n'avez pas besoin de AWS Glue tables partitionnées, vous pouvez ignorer cette étape.

Une AWS Glue table partitionnée reflète automatiquement les nouvelles partitions de la AWS Glue table lorsque vous ajoutez de nouveaux dossiers à la structure de données (par exemple, un nouveau dossier journalier de moins d'un mois). 

Lorsque vous créez une AWS Glue table partitionnée dans Résolution des entités AWS, vous pouvez spécifier les partitions que vous souhaitez traiter dans un flux de travail de mappage d'identifiants. Ensuite, chaque fois que vous exécutez le flux de travail de mappage des identifiants, seules les données de ces partitions sont traitées, au lieu de traiter toutes les données de la AWS Glue table entière. Cette fonctionnalité permet un traitement des données plus précis, efficace et rentable Résolution des entités AWS, vous offrant ainsi un contrôle et une flexibilité accrus dans la gestion des tâches de résolution de vos entités. 

Vous pouvez créer une AWS Glue table partitionnée pour le compte source dans un flux de travail de mappage d'identifiants. 

Vous devez d'abord cataloguer les données d'entrée dans Amazon S3 AWS Glue et les représenter sous forme de AWS Glue table. Pour plus d'informations sur la création d'une AWS Glue table avec Amazon S3 en entrée, consultez la section Utilisation des [robots d'exploration sur la AWS Glue console](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) dans le *manuel du AWS Glue développeur*.

Au cours de cette étape, vous configurez un robot d'exploration AWS Glue qui analyse tous les fichiers de votre compartiment S3, puis vous créez une table AWS Glue partitionnée. 

**Note**  
Résolution des entités AWS ne prend actuellement pas en charge les sites Amazon S3 enregistrés auprès de AWS Lake Formation.

**Pour créer une table partitionnée AWS Glue**

1. Connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Dans la barre de navigation, sélectionnez **Crawlers**.

1. Sélectionnez votre compartiment S3 dans la liste, puis choisissez **Create crawler**.

1. **Sur la page **Définir les propriétés du robot** d'exploration, entrez le **nom du** robot, une **description** facultative, puis choisissez Suivant.**

1. Parcourez la **page Ajouter un robot** d'exploration en spécifiant les détails. 

1. **Sur la page **Choisir un rôle IAM**, **choisissez Choisir un rôle IAM existant, puis cliquez** sur Suivant.**

   Vous pouvez également choisir **Créer un rôle IAM ou demander** à votre administrateur de créer le rôle IAM si nécessaire.

1. Pour **Créer un calendrier pour ce robot d'exploration**, conservez la **fréquence** par défaut (**Exécuter à la demande**), puis choisissez **Next**.

1. Pour **Configurer la sortie du robot d'**exploration, entrez dans la AWS Glue base de données, puis choisissez **Next**.

1. Vérifiez tous les détails, puis choisissez **Terminer**.

1. Sur la page **Crawlers**, cochez la case à côté de votre compartiment S3, puis choisissez **Run crawler**.

1. Une fois l'exécution du robot d'exploration terminée, dans la barre de AWS Glue navigation, choisissez **Databases**, puis le nom de votre base de données.

1. Sur la page **Base de données**, sous **Tables**, choisissez la table à partitionner.

1. Dans l'**aperçu du tableau**, sélectionnez le menu déroulant **Actions**, puis choisissez **Modifier le tableau**.

   1. Sous **Propriétés du tableau**, sélectionnez **Ajouter**.

   1. Pour la nouvelle **clé**, entrez**aerPushDownPredicateString**.

   1. Pour la nouvelle **valeur**, entrez**'<PartitionKey>=<PartitionValue'**.

   1. Notez le nom de la AWS Glue base de données et le nom de AWS Glue la table.

Vous êtes maintenant prêt à : 
+ [Créez un mappage de schéma](create-schema-mapping.md), puis [créez un flux de travail de mappage d'identifiants pour l'un d'entre eux Compte AWS](creating-id-mapping-workflow-same-account.md).
+ [Créez une source d'espace de noms d'ID](create-id-namespace-source.md), [créez une cible d'espace de noms d'ID](create-id-namespace-target.md), puis [créez un flux de travail de mappage d'ID sur deux](creating-id-mapping-workflow-two-accounts.md). Comptes AWS

# Préparation de données d'entrée tierces
<a name="prepare-third-party-input-data"></a>

Les services de données tiers fournissent des identifiants qui peuvent être mis en correspondance avec vos identifiants connus. 

Résolution des entités AWS prend actuellement en charge les services de fournisseurs de données tiers suivants :


**Services de fournisseurs de données**  

| Nom de l'entreprise | Disponible Régions AWS | Identifiant | 
| --- | --- | --- | 
| LiveRamp | USA Est (Virginie du Nord) (us-east-1), USA Est (Ohio) (us-east-2) et USA Ouest (Oregon) (us-west-2) | Identifiant de la rampe | 
| TransUnion | USA Est (Virginie du Nord) (us-east-1), USA Est (Ohio) (us-east-2) et USA Ouest (Oregon) (us-west-2) | TransUnion Individuel et ménage IDs | 
| Unified ID 2.0 | USA Est (Virginie du Nord) (us-east-1), USA Est (Ohio) (us-east-2) et USA Ouest (Oregon) (us-west-2) | UID brut 2 | 

Les étapes suivantes décrivent comment préparer des données tierces pour utiliser un flux de travail de [correspondance basé sur le service du fournisseur ou un flux](glossary.md#provider-service-matching) de travail de [mappage des identifiants basé sur le service du fournisseur](create-IDMW-provider-services-one-acct.md). 

**Topics**
+ [Étape 1 : Abonnez-vous à un service fournisseur sur AWS Data Exchange](#subscribe-provider-service)
+ [Étape 2 : Préparation de tables de données tierces](#prepare-third-party-data-tables)
+ [Étape 3 : Enregistrez votre tableau de données d'entrée dans un format de données pris en charge](#save-third-party-data-tables)
+ [Étape 4 : Chargez votre table de données d'entrée sur Amazon S3](#upload-third-party-data-tables)
+ [Étape 5 : Création d'une AWS Glue table](#create-glue-table-third-party-data-tables)

## Étape 1 : Abonnez-vous à un service fournisseur sur AWS Data Exchange
<a name="subscribe-provider-service"></a>

Si vous avez souscrit un abonnement auprès d'un fournisseur de services AWS Data Exchange, vous pouvez exécuter un flux de travail de correspondance avec l'un des services fournisseurs suivants afin de faire correspondre vos identifiants connus à ceux de votre fournisseur préféré. Vos données seront mises en correspondance avec un ensemble d'entrées définies par votre fournisseur préféré.

Pour souscrire au service d'un fournisseur sur AWS Data Exchange

1. Consultez la liste des fournisseurs sur AWS Data Exchange. Les listes de fournisseurs suivantes sont disponibles :
   + LiveRamp
     + [LiveRampRésolution d'identité](https://aws.amazon.com/marketplace/pp/prodview-v4557zxjo6ykq)
     + [LiveRampTranscodage](https://aws.amazon.com/marketplace/pp/prodview-bpp2fvfcxk2kg)
   + TransUnion
     + TruAudience Résolution et enrichissement de l'identité
   + Unified ID 2.0
     + [Résolution d'identité Unified ID 2.0](https://aws.amazon.com/marketplace/pp/prodview-66zqls7iqsm6o?sr=0-4&ref_=beagle&applicationId=AWSMPContessa#offers)

1. Effectuez l'une des étapes suivantes, en fonction de votre type d'offre.
   + **Offre privée** — Si vous entretenez déjà une relation avec un fournisseur, suivez la procédure relative aux [produits et offres privés](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-private-offer.html) dans le *guide de AWS Data Exchange l'utilisateur* pour accepter une offre privée sur AWS Data Exchange.
   + **Apportez votre propre abonnement** — Si vous avez déjà un abonnement de données auprès d'un fournisseur, suivez la procédure relative aux [offres BYOS (Bring Your Own Subscription)](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-byos-offer.html) du *guide de l'AWS Data Exchange utilisateur* pour accepter une offre BYOS sur. AWS Data Exchange

1. Une fois que vous vous êtes abonné à un service fournisseur le AWS Data Exchange, vous pouvez créer un flux de travail correspondant ou un flux de travail de mappage d'identifiants avec ce service fournisseur. 

Pour plus d'informations sur la manière d'accéder à un produit fournisseur qui contient APIs, consultez la section [Accès à un produit API](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribing-to-product.html#use-API-product) dans le *guide de AWS Data Exchange l'utilisateur*.

## Étape 2 : Préparation de tables de données tierces
<a name="prepare-third-party-data-tables"></a>

Chaque service tiers dispose d'un ensemble différent de recommandations et de directives pour garantir un flux de travail de correspondance réussi. 

Pour préparer des tableaux de données tiers, consultez le tableau suivant :


**Directives relatives aux services des fournisseurs de données**  

| Service du fournisseur | Vous avez besoin d'un identifiant unique ? | Actions | 
| --- | --- | --- | 
| LiveRamp | Oui |  Vérifiez les points suivants : [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| TransUnion | Oui |  Assurez-vous que les colonnes suivantes constituent une colonne `string` de type dans la vue de saisie :  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| Unified ID 2.0 | Oui |  Vérifiez les points suivants : [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/entityresolution/latest/userguide/prepare-third-party-input-data.html)  Un e-mail ou un numéro de téléphone spécifique, à un moment donné, donne la même UID2 valeur brute, quelle que soit la personne qui a fait la demande.  UID2s Les produits bruts sont créés en ajoutant des sels provenant de seaux à sel qui sont alternés environ une fois par an, ce qui permet de UID2 faire également tourner le brut avec celui-ci. Les différents seaux à sel changent à différents moments de l'année. Résolution des entités AWS ne tient actuellement pas compte de la rotation des seaux à sel et du sel brut UID2s. Il est donc recommandé de régénérer le sel brut UID2s tous les jours. Pour plus d'informations, voir À [quelle fréquence faut-il actualiser les mises UID2s à jour pour les mises à jour incrémentielles ?](https://unifiedid.com/docs/getting-started/gs-faqs#how-often-should-uid2s-be-refreshed-for-incremental-updates) dans la documentation de l'UID 2.0.   | 

## Étape 3 : Enregistrez votre tableau de données d'entrée dans un format de données pris en charge
<a name="save-third-party-data-tables"></a>

Si vous avez déjà enregistré vos données d'entrée tierces dans un format de données pris en charge, vous pouvez ignorer cette étape. 

Pour être utilisées Résolution des entités AWS, les données d'entrée doivent être dans un format Résolution des entités AWS compatible. 

Résolution des entités AWS prend en charge les formats de données suivants :
+ valeur séparée par des virgules (CSV)
**Note**  
LiveRamp ne prend en charge que les fichiers CSV.
+ Parquet

## Étape 4 : Chargez votre table de données d'entrée sur Amazon S3
<a name="upload-third-party-data-tables"></a>

Si vous avez déjà votre table de données tierce dans Amazon S3, vous pouvez ignorer cette étape.

**Note**  
Vous pouvez stocker les données d'entrée dans les ressources Amazon S3 de n'importe quelle région de la partition AWS commerciale où S3 est pris en charge. Ces données sont accessibles depuis une autre région ou Compte AWS lors de l'exécution du flux de travail correspondant.

**Pour télécharger votre tableau de données d'entrée sur Amazon S3**

1. Connectez-vous à la console Amazon S3 AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/).

1. Choisissez **Buckets**, puis choisissez un bucket pour stocker votre table de données. 

1. Choisissez **Télécharger**, puis suivez les instructions.

1. Choisissez l'onglet **Objets** pour afficher le préfixe dans lequel vos données sont stockées. Notez le nom du dossier.

   Vous pouvez sélectionner le dossier pour afficher le tableau de données.

## Étape 5 : Création d'une AWS Glue table
<a name="create-glue-table-third-party-data-tables"></a>

Les données d'entrée dans Amazon S3 doivent être cataloguées AWS Glue et représentées sous forme de AWS Glue tableau. Pour plus d'informations sur la création d'une AWS Glue table avec Amazon S3 en entrée, consultez la section Utilisation des [robots d'exploration sur la AWS Glue console](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) dans le *manuel du AWS Glue développeur*.

**Note**  
Résolution des entités AWS ne prend pas en charge les tables partitionnées.

Au cours de cette étape, vous configurez un robot d'exploration AWS Glue qui analyse tous les fichiers de votre compartiment S3 et crée une AWS Glue table. 

**Note**  
Résolution des entités AWS ne prend actuellement pas en charge les sites Amazon S3 enregistrés auprès de AWS Lake Formation.

**Pour créer une AWS Glue table**

1. Connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Dans la barre de navigation, sélectionnez **Crawlers**.

1. Sélectionnez votre compartiment S3 dans la liste, puis choisissez **Ajouter un robot d'exploration**.

1. **Sur la page **Ajouter un robot** d'exploration, entrez un **nom de robot**, puis choisissez Next.**

1. Parcourez la **page Ajouter un robot** d'exploration en spécifiant les détails. 

1. **Sur la page **Choisir un rôle IAM**, **choisissez Choisir un rôle IAM existant, puis cliquez** sur Suivant.**

   Vous pouvez également choisir **Créer un rôle IAM ou demander** à votre administrateur de créer le rôle IAM si nécessaire.

1. Pour **Créer un calendrier pour ce robot d'exploration**, conservez la **fréquence** par défaut (**Exécuter à la demande**), puis choisissez **Next**.

1. Pour **Configurer la sortie du robot d'**exploration, entrez dans la AWS Glue base de données, puis choisissez **Next**.

1. Passez en revue tous les détails, puis choisissez **Terminer**.

1. Sur la page **Crawlers**, cochez la case à côté de votre compartiment S3, puis choisissez **Run crawler**.

1. Une fois l'exécution du robot d'exploration terminée, dans la barre de AWS Glue navigation, choisissez **Databases**, puis le nom de votre base de données.

1. Sur la page **Base de données**, sélectionnez **Tables dans \$1nom de votre base de données\$1**.

   1. Consultez les tables de la AWS Glue base de données.

   1. Pour afficher le schéma d'une table, sélectionnez une table spécifique.

   1. Notez le nom de la AWS Glue base de données et le nom de AWS Glue la table.

Vous êtes maintenant prêt à créer un mappage de schéma. Pour de plus amples informations, veuillez consulter [Création d'un mappage de schéma](create-schema-mapping.md).