

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Prepare tabelas de dados de entrada
<a name="prepare-data-tables"></a>

Em AWS Entity Resolution, cada uma de suas *tabelas de dados de entrada* contém registros de origem. Esses registros contêm identificadores de consumidores, como nome, sobrenome, endereço de e-mail ou número de telefone. Esses registros de origem podem ser combinados com outros registros de origem fornecidos na mesma tabela de dados ou em outras tabelas de dados de entrada. Cada registro deve ter uma ID de registro exclusiva ([ID exclusivo](glossary.md#unique-id-defn)) e você deve defini-la como uma chave primária ao criar um mapeamento de esquema dentro AWS Entity Resolution dela.

Cada tabela de dados de entrada está disponível como uma AWS Glue tabela apoiada pelo Amazon S3. Você pode usar seus dados primários que já estão no Amazon S3 ou importar tabelas de dados de outros provedores de SaaS terceirizados para o Amazon S3. Depois de fazer o upload dos dados para o Amazon S3, você pode usar um AWS Glue rastreador para criar uma tabela de dados no. AWS Glue Data Catalog Em seguida, você pode usar a tabela de dados como entrada para AWS Entity Resolution.

As seções a seguir descrevem como preparar dados primários e dados de terceiros.

**Topics**
+ [Preparando dados de entrada primários](prepare-input-data.md)
+ [Preparando dados de entrada de terceiros](prepare-third-party-input-data.md)

# Preparando dados de entrada primários
<a name="prepare-input-data"></a>

[As etapas a seguir descrevem como preparar dados primários para uso em um fluxo de trabalho de correspondência baseado em [regras, fluxo de trabalho de correspondência baseado](creating-matching-workflow-rule-based.md)[em aprendizado de máquina ou fluxo de trabalho de mapeamento](create-matching-workflow-ml.md) de ID.](create-id-mapping-workflow.md) 

## Etapa 1: Preparar tabelas de dados primárias
<a name="prepare-first-party-tables"></a>

Cada tipo de fluxo de trabalho correspondente tem um conjunto diferente de recomendações e diretrizes para ajudar a garantir o sucesso.

Para preparar tabelas de dados primárias, consulte a tabela a seguir: 


**Diretrizes de tabelas de dados primárias**  

| Tipo de fluxo de trabalho | Obrigatório | 
| --- | --- | 
| Fluxo de trabalho de correspondência baseado em regras com o tipo de regra avançada |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/entityresolution/latest/userguide/prepare-input-data.html)  | 
| fluxo de trabalho de correspondência baseado em regras com tipo de regra simples |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/entityresolution/latest/userguide/prepare-input-data.html)  | 
| fluxo de trabalho de correspondência baseado em aprendizado de máquina |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Fluxo de trabalho de mapeamento de ID  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/entityresolution/latest/userguide/prepare-input-data.html)  | 

## Etapa 2: Salve sua tabela de dados de entrada em um formato de dados compatível
<a name="save-input-data"></a>

Se você já salvou seus dados de entrada primários em um formato de dados compatível, você pode pular esta etapa. 

Para serem usados AWS Entity Resolution, os dados de entrada devem estar em um formato AWS Entity Resolution compatível. 

AWS Entity Resolution suporta os seguintes formatos de dados:
+ valor separado por vírgula (CSV)
+ Parquet

## Etapa 3: Faça o upload da sua tabela de dados de entrada para o Amazon S3
<a name="upload-to-s3"></a>

Se você já tem sua tabela de dados primários no Amazon S3, você pode pular esta etapa.

**nota**  
Você pode armazenar os dados de entrada nos recursos do Amazon S3 em qualquer região na partição AWS comercial em que o S3 é suportado. Esses dados podem ser acessados de uma região diferente ou Conta da AWS ao executar o fluxo de trabalho correspondente.

**Para carregar sua tabela de dados de entrada para o Amazon S3**

1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon S3 em. [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)

1. Escolha **Buckets** e, em seguida, escolha um bucket para armazenar sua tabela de dados. 

1. Escolha **Upload** e siga as instruções.

1. Escolha a guia **Objetos** para visualizar o prefixo do onde seus dados são armazenados. Anote o nome da pasta.

   Você pode selecionar a pasta para visualizar a tabela de dados.

## Etapa 4: criar uma AWS Glue tabela
<a name="create-glue-table"></a>

**nota**  
Se você precisar de AWS Glue tabelas particionadas, vá para. [Etapa 4: criar uma tabela particionada AWS Glue](#create-partitioned-glue-table)

Os dados de entrada no Amazon S3 devem ser catalogados AWS Glue e representados como uma tabela. AWS Glue *Para obter mais informações sobre como criar uma AWS Glue tabela com o Amazon S3 como entrada, consulte Como [trabalhar com rastreadores no AWS Glue console no Guia do desenvolvedor](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html).AWS Glue *

Nesta etapa, você configura um rastreador AWS Glue que rastreia todos os arquivos em seu bucket do S3 e cria uma tabela. AWS Glue 

**nota**  
AWS Entity Resolution atualmente não oferece suporte a locais do Amazon S3 registrados com. AWS Lake Formation

**Para criar uma AWS Glue tabela**

1. Faça login no Console de gerenciamento da AWS e abra o AWS Glue console em [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Na barra de navegação, selecione **Crawlers**.

1. Selecione seu bucket do S3 na lista e escolha **Criar rastreador**.

1. **Na página **Definir propriedades do rastreador**, insira uma **Descrição** opcional do **nome do** rastreador e escolha Avançar.**

1. Continue na **página Adicionar crawler**, especificando os detalhes. 

1. Na página **Escolher uma função do IAM**, **escolha Escolher um perfil do IAM existente** e, em seguida, escolha **Avançar**.

   Você também pode escolher **Criar um perfil do IAM** ou fazer com que seu administrador crie o perfil do IAM, se necessário.

1. Em **Criar uma programação para esse crawler**, mantenha a **Frequência** padrão (**Executar sob demanda**) e escolha **Avançar**.

1. **Em **Configurar a saída do rastreador**, insira o AWS Glue banco de dados e escolha Avançar.**

1. Revise todos os detalhes e escolha **Concluir**.

1. Na página **Crawlers**, marque a caixa de seleção ao lado do bucket S3 e escolha **Executar crawler**.

1. Depois que o rastreador terminar de ser executado, na barra de AWS Glue navegação, escolha **Bancos** de dados e, em seguida, escolha o nome do banco de dados.

1. Na página **Banco de dados**, escolha **Tabelas em \$1nome do seu banco de dados\$1**.

   1. Visualize as tabelas no AWS Glue banco de dados.

   1. Para visualizar o esquema de uma tabela, selecione uma tabela específica.

   1. Anote o nome do AWS Glue banco de dados e o nome AWS Glue da tabela.

Agora você está pronto para criar um mapeamento de esquema. Para obter mais informações, consulte [Criação de um mapeamento de esquema](create-schema-mapping.md).

## Etapa 4: criar uma tabela particionada AWS Glue
<a name="create-partitioned-glue-table"></a>

**nota**  
O recurso de AWS Glue particionamento em só AWS Entity Resolution é suportado em fluxos de trabalho de mapeamento de ID. Esse recurso AWS Glue de particionamento permite que você escolha partições específicas para processamento. AWS Entity Resolution  
Se você não precisar de AWS Glue tabelas particionadas, pule esta etapa.

Uma AWS Glue tabela particionada reflete automaticamente as novas partições na AWS Glue tabela quando você adiciona novas pastas à estrutura de dados (como uma nova pasta de dia em menos de um mês). 

Ao criar uma AWS Glue tabela particionada em AWS Entity Resolution, você pode especificar quais partições deseja processar em um fluxo de trabalho de mapeamento de ID. Então, toda vez que você executa o fluxo de trabalho de mapeamento de ID, somente os dados nessas partições são processados, em vez de processar todos os dados na AWS Glue tabela inteira. Esse recurso permite um processamento de dados mais preciso, eficiente e econômico AWS Entity Resolution, oferecendo maior controle e flexibilidade no gerenciamento de suas tarefas de resolução de entidades. 

Você pode criar uma AWS Glue tabela particionada para a conta de origem em um fluxo de trabalho de mapeamento de ID. 

Primeiro, você deve catalogar os dados de entrada no Amazon S3 AWS Glue e representá-los como uma AWS Glue tabela. *Para obter mais informações sobre como criar uma AWS Glue tabela com o Amazon S3 como entrada, consulte Como [trabalhar com rastreadores no AWS Glue console no Guia do desenvolvedor](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html).AWS Glue *

Nesta etapa, você configura um rastreador AWS Glue que rastreia todos os arquivos em seu bucket do S3 e, em seguida, cria uma tabela particionada. AWS Glue 

**nota**  
AWS Entity Resolution atualmente não oferece suporte a locais do Amazon S3 registrados com. AWS Lake Formation

**Para criar uma tabela particionada AWS Glue**

1. Faça login no Console de gerenciamento da AWS e abra o AWS Glue console em [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Na barra de navegação, selecione **Crawlers**.

1. Selecione seu bucket do S3 na lista e escolha **Criar rastreador**.

1. **Na página **Definir propriedades do rastreador**, insira um **Nome** do rastreador, uma **Descrição** opcional e escolha Avançar.**

1. Continue na **página Adicionar crawler**, especificando os detalhes. 

1. Na página **Escolher uma função do IAM**, **escolha Escolher um perfil do IAM existente** e, em seguida, escolha **Avançar**.

   Você também pode escolher **Criar um perfil do IAM** ou fazer com que seu administrador crie o perfil do IAM, se necessário.

1. Em **Criar uma programação para esse crawler**, mantenha a **Frequência** padrão (**Executar sob demanda**) e escolha **Avançar**.

1. **Em **Configurar a saída do rastreador**, insira o AWS Glue banco de dados e escolha Avançar.**

1. Revise todos os detalhes e escolha **Concluir**.

1. Na página **Crawlers**, marque a caixa de seleção ao lado do bucket S3 e escolha **Executar crawler**.

1. Depois que o rastreador terminar de ser executado, na barra de AWS Glue navegação, escolha **Bancos** de dados e, em seguida, escolha o nome do banco de dados.

1. Na página **Banco de dados**, em **Tabelas**, escolha a tabela a ser particionada.

1. Na **visão geral da tabela**, selecione o menu suspenso **Ações** e escolha **Editar** tabela.

   1. Em **Propriedades da tabela**, escolha **Adicionar**.

   1. Para a nova **chave**, insira**aerPushDownPredicateString**.

   1. Para o novo **Valor**, insira**'<PartitionKey>=<PartitionValue'**.

   1. Anote o nome do AWS Glue banco de dados e o nome AWS Glue da tabela.

Agora está tudo pronto para: 
+ [Crie um mapeamento de esquema](create-schema-mapping.md) e, em seguida, [crie um fluxo de trabalho de mapeamento de ID para um Conta da AWS](creating-id-mapping-workflow-same-account.md).
+ [Crie uma fonte de namespace de ID](create-id-namespace-source.md), [crie um destino de namespace de ID](create-id-namespace-target.md) e, em seguida, [crie um fluxo de trabalho de mapeamento de ID](creating-id-mapping-workflow-two-accounts.md) entre duas. Contas da AWS

# Preparando dados de entrada de terceiros
<a name="prepare-third-party-input-data"></a>

Os serviços de dados de terceiros fornecem identificadores que podem ser combinados com seus identificadores conhecidos. 

AWS Entity Resolution atualmente oferece suporte aos seguintes serviços de provedores de dados terceirizados:


**Serviços de provedores de dados**  

| Nome da empresa | Disponível Regiões da AWS | Identificador | 
| --- | --- | --- | 
| LiveRamp | Leste dos EUA (Norte da Virgínia) (us-east-1), Leste dos EUA (Ohio) (us-east-2) e Oeste dos EUA (Oregon) (us-west-2) | ID da rampa | 
| TransUnion | Leste dos EUA (Norte da Virgínia) (us-east-1), Leste dos EUA (Ohio) (us-east-2) e Oeste dos EUA (Oregon) (us-west-2) | TransUnion Indivíduo e doméstico IDs | 
| ID unificada 2.0 | Leste dos EUA (Norte da Virgínia) (us-east-1), Leste dos EUA (Ohio) (us-east-2) e Oeste dos EUA (Oregon) (us-west-2) | UID bruto 2 | 

As etapas a seguir descrevem como preparar dados de terceiros para usar um fluxo de trabalho de [correspondência baseado no serviço do provedor ou um fluxo](glossary.md#provider-service-matching) de trabalho de mapeamento de ID [baseado no serviço do provedor](create-IDMW-provider-services-one-acct.md). 

**Topics**
+ [Etapa 1: Assine um serviço de provedor em AWS Data Exchange](#subscribe-provider-service)
+ [Etapa 2: Preparar tabelas de dados de terceiros](#prepare-third-party-data-tables)
+ [Etapa 3: Salve sua tabela de dados de entrada em um formato de dados compatível](#save-third-party-data-tables)
+ [Etapa 4: Faça o upload da sua tabela de dados de entrada para o Amazon S3](#upload-third-party-data-tables)
+ [Etapa 5: criar uma AWS Glue tabela](#create-glue-table-third-party-data-tables)

## Etapa 1: Assine um serviço de provedor em AWS Data Exchange
<a name="subscribe-provider-service"></a>

Se você tiver uma assinatura com um serviço de provedor por meio de AWS Data Exchange, poderá executar um fluxo de trabalho correspondente com um dos seguintes serviços de provedor para combinar seus identificadores conhecidos com seu provedor preferido. Seus dados serão combinados com um conjunto de entradas definido pelo seu provedor preferido.

Para assinar um serviço de provedor em AWS Data Exchange

1. Veja a lista de provedores em AWS Data Exchange. As seguintes listas de fornecedores estão disponíveis:
   + LiveRamp
     + [LiveRampResolução de identidade](https://aws.amazon.com/marketplace/pp/prodview-v4557zxjo6ykq)
     + [LiveRampTranscodificação](https://aws.amazon.com/marketplace/pp/prodview-bpp2fvfcxk2kg)
   + TransUnion
     + TruAudience Resolução e enriquecimento de identidade
   + ID unificada 2.0
     + [Resolução de identidade unificada de ID 2.0](https://aws.amazon.com/marketplace/pp/prodview-66zqls7iqsm6o?sr=0-4&ref_=beagle&applicationId=AWSMPContessa#offers)

1. Conclua uma das etapas a seguir, dependendo do tipo de oferta.
   + **Oferta privada** — Se você já tem um relacionamento com um fornecedor, siga o procedimento de [produtos e ofertas privadas](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-private-offer.html) no *Guia AWS Data Exchange do usuário* para aceitar uma oferta privada em AWS Data Exchange.
   + **Traga sua própria assinatura** — Se você já tem uma assinatura de dados existente com um provedor, siga o procedimento de [ofertas Traga sua própria assinatura (BYOS)](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-byos-offer.html) no *Guia do AWS Data Exchange usuário* para aceitar uma oferta BYOS em. AWS Data Exchange

1. Depois de se inscrever em um serviço de provedor em AWS Data Exchange, você pode criar um fluxo de trabalho correspondente ou um fluxo de trabalho de mapeamento de ID com esse serviço de provedor. 

Para obter mais informações sobre como acessar um produto do provedor que contém APIs, consulte [Acessando um produto de API](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribing-to-product.html#use-API-product) no *Guia do AWS Data Exchange usuário*.

## Etapa 2: Preparar tabelas de dados de terceiros
<a name="prepare-third-party-data-tables"></a>

Cada serviço terceirizado tem um conjunto diferente de recomendações e diretrizes para ajudar a garantir um fluxo de trabalho de correspondência bem-sucedido. 

Para preparar tabelas de dados de terceiros, consulte a tabela a seguir:


**Diretrizes de serviços para provedores de dados**  

| Serviço do provedor | É necessário um ID exclusivo? | Ações | 
| --- | --- | --- | 
| LiveRamp | Sim |  Verifique o seguinte: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| TransUnion | Sim |  Verifique se o seguinte é uma coluna `string` de tipo na exibição de entrada:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| ID unificada 2.0 | Sim |  Verifique o seguinte: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/entityresolution/latest/userguide/prepare-third-party-input-data.html)  Um e-mail ou número de telefone específico, em qualquer momento específico, resulta no mesmo UID2 valor bruto, independentemente de quem fez a solicitação.  UID2s Os crus são criados pela adição de sais de baldes de sal que são girados aproximadamente uma vez por ano, fazendo com que o cru também seja girado UID2 com ele. Diferentes baldes de sal giram em épocas diferentes ao longo do ano. AWS Entity Resolution atualmente não acompanha a rotação de baldes de sal e crus UID2s, por isso é recomendável que você regenere o cru diariamente. UID2s Para obter mais informações, consulte Com que [frequência as atualizações incrementais devem UID2s ser atualizadas](https://unifiedid.com/docs/getting-started/gs-faqs#how-often-should-uid2s-be-refreshed-for-incremental-updates)? na documentação do UID 2.0.   | 

## Etapa 3: Salve sua tabela de dados de entrada em um formato de dados compatível
<a name="save-third-party-data-tables"></a>

Se você já salvou seus dados de entrada de terceiros em um formato de dados compatível, você pode pular esta etapa. 

Para serem usados AWS Entity Resolution, os dados de entrada devem estar em um formato AWS Entity Resolution compatível. 

AWS Entity Resolution suporta os seguintes formatos de dados:
+ valor separado por vírgula (CSV)
**nota**  
LiveRamp só oferece suporte a arquivos CSV.
+ Parquet

## Etapa 4: Faça o upload da sua tabela de dados de entrada para o Amazon S3
<a name="upload-third-party-data-tables"></a>

Se você já tem sua tabela de dados de terceiros no Amazon S3, você pode pular esta etapa.

**nota**  
Você pode armazenar os dados de entrada nos recursos do Amazon S3 em qualquer região na partição AWS comercial em que o S3 é suportado. Esses dados podem ser acessados de uma região diferente ou Conta da AWS ao executar o fluxo de trabalho correspondente.

**Para carregar sua tabela de dados de entrada para o Amazon S3**

1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon S3 em. [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)

1. Escolha **Buckets** e, em seguida, escolha um bucket para armazenar sua tabela de dados. 

1. Escolha **Upload** e siga as instruções.

1. Escolha a guia **Objetos** para visualizar o prefixo do onde seus dados são armazenados. Anote o nome da pasta.

   Você pode selecionar a pasta para visualizar a tabela de dados.

## Etapa 5: criar uma AWS Glue tabela
<a name="create-glue-table-third-party-data-tables"></a>

Os dados de entrada no Amazon S3 devem ser catalogados AWS Glue e representados como uma tabela. AWS Glue *Para obter mais informações sobre como criar uma AWS Glue tabela com o Amazon S3 como entrada, consulte Como [trabalhar com rastreadores no AWS Glue console no Guia do desenvolvedor](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html).AWS Glue *

**nota**  
AWS Entity Resolution não oferece suporte a tabelas particionadas.

Nesta etapa, você configura um rastreador AWS Glue que rastreia todos os arquivos em seu bucket do S3 e cria uma tabela. AWS Glue 

**nota**  
AWS Entity Resolution atualmente não oferece suporte a locais do Amazon S3 registrados com. AWS Lake Formation

**Para criar uma AWS Glue tabela**

1. Faça login no Console de gerenciamento da AWS e abra o AWS Glue console em [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Na barra de navegação, selecione **Crawlers**.

1. Selecione o bucket do S3 na lista e escolha **Adicionar crawler**.

1. Na página **Adicionar crawler**, insira um **nome do crawler** e escolha **Avançar**.

1. Continue na **página Adicionar crawler**, especificando os detalhes. 

1. Na página **Escolher uma função do IAM**, **escolha Escolher um perfil do IAM existente** e, em seguida, escolha **Avançar**.

   Você também pode escolher **Criar um perfil do IAM** ou fazer com que seu administrador crie o perfil do IAM, se necessário.

1. Em **Criar uma programação para esse crawler**, mantenha a **Frequência** padrão (**Executar sob demanda**) e escolha **Avançar**.

1. **Em **Configurar a saída do rastreador**, insira o AWS Glue banco de dados e escolha Avançar.**

1. Revise os detalhes e depois escolha **Concluir**.

1. Na página **Crawlers**, marque a caixa de seleção ao lado do bucket S3 e escolha **Executar crawler**.

1. Depois que o rastreador terminar de ser executado, na barra de AWS Glue navegação, escolha **Bancos** de dados e, em seguida, escolha o nome do banco de dados.

1. Na página **Banco de dados**, escolha **Tabelas em \$1nome do seu banco de dados\$1**.

   1. Visualize as tabelas no AWS Glue banco de dados.

   1. Para visualizar o esquema de uma tabela, selecione uma tabela específica.

   1. Anote o nome do AWS Glue banco de dados e o nome AWS Glue da tabela.

Agora você está pronto para criar um mapeamento de esquema. Para obter mais informações, consulte [Criação de um mapeamento de esquema](create-schema-mapping.md).