

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Preparar tablas de datos de entrada
<a name="prepare-data-tables"></a>

En AWS Entity Resolution, cada una de las *tablas de datos de entrada* contiene registros de origen. Estos registros contienen identificadores del consumidor, como nombre, apellidos, dirección de correo electrónico o número de teléfono. Estos registros de origen se pueden comparar con otros registros de origen que usted proporcione en la misma tabla de datos de entrada o en otras tablas. Cada registro debe tener un identificador de registro único ([ID único](glossary.md#unique-id-defn)) y debe definirlo como clave principal al crear un esquema de mapeo interno AWS Entity Resolution.

Todas las tablas de datos de entrada están disponibles como AWS Glue tablas respaldadas por Amazon S3. Puede utilizar sus datos de origen que ya están en Amazon S3 o importar tablas de datos de otros proveedores de SaaS de terceros a Amazon S3. Tras cargar los datos en Amazon S3, puede utilizar un AWS Glue rastreador para crear una tabla de datos en el AWS Glue Data Catalog. A continuación, puede utilizar la tabla de datos como entrada para AWS Entity Resolution.

En las siguientes secciones se describe cómo preparar datos propios y datos de terceros.

**Topics**
+ [Preparación de los datos de entrada propios](prepare-input-data.md)
+ [Preparar los datos de entrada de terceros](prepare-third-party-input-data.md)

# Preparación de los datos de entrada propios
<a name="prepare-input-data"></a>

[Los siguientes pasos describen cómo preparar los datos de origen para usarlos en un flujo de trabajo de emparejamiento basado en [reglas, un flujo de trabajo de emparejamiento basado en el aprendizaje automático o un flujo](creating-matching-workflow-rule-based.md)[de trabajo de mapeo](create-matching-workflow-ml.md) de ID.](create-id-mapping-workflow.md) 

## Paso 1: Prepare tablas de datos propias
<a name="prepare-first-party-tables"></a>

Cada tipo de flujo de trabajo coincidente tiene un conjunto diferente de recomendaciones y pautas para garantizar el éxito.

Para preparar tablas de datos propias, consulte la siguiente tabla: 


**Directrices sobre tablas de datos propias**  

| Tipo de flujo de trabajo | Obligatorio | 
| --- | --- | 
| Flujo de trabajo de coincidencia basado en reglas con un tipo de regla avanzado |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Flujo de trabajo de coincidencia basado en reglas con un tipo de regla simple |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 
| flujo de trabajo de emparejamiento basado en el aprendizaje automático |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Flujo de trabajo de asignación de ID  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 

## Paso 2: Guarde la tabla de datos de entrada en un formato de datos compatible
<a name="save-input-data"></a>

Si ya has guardado los datos de entrada de origen en un formato de datos compatible, puedes saltarte este paso. 

Para poder AWS Entity Resolution utilizarlos, los datos de entrada deben estar en un formato AWS Entity Resolution compatible. 

AWS Entity Resolution admite los siguientes formatos de datos:
+ valor separado por comas (CSV)
+ Parquet

## Paso 3: Cargue la tabla de datos de entrada a Amazon S3
<a name="upload-to-s3"></a>

Si ya tiene su tabla de datos de origen en Amazon S3, puede omitir este paso.

**nota**  
Puede almacenar los datos de entrada en Amazon S3 Resources en cualquier región de la partición AWS comercial en la que se admita S3. Se puede acceder a estos datos desde una región diferente o Cuenta de AWS cuando se ejecuta el flujo de trabajo correspondiente.

**Para cargar la tabla de datos de entrada a Amazon S3**

1. Inicie sesión en la consola de Amazon S3 Consola de administración de AWS y ábrala en [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/).

1. Elija **Buckets** y, a continuación, elija un bucket para almacenar su tabla de datos. 

1. Elija **Cargar** y siga las indicaciones de la pantalla.

1. Seleccione la pestaña **Objetos** para ver el prefijo donde se almacenan sus datos. Anote el nombre de la carpeta.

   Puede seleccionar la carpeta para ver la tabla de datos.

## Paso 4: Crear una AWS Glue tabla
<a name="create-glue-table"></a>

**nota**  
Si necesitas AWS Glue tablas particionadas, salta a[Paso 4: Crea una tabla particionada AWS Glue](#create-partitioned-glue-table).

Los datos de entrada en Amazon S3 deben catalogarse AWS Glue y representarse como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte [Trabajar con rastreadores en la AWS Glue consola en la](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) *Guía para AWS Glue desarrolladores*.

En este paso, debe configurar un rastreador AWS Glue que rastree todos los archivos del bucket de S3 y crear una tabla. AWS Glue 

**nota**  
AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

**Para crear una AWS Glue tabla**

1. Inicie sesión en Consola de administración de AWS y abra la AWS Glue consola en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. En la barra de navegación, seleccione **Rastreadores**.

1. Seleccione su bucket de S3 de la lista y, a continuación, elija **Crear rastreador**.

1. **En la página **Definir las propiedades del rastreador**, introduzca un **nombre** del rastreador (opcional, una **descripción**) y, a continuación, seleccione Siguiente.**

1. Continúe por la página **Añadir rastreador** y especifique los detalles. 

1. En la página **Elegir un rol de IAM**, seleccione **Elegir un rol de IAM existente** y luego seleccione **Siguiente**.

   También puede seleccionar **Crear un rol de IAM** o pedir a su administrador cree el rol de IAM si es necesario.

1. En **Crear una programación para este rastreador**, mantenga el valor predeterminado para la **Frecuencia** (**Ejecutar bajo demanda**) y, a continuación, seleccione **Siguiente**.

1. **En Configurar la salida del rastreador, introduzca la AWS Glue ** **base de datos y, a continuación, seleccione Siguiente.**

1. Revise todos los detalles y, a continuación, seleccione **Finalizar.**

1. En la página **Rastreadores**, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija **Ejecutar rastreador**.

1. Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija **Bases** de datos y, a continuación, elija el nombre de la base de datos.

1. En la página **Base de datos**, elija **Tablas de \$1nombre de su base de datos\$1**.

   1. Vea las tablas de la AWS Glue base de datos.

   1. Para ver el esquema de una tabla, seleccione una tabla.

   1. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ahora está listo para crear un mapeo de esquemas. Para obtener más información, consulte [Crear un esquema de mapeo](create-schema-mapping.md).

## Paso 4: Crea una tabla particionada AWS Glue
<a name="create-partitioned-glue-table"></a>

**nota**  
La función de AWS Glue partición solo AWS Entity Resolution se admite en los flujos de trabajo de mapeo de ID. Esta función de AWS Glue particionamiento le permite elegir particiones específicas para procesarlas. AWS Entity Resolution  
Si no necesitas AWS Glue tablas particionadas, puedes saltarte este paso.

Una AWS Glue tabla particionada refleja automáticamente las nuevas particiones de la AWS Glue tabla cuando agregas nuevas carpetas a la estructura de datos (por ejemplo, una nueva carpeta de un día en un mes). 

Al crear una AWS Glue tabla particionada AWS Entity Resolution, puedes especificar qué particiones quieres procesar en un flujo de trabajo de mapeo de ID. Luego, cada vez que ejecutas el flujo de trabajo de mapeo de ID, solo se procesan los datos de esas particiones, en lugar de procesar todos los datos de toda la AWS Glue tabla. Esta función permite un procesamiento de datos más preciso, eficiente y rentable AWS Entity Resolution, lo que le proporciona un mayor control y flexibilidad a la hora de gestionar las tareas de resolución de entidades. 

Puede crear una AWS Glue tabla particionada para la cuenta de origen en un flujo de trabajo de mapeo de ID. 

Primero debe catalogar los datos de entrada en Amazon S3 AWS Glue y representarlos como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte [Trabajar con rastreadores en la AWS Glue consola en la](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) *Guía para AWS Glue desarrolladores*.

En este paso, configuras un rastreador AWS Glue que rastrea todos los archivos de tu bucket de S3 y, a continuación, creas una tabla particionada. AWS Glue 

**nota**  
AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

**Para crear una tabla particionada AWS Glue**

1. Inicie sesión en Consola de administración de AWS y abra la AWS Glue consola en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. En la barra de navegación, seleccione **Rastreadores**.

1. Seleccione su bucket de S3 de la lista y, a continuación, elija **Crear rastreador**.

1. **En la página **Definir las propiedades del rastreador**, introduce el **nombre del** rastreador, una **descripción** opcional y, a continuación, selecciona Siguiente.**

1. Continúe por la página **Añadir rastreador** y especifique los detalles. 

1. En la página **Elegir un rol de IAM**, seleccione **Elegir un rol de IAM existente** y luego seleccione **Siguiente**.

   También puede seleccionar **Crear un rol de IAM** o pedir a su administrador cree el rol de IAM si es necesario.

1. En **Crear una programación para este rastreador**, mantenga el valor predeterminado para la **Frecuencia** (**Ejecutar bajo demanda**) y, a continuación, seleccione **Siguiente**.

1. **En Configurar la salida del rastreador, introduzca la AWS Glue ** **base de datos y, a continuación, seleccione Siguiente.**

1. Revise todos los detalles y, a continuación, seleccione **Finalizar.**

1. En la página **Rastreadores**, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija **Ejecutar rastreador**.

1. Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija **Bases** de datos y, a continuación, elija el nombre de la base de datos.

1. En la página **Base de datos**, en **Tablas**, elija la tabla que desee particionar.

1. En la **descripción general de la tabla**, selecciona el menú desplegable **Acciones** y, a continuación, selecciona **Editar** tabla.

   1. En **Propiedades de la tabla**, selecciona **Añadir**.

   1. Para la nueva **clave**, introduzca**aerPushDownPredicateString**.

   1. Para el nuevo **valor**, introduzca**'<PartitionKey>=<PartitionValue'**.

   1. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ya puede hacer lo siguiente: 
+ [Cree un esquema de mapeo](create-schema-mapping.md) y, a continuación, [cree un flujo de trabajo de mapeo de ID para uno Cuenta de AWS](creating-id-mapping-workflow-same-account.md).
+ [Cree una fuente de espacio de nombres de ID](create-id-namespace-source.md), [cree un destino de espacio de nombres de ID](create-id-namespace-target.md) y, a continuación, [cree un flujo de trabajo de mapeo de ID](creating-id-mapping-workflow-two-accounts.md) en dos. Cuentas de AWS

# Preparar los datos de entrada de terceros
<a name="prepare-third-party-input-data"></a>

Los servicios de datos de terceros proporcionan identificadores que pueden coincidir con sus identificadores conocidos. 

AWS Entity Resolution actualmente es compatible con los siguientes servicios de proveedores de datos de terceros:


**Servicios de proveedores de datos**  

| Nombre de la empresa | Disponible Regiones de AWS | Identificador | 
| --- | --- | --- | 
| LiveRamp | EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2) | ID de rampa | 
| TransUnion | EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2) | TransUnion Individuo y hogar IDs | 
| ID unificada 2.0 | EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2) | Dibuja un UID 2 | 

Los siguientes pasos describen cómo preparar los datos de terceros para utilizar un flujo de trabajo de [correspondencia basado en el servicio del proveedor o un flujo](glossary.md#provider-service-matching) de trabajo de mapeo de [ID basado en el servicio del proveedor](create-IDMW-provider-services-one-acct.md). 

**Topics**
+ [Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange](#subscribe-provider-service)
+ [Paso 2: Prepare tablas de datos de terceros](#prepare-third-party-data-tables)
+ [Paso 3: Guarde la tabla de datos de entrada en un formato de datos compatible](#save-third-party-data-tables)
+ [Paso 4: Cargue la tabla de datos de entrada a Amazon S3](#upload-third-party-data-tables)
+ [Paso 5: Crear una AWS Glue tabla](#create-glue-table-third-party-data-tables)

## Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange
<a name="subscribe-provider-service"></a>

Si tienes una suscripción a través de un proveedor de servicios AWS Data Exchange, puedes ejecutar un flujo de trabajo coincidente con uno de los siguientes servicios de proveedor para hacer coincidir tus identificadores conocidos con los de tu proveedor preferido. Sus datos se compararán con un conjunto de entradas definido por su proveedor preferido.

Para suscribirse a un servicio de proveedor en AWS Data Exchange

1. Vea la lista de proveedores en AWS Data Exchange. Están disponibles las siguientes listas de proveedores:
   + LiveRamp
     + [LiveRampResolución de identidad](https://aws.amazon.com/marketplace/pp/prodview-v4557zxjo6ykq)
     + [LiveRampTranscodificación](https://aws.amazon.com/marketplace/pp/prodview-bpp2fvfcxk2kg)
   + TransUnion
     + TruAudience Resolución y enriquecimiento de la identidad
   + ID unificada 2.0
     + [Resolución de identidad de Unified ID 2.0](https://aws.amazon.com/marketplace/pp/prodview-66zqls7iqsm6o?sr=0-4&ref_=beagle&applicationId=AWSMPContessa#offers)

1. Complete uno de los siguientes pasos, según el tipo de oferta.
   + **Oferta privada**: si ya tienes una relación con un proveedor, sigue el procedimiento de [ofertas y productos privados](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-private-offer.html) de la *Guía del AWS Data Exchange usuario* para aceptar una oferta privada AWS Data Exchange.
   + **Traiga su propia suscripción**: si ya tiene una suscripción de datos existente con un proveedor, siga el procedimiento de [ofertas de Bring Your Own Subscription (BYOS)](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-byos-offer.html) de la *Guía del AWS Data Exchange usuario* para aceptar una oferta de BYOS. AWS Data Exchange

1. Una vez que te hayas suscrito a un servicio de proveedor AWS Data Exchange, podrás crear un flujo de trabajo coincidente o un flujo de trabajo de mapeo de identidades con ese servicio de proveedor. 

Para obtener más información sobre cómo acceder a un producto de un proveedor que lo contenga APIs, consulte [Acceder a un producto de API](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribing-to-product.html#use-API-product) en la *Guía del AWS Data Exchange usuario*.

## Paso 2: Prepare tablas de datos de terceros
<a name="prepare-third-party-data-tables"></a>

Cada servicio de terceros tiene un conjunto diferente de recomendaciones y directrices para garantizar un flujo de trabajo adecuado. 

Para preparar tablas de datos de terceros, consulta la siguiente tabla:


**Directrices de servicios para proveedores de datos**  

| Servicio para proveedores | ¿Se necesita una identificación única? | Acciones | 
| --- | --- | --- | 
| LiveRamp | Sí |  Asegúrese de lo siguiente: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| TransUnion | Sí |  Asegúrese de que las siguientes columnas estén `string` escritas en la vista de entrada:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| ID unificada 2.0 | Sí |  Asegúrese de lo siguiente: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-third-party-input-data.html)  Un correo electrónico o un número de teléfono específicos, en cualquier momento específico, dan como resultado el mismo UID2 valor bruto, independientemente de quién haya realizado la solicitud.  UID2s Las sales crudas se obtienen añadiendo sales de cubos de sal que se giran aproximadamente una vez al año, lo que hace que la materia prima UID2 también se rote con ella. Los diferentes cubos de sal rotan en diferentes momentos del año. AWS Entity Resolution En la actualidad no lleva un registro de los cubos de sal giratorios ni en crudo UID2s, por lo que se recomienda regenerar el crudo a diario. UID2s Para obtener más información, consulta [¿Con qué frecuencia UID2s se deben actualizar las actualizaciones incrementales?](https://unifiedid.com/docs/getting-started/gs-faqs#how-often-should-uid2s-be-refreshed-for-incremental-updates) en la documentación del UID 2.0.   | 

## Paso 3: Guarde la tabla de datos de entrada en un formato de datos compatible
<a name="save-third-party-data-tables"></a>

Si ya has guardado los datos de entrada de terceros en un formato de datos compatible, puedes saltarte este paso. 

Para poder utilizarlos AWS Entity Resolution, los datos de entrada deben estar en un formato AWS Entity Resolution compatible. 

AWS Entity Resolution admite los siguientes formatos de datos:
+ valor separado por comas (CSV)
**nota**  
LiveRamp solo admite archivos CSV.
+ Parquet

## Paso 4: Cargue la tabla de datos de entrada a Amazon S3
<a name="upload-third-party-data-tables"></a>

Si ya tiene su tabla de datos de terceros en Amazon S3, puede omitir este paso.

**nota**  
Puede almacenar los datos de entrada en los recursos de Amazon S3 de cualquier región de la partición AWS comercial en la que se admite S3. Se puede acceder a estos datos desde una región diferente o Cuenta de AWS cuando se ejecuta el flujo de trabajo correspondiente.

**Para cargar la tabla de datos de entrada a Amazon S3**

1. Inicie sesión en la consola de Amazon S3 Consola de administración de AWS y ábrala en [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/).

1. Elija **Buckets** y, a continuación, elija un bucket para almacenar su tabla de datos. 

1. Elija **Cargar** y siga las indicaciones de la pantalla.

1. Seleccione la pestaña **Objetos** para ver el prefijo donde se almacenan sus datos. Anote el nombre de la carpeta.

   Puede seleccionar la carpeta para ver la tabla de datos.

## Paso 5: Crear una AWS Glue tabla
<a name="create-glue-table-third-party-data-tables"></a>

Los datos de entrada en Amazon S3 deben catalogarse AWS Glue y representarse como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte [Trabajar con rastreadores en la AWS Glue consola en la](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) *Guía para AWS Glue desarrolladores*.

**nota**  
AWS Entity Resolution no admite tablas particionadas.

En este paso, configuras un rastreador AWS Glue que rastrea todos los archivos de tu bucket de S3 y creas una tabla. AWS Glue 

**nota**  
AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

**Para crear una AWS Glue tabla**

1. Inicie sesión en Consola de administración de AWS y abra la AWS Glue consola en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. En la barra de navegación, seleccione **Rastreadores**.

1. Seleccione su bucket de S3 de la lista y, a continuación, elija **Añadir rastreador**.

1. En la página **Añadir rastreador**, introduzca el **Nombre del rastreador** y seleccione **Siguiente**.

1. Continúe por la página **Añadir rastreador** y especifique los detalles. 

1. En la página **Elegir un rol de IAM**, seleccione **Elegir un rol de IAM existente** y luego seleccione **Siguiente**.

   También puede seleccionar **Crear un rol de IAM** o pedir a su administrador cree el rol de IAM si es necesario.

1. En **Crear una programación para este rastreador**, mantenga el valor predeterminado para la **Frecuencia** (**Ejecutar bajo demanda**) y, a continuación, seleccione **Siguiente**.

1. **En Configurar la salida del rastreador**, introduzca la AWS Glue base de datos y, a continuación, seleccione **Siguiente**.

1. Revise toda la información y, a continuación, elija **Finalizar**.

1. En la página **Rastreadores**, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija **Ejecutar rastreador**.

1. Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija **Bases** de datos y, a continuación, elija el nombre de la base de datos.

1. En la página **Base de datos**, elija **Tablas de \$1nombre de su base de datos\$1**.

   1. Vea las tablas de la AWS Glue base de datos.

   1. Para ver el esquema de una tabla, seleccione una tabla.

   1. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ahora está listo para crear un mapeo de esquemas. Para obtener más información, consulte [Crear un esquema de mapeo](create-schema-mapping.md).