

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Preparación de los datos de entrada propios
<a name="prepare-input-data"></a>

[Los siguientes pasos describen cómo preparar los datos de origen para usarlos en un flujo de trabajo de emparejamiento basado en [reglas, un flujo de trabajo de emparejamiento basado en el aprendizaje automático o un flujo](creating-matching-workflow-rule-based.md)[de trabajo de mapeo](create-matching-workflow-ml.md) de ID.](create-id-mapping-workflow.md) 

## Paso 1: Prepare tablas de datos propias
<a name="prepare-first-party-tables"></a>

Cada tipo de flujo de trabajo coincidente tiene un conjunto diferente de recomendaciones y pautas para garantizar el éxito.

Para preparar tablas de datos propias, consulte la siguiente tabla: 


**Directrices sobre tablas de datos propias**  

| Tipo de flujo de trabajo | Obligatorio | 
| --- | --- | 
| Flujo de trabajo de coincidencia basado en reglas con un tipo de regla avanzado |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Flujo de trabajo de coincidencia basado en reglas con un tipo de regla simple |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 
| flujo de trabajo de emparejamiento basado en el aprendizaje automático |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Flujo de trabajo de asignación de ID  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/entityresolution/latest/userguide/prepare-input-data.html)  | 

## Paso 2: Guarde la tabla de datos de entrada en un formato de datos compatible
<a name="save-input-data"></a>

Si ya has guardado los datos de entrada de origen en un formato de datos compatible, puedes saltarte este paso. 

Para poder AWS Entity Resolution utilizarlos, los datos de entrada deben estar en un formato AWS Entity Resolution compatible. 

AWS Entity Resolution admite los siguientes formatos de datos:
+ valor separado por comas (CSV)
+ Parquet

## Paso 3: Cargue la tabla de datos de entrada a Amazon S3
<a name="upload-to-s3"></a>

Si ya tiene su tabla de datos de origen en Amazon S3, puede omitir este paso.

**nota**  
Puede almacenar los datos de entrada en Amazon S3 Resources en cualquier región de la partición AWS comercial en la que se admita S3. Se puede acceder a estos datos desde una región diferente o Cuenta de AWS cuando se ejecuta el flujo de trabajo correspondiente.

**Para cargar la tabla de datos de entrada a Amazon S3**

1. Inicie sesión en la consola de Amazon S3 Consola de administración de AWS y ábrala en [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/).

1. Elija **Buckets** y, a continuación, elija un bucket para almacenar su tabla de datos. 

1. Elija **Cargar** y siga las indicaciones de la pantalla.

1. Seleccione la pestaña **Objetos** para ver el prefijo donde se almacenan sus datos. Anote el nombre de la carpeta.

   Puede seleccionar la carpeta para ver la tabla de datos.

## Paso 4: Crear una AWS Glue tabla
<a name="create-glue-table"></a>

**nota**  
Si necesitas AWS Glue tablas particionadas, salta a[Paso 4: Crea una tabla particionada AWS Glue](#create-partitioned-glue-table).

Los datos de entrada en Amazon S3 deben catalogarse AWS Glue y representarse como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte [Trabajar con rastreadores en la AWS Glue consola en la](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) *Guía para AWS Glue desarrolladores*.

En este paso, debe configurar un rastreador AWS Glue que rastree todos los archivos del bucket de S3 y crear una tabla. AWS Glue 

**nota**  
AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

**Para crear una AWS Glue tabla**

1. Inicie sesión en Consola de administración de AWS y abra la AWS Glue consola en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. En la barra de navegación, seleccione **Rastreadores**.

1. Seleccione su bucket de S3 de la lista y, a continuación, elija **Crear rastreador**.

1. **En la página **Definir las propiedades del rastreador**, introduzca un **nombre** del rastreador (opcional, una **descripción**) y, a continuación, seleccione Siguiente.**

1. Continúe por la página **Añadir rastreador** y especifique los detalles. 

1. En la página **Elegir un rol de IAM**, seleccione **Elegir un rol de IAM existente** y luego seleccione **Siguiente**.

   También puede seleccionar **Crear un rol de IAM** o pedir a su administrador cree el rol de IAM si es necesario.

1. En **Crear una programación para este rastreador**, mantenga el valor predeterminado para la **Frecuencia** (**Ejecutar bajo demanda**) y, a continuación, seleccione **Siguiente**.

1. **En Configurar la salida del rastreador, introduzca la AWS Glue ** **base de datos y, a continuación, seleccione Siguiente.**

1. Revise todos los detalles y, a continuación, seleccione **Finalizar.**

1. En la página **Rastreadores**, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija **Ejecutar rastreador**.

1. Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija **Bases** de datos y, a continuación, elija el nombre de la base de datos.

1. En la página **Base de datos**, elija **Tablas de \$1nombre de su base de datos\$1**.

   1. Vea las tablas de la AWS Glue base de datos.

   1. Para ver el esquema de una tabla, seleccione una tabla.

   1. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ahora está listo para crear un mapeo de esquemas. Para obtener más información, consulte [Crear un esquema de mapeo](create-schema-mapping.md).

## Paso 4: Crea una tabla particionada AWS Glue
<a name="create-partitioned-glue-table"></a>

**nota**  
La función de AWS Glue partición solo AWS Entity Resolution se admite en los flujos de trabajo de mapeo de ID. Esta función de AWS Glue particionamiento le permite elegir particiones específicas para procesarlas. AWS Entity Resolution  
Si no necesitas AWS Glue tablas particionadas, puedes saltarte este paso.

Una AWS Glue tabla particionada refleja automáticamente las nuevas particiones de la AWS Glue tabla cuando agregas nuevas carpetas a la estructura de datos (por ejemplo, una nueva carpeta de un día en un mes). 

Al crear una AWS Glue tabla particionada AWS Entity Resolution, puedes especificar qué particiones quieres procesar en un flujo de trabajo de mapeo de ID. Luego, cada vez que ejecutas el flujo de trabajo de mapeo de ID, solo se procesan los datos de esas particiones, en lugar de procesar todos los datos de toda la AWS Glue tabla. Esta función permite un procesamiento de datos más preciso, eficiente y rentable AWS Entity Resolution, lo que le proporciona un mayor control y flexibilidad a la hora de gestionar las tareas de resolución de entidades. 

Puede crear una AWS Glue tabla particionada para la cuenta de origen en un flujo de trabajo de mapeo de ID. 

Primero debe catalogar los datos de entrada en Amazon S3 AWS Glue y representarlos como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte [Trabajar con rastreadores en la AWS Glue consola en la](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html) *Guía para AWS Glue desarrolladores*.

En este paso, configuras un rastreador AWS Glue que rastrea todos los archivos de tu bucket de S3 y, a continuación, creas una tabla particionada. AWS Glue 

**nota**  
AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

**Para crear una tabla particionada AWS Glue**

1. Inicie sesión en Consola de administración de AWS y abra la AWS Glue consola en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. En la barra de navegación, seleccione **Rastreadores**.

1. Seleccione su bucket de S3 de la lista y, a continuación, elija **Crear rastreador**.

1. **En la página **Definir las propiedades del rastreador**, introduce el **nombre del** rastreador, una **descripción** opcional y, a continuación, selecciona Siguiente.**

1. Continúe por la página **Añadir rastreador** y especifique los detalles. 

1. En la página **Elegir un rol de IAM**, seleccione **Elegir un rol de IAM existente** y luego seleccione **Siguiente**.

   También puede seleccionar **Crear un rol de IAM** o pedir a su administrador cree el rol de IAM si es necesario.

1. En **Crear una programación para este rastreador**, mantenga el valor predeterminado para la **Frecuencia** (**Ejecutar bajo demanda**) y, a continuación, seleccione **Siguiente**.

1. **En Configurar la salida del rastreador, introduzca la AWS Glue ** **base de datos y, a continuación, seleccione Siguiente.**

1. Revise todos los detalles y, a continuación, seleccione **Finalizar.**

1. En la página **Rastreadores**, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija **Ejecutar rastreador**.

1. Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija **Bases** de datos y, a continuación, elija el nombre de la base de datos.

1. En la página **Base de datos**, en **Tablas**, elija la tabla que desee particionar.

1. En la **descripción general de la tabla**, selecciona el menú desplegable **Acciones** y, a continuación, selecciona **Editar** tabla.

   1. En **Propiedades de la tabla**, selecciona **Añadir**.

   1. Para la nueva **clave**, introduzca**aerPushDownPredicateString**.

   1. Para el nuevo **valor**, introduzca**'<PartitionKey>=<PartitionValue'**.

   1. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ya puede hacer lo siguiente: 
+ [Cree un esquema de mapeo](create-schema-mapping.md) y, a continuación, [cree un flujo de trabajo de mapeo de ID para uno Cuenta de AWS](creating-id-mapping-workflow-same-account.md).
+ [Cree una fuente de espacio de nombres de ID](create-id-namespace-source.md), [cree un destino de espacio de nombres de ID](create-id-namespace-target.md) y, a continuación, [cree un flujo de trabajo de mapeo de ID](creating-id-mapping-workflow-two-accounts.md) en dos. Cuentas de AWS