Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange Paso 2: Prepare tablas de datos de terceros Paso 3: Guarde la tabla de datos de entrada en un formato de datos compatible Paso 4: Cargue la tabla de datos de entrada a Amazon S3 Paso 5: Crea un AWS Glue tabla

Preparar los datos de entrada de terceros

Third-party los servicios de datos proporcionan identificadores que pueden coincidir con sus identificadores conocidos.

AWS Entity Resolution actualmente es compatible con los siguientes servicios de proveedores de datos de terceros:

Servicios de proveedores de datos
Nombre de la empresa	Disponible Regiones de AWS	Identificador
LiveRamp	EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2)	ID de rampa
TransUnion	EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2)	TransUnion Identificaciones individuales y familiares
ID unificada 2.0	EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2)	Dibuja un UID 2

Los siguientes pasos describen cómo preparar los datos de terceros para utilizar un flujo de trabajo de correspondencia basado en el servicio del proveedor o un flujo de trabajo de mapeo de ID basado en el servicio del proveedor.

Temas

Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange
Paso 2: Prepare tablas de datos de terceros
Paso 3: Guarde la tabla de datos de entrada en un formato de datos compatible
Paso 4: Cargue la tabla de datos de entrada a Amazon S3
Paso 5: Crea un AWS Glue tabla

Si tienes una suscripción a través de un proveedor de servicios AWS Data Exchange, puedes ejecutar un flujo de trabajo coincidente con uno de los siguientes servicios de proveedor para hacer coincidir tus identificadores conocidos con los de tu proveedor preferido. Sus datos se compararán con un conjunto de entradas definido por su proveedor preferido.

Para suscribirse a un servicio de proveedor en AWS Data Exchange

Vea la lista de proveedores en AWS Data Exchange. Están disponibles las siguientes listas de proveedores:
- LiveRamp
  - LiveRampResolución de identidad
  - LiveRampTranscodificación
- TransUnion
  - TruAudience Resolución y enriquecimiento de la identidad
- ID unificada 2.0
  - Resolución de identidad de Unified ID 2.0
Complete uno de los siguientes pasos, según el tipo de oferta.
- Oferta privada: si ya tienes una relación con un proveedor, sigue el procedimiento de ofertas y productos privados de la Guía del AWS Data Exchange usuario para aceptar una oferta privada AWS Data Exchange.
- Traiga su propia suscripción: si ya tiene una suscripción de datos existente con un proveedor, siga el procedimiento de ofertas de Bring Your Own Subscription (BYOS) de la Guía del AWS Data Exchange usuario para aceptar una oferta de BYOS. AWS Data Exchange
Una vez que te hayas suscrito a un servicio de proveedor AWS Data Exchange, podrás crear un flujo de trabajo coincidente o un flujo de trabajo de mapeo de identidades con ese servicio de proveedor.

Para obtener más información sobre cómo acceder a un producto de un proveedor que contiene API, consulte Acceder a un producto de API en la Guía del AWS Data Exchange usuario.

Paso 2: Prepare tablas de datos de terceros

Cada servicio de terceros tiene un conjunto diferente de recomendaciones y directrices para garantizar un flujo de trabajo adecuado.

Para preparar tablas de datos de terceros, consulta la siguiente tabla:

Pautas de servicios para proveedores de datos
Servicio para proveedores	¿Se necesita una identificación única?	Acciones
LiveRamp	Sí	Asegúrese de lo siguiente: El identificador único puede ser tu propio identificador seudónimo o un identificador de fila. El formato y la normalización del archivo de entrada de datos se ajustan a las LiveRamp directrices. Para obtener más información sobre las pautas de formato de los archivos de entrada para el flujo de trabajo correspondiente, consulte Realizar la resolución de identidad mediante ADX en la LiveRamp documentación. Para obtener más información sobre las pautas de formato de los archivos de entrada para el flujo de trabajo de mapeo de ID, consulte Realizar la transcodificación mediante ADX en la documentación. LiveRamp
TransUnion	Sí	Asegúrese de que las siguientes columnas estén `string` escritas en la vista de entrada: Se requiere un ID único y puede ser un ID de CRM, un ID de contacto, un ID de usuario o cualquier ID exclusivo. `Name` `First Name`puede estar en minúsculas o mayúsculas, se admiten apodos, pero deben excluirse los títulos y sufijos. `Last Name`puede estar en mayúscula o minúscula, sin incluir las iniciales del medio. `Address` `Street address1`y `Street address1` se combina en una sola `Full address` línea, si está presente. `City`está separado de`Full address`. `Zip`(o`zip plus4`), sin caracteres especiales como espacios, guiones o espacios en blanco. Utilice valores nulos si no hay datos. `State`se especifica como un código de 2 letras en mayúsculas. `Phone` `Phone number`debe tener 10 dígitos, sin caracteres especiales como espacios o guiones. `Email addresses`es texto sin formato o cadenas en SHA256-hashed minúsculas. `Date of Birth`está en `yyy-mm-dd` formato y. `Digital identifiers` (ID de dispositivo) puede incluir identificadores con guiones (dispositivo sin procesar de 36 caracteres IDs/MAIDs/IFAs) y sin guiones (dispositivo con código hash de 32 y 40 caracteres). IDs/MAIDs/IFAs `IPV4`es una dirección IP de 32 bits expresada en notación decimal punteada. Por ejemplo: `192.0.2.1` `IPV6`es una dirección IP de 128 bits expresada en notación hexadecimal, separada por dos puntos. Por ejemplo: `2001:db8:0000:0000:0000:0000:0000:0001` `MAID`(ID de publicidad móvil) es una cadena alfanumérica única que se asigna a un dispositivo móvil con fines publicitarios. Una SIRVIENTA suele tener 36 caracteres. Por ejemplo: `a1b2c3d4-5678-90ab-cdef-EXAMPLE11111`
ID unificada 2.0	Sí	Asegúrese de lo siguiente: El identificador único no puede ser un hash. `Email addresses`Se usa uno `Phone number` o ambos en el esquema, no en ambos. El UID2 admite tanto el correo electrónico como el número de teléfono para la generación del UID2. Sin embargo, si ambos valores están presentes en la asignación del esquema, el flujo de trabajo duplica cada registro de la salida. Un registro usa el correo electrónico para la generación del UID2 y el segundo registro usa el número de teléfono. Si sus datos incluyen una combinación de correos electrónicos y números de teléfono y no desea que estos registros se dupliquen en la salida, lo mejor es crear un flujo de trabajo independiente para cada uno de ellos, con asignaciones de esquema independientes. En este escenario, realice los pasos dos veces: cree un flujo de trabajo para los correos electrónicos y otro independiente para los números de teléfono. nota Un correo electrónico o número de teléfono específico, en cualquier momento específico, da como resultado el mismo valor de UID2 sin procesar, independientemente de quién haya realizado la solicitud. Los UID2 sin procesar se crean añadiendo sales de cubos de sal que se giran aproximadamente una vez al año, lo que hace que el UID2 sin procesar también se rote con ellos. Los distintos cubos de sal rotan en diferentes momentos del año. AWS Entity Resolution actualmente no registra los cubos de sal giratorios ni los UID2 sin procesar, por lo que se recomienda regenerar los UID2 sin procesar a diario. Para obtener más información, consulta ¿Con qué frecuencia se deben actualizar los UID2 para realizar actualizaciones incrementales? en la documentación del UID 2.0.

Paso 3: Guarde la tabla de datos de entrada en un formato de datos compatible

Si ya has guardado los datos de entrada de terceros en un formato de datos compatible, puedes saltarte este paso.

Para poder utilizarlos AWS Entity Resolution, los datos de entrada deben estar en un formato AWS Entity Resolution compatible.

AWS Entity Resolution admite los siguientes formatos de datos:

valor separado por comas (CSV)

nota
LiveRamp solo admite archivos CSV.
Parquet

Paso 4: Cargue la tabla de datos de entrada a Amazon S3

Si ya tiene su tabla de datos de terceros en Amazon S3, puede omitir este paso.

nota

Puede almacenar los datos de entrada en los recursos de Amazon S3 de cualquier región de la partición AWS comercial en la que se admite S3. Se puede acceder a estos datos desde una región diferente o Cuenta de AWS cuando se ejecuta el flujo de trabajo correspondiente.

Para cargar la tabla de datos de entrada a Amazon S3

Inicie sesión en la consola de Amazon S3 AWS Management Console y ábrala en https://console.aws.amazon.com/s3/.
Elija Buckets y, a continuación, elija un bucket para almacenar su tabla de datos.
Elija Cargar y siga las indicaciones de la pantalla.
Seleccione la pestaña Objetos para ver el prefijo donde se almacenan sus datos. Anote el nombre de la carpeta.

Puede seleccionar la carpeta para ver la tabla de datos.

Paso 5: Crea un AWS Glue tabla

Los datos de entrada en Amazon S3 deben catalogarse AWS Glue y representarse como una AWS Glue tabla. Para obtener más información sobre cómo crear una AWS Glue tabla con Amazon S3 como entrada, consulte Trabajar con rastreadores en la AWS Glue consola en la Guía para AWS Glue desarrolladores.

nota

AWS Entity Resolution no admite tablas particionadas.

En este paso, configuras un rastreador AWS Glue que rastrea todos los archivos de tu bucket de S3 y creas una tabla. AWS Glue

nota

AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

Para crear un AWS Glue tabla

Inicie sesión en AWS Management Console y abra la AWS Glue consola en https://console.aws.amazon.com/glue/.
En la barra de navegación, seleccione Rastreadores.
Seleccione su bucket de S3 de la lista y, a continuación, elija Añadir rastreador.
En la página Añadir rastreador, introduzca el Nombre del rastreador y seleccione Siguiente.
Continúe por la página Añadir rastreador y especifique los detalles.
En la página Elegir un rol de IAM, seleccione Elegir un rol de IAM existente y luego seleccione Siguiente.

También puede seleccionar Crear un rol de IAM o pedir a su administrador cree el rol de IAM si es necesario.
En Crear una programación para este rastreador, mantenga el valor predeterminado para la Frecuencia (Ejecutar bajo demanda) y, a continuación, seleccione Siguiente.
En Configurar la salida del rastreador, introduzca la AWS Glue base de datos y, a continuación, seleccione Siguiente.
Revise toda la información y, a continuación, elija Finalizar.
En la página Rastreadores, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija Ejecutar rastreador.
Cuando el rastreador termine de ejecutarse, en la barra de AWS Glue navegación, elija Bases de datos y, a continuación, elija el nombre de la base de datos.
En la página Base de datos, elija Tablas de {nombre de su base de datos}.
1. Vea las tablas de la AWS Glue base de datos.
2. Para ver el esquema de una tabla, seleccione una tabla.
3. Anote el nombre de la AWS Glue base de datos y el nombre de AWS Glue la tabla.

Ahora está listo para crear un mapeo de esquemas. Para obtener más información, consulte Crear un esquema de mapeo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Preparación de los datos de entrada de origen

Asignación de esquemas