Preparación de datos de entrada de terceros - AWS Entity Resolution

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de datos de entrada de terceros

Los servicios de datos de terceros proporcionan identificadores que pueden coincidir con sus identificadores conocidos.

AWS Entity Resolution actualmente es compatible con los siguientes servicios de proveedores de datos de terceros:

Servicios de proveedores de datos
Nombre de la empresa Disponible Regiones de AWS Identificador
LiveRamp EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2) ID de rampa
TransUnion EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2) TransUnion Individuo y hogar IDs
ID unificada 2.0 EE.UU. Este (Norte de Virginia) (us-east-1), EE.UU. Este (Ohio) (us-East-2) y EE.UU. Oeste (Oregon) (us-west-2) Dibuja 2 UID

Los siguientes pasos describen cómo preparar los datos de terceros para utilizar un flujo de trabajo de correspondencia basado en el servicio del proveedor o un flujo de trabajo de mapeo de ID basado en el servicio del proveedor.

Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange

Si tiene una suscripción con un servicio de proveedor a través de AWS Data Exchange, puede ejecutar un flujo de trabajo coincidente con uno de los siguientes servicios de proveedores para hacer coincidir sus identificadores conocidos con los de su proveedor preferido. Sus datos se compararán con un conjunto de entradas definido por su proveedor preferido.

Para suscribirse a un servicio de proveedor en AWS Data Exchange

  1. Vea la lista de proveedores en AWS Data Exchange. Están disponibles los siguientes listados de proveedores:

  2. Complete uno de los siguientes pasos, según el tipo de oferta.

    • Oferta privada: si ya tienes una relación con un proveedor, sigue el procedimiento de ofertas y productos privados del AWS Data Exchange Guía del usuario para aceptar una oferta privada en AWS Data Exchange.

    • Traiga su propia suscripción: si ya tiene una suscripción de datos existente con un proveedor, siga el procedimiento de ofertas Bring Your Own Subscription (BYOS) que se encuentra en el AWS Data Exchange Guía del usuario para aceptar una BYOS oferta de AWS Data Exchange.

  3. Después de suscribirse a un servicio de proveedor en AWS Data Exchange, a continuación, puede crear un flujo de trabajo coincidente o un flujo de trabajo de mapeo de ID con ese servicio de proveedor.

Para obtener más información sobre cómo acceder a un producto de un proveedor que contieneAPIs, consulte Acceder a un API producto en el AWS Data Exchange Guía del usuario.

Paso 2: Prepare tablas de datos de terceros

Cada servicio de terceros tiene un conjunto diferente de recomendaciones y directrices para garantizar un flujo de trabajo adecuado.

Para preparar tablas de datos de terceros, consulta la siguiente tabla:

Directrices sobre servicios para proveedores de datos
Servicio para proveedores ¿Se necesita una identificación única? Acciones
LiveRamp

Asegúrese de lo siguiente:

  • El identificador único puede ser su propio identificador seudónimo o un identificador de fila.

  • El formato y la normalización del archivo de entrada de datos se ajustan a las LiveRamp directrices.

    Para obtener más información sobre las pautas de formato de los archivos de entrada para el flujo de trabajo correspondiente, consulte Realizar una resolución de identidad ADX completa en la LiveRamp documentación.

    Para obtener más información sobre las pautas de formato de los archivos de entrada para el flujo de trabajo de mapeo de ID, consulte Realizar la transcodificación automática ADX en la LiveRamp documentación.

TransUnion

Asegúrese de lo siguiente:

  • Existe un identificador único para el enriquecimiento TransUnion de datos.

    nota

    Se permite que los atributos de transferencia persistan en la entrada y la salida a TransUnion. Las teclas E del hogar HHID son específicas del espacio de nombres del cliente.

  • Phone numberdebe tener 10 dígitos, sin caracteres especiales como espacios o guiones.

  • Addressesdebe dividirse en

    • una sola línea de dirección (combine las líneas de dirección 1 y 2, si las hay)

    • ciudad

    • zip (o zip plus4), sin caracteres especiales como espacios o guiones

    • estado, especificado como código de 2 letras 3

  • Email addressesdebe estar en texto plano.

  • First Namepuede estar en minúsculas o mayúsculas, se admiten apodos, pero deben excluirse los títulos y sufijos.

  • Last Namepuede estar en mayúscula o minúscula, sin incluir las iniciales del medio.

ID unificado 2.0

Asegúrese de lo siguiente:

  • El identificador único no puede ser un hash.

  • UID2admite tanto el correo electrónico como el número de teléfono para UID2 la generación. Sin embargo, si ambos valores están presentes en la asignación del esquema, el flujo de trabajo duplica cada registro de la salida. Un registro usa el correo electrónico para la UID2 generación y el segundo registro usa el número de teléfono. Si sus datos incluyen una combinación de correos electrónicos y números de teléfono y no desea que se duplique esta duplicación de registros en la salida, lo mejor es crear un flujo de trabajo independiente para cada uno, con asignaciones de esquema independientes. En este escenario, realice los pasos dos veces: cree un flujo de trabajo para los correos electrónicos y otro independiente para los números de teléfono.

nota

Un correo electrónico o un número de teléfono específicos, en cualquier momento específico, dan como resultado el mismo UID2 valor bruto, independientemente de quién haya realizado la solicitud.

UID2sLas sales crudas se obtienen añadiendo sales de cubos de sal que se giran aproximadamente una vez al año, lo que hace que la materia prima UID2 también se rote con ella. Los diferentes cubos de sal rotan en diferentes momentos del año. AWS Entity Resolution Actualmente no lleva un registro de los cubos de sal giratorios y crudosUID2s, por lo que se recomienda regenerar el crudo a diario. UID2s Para obtener más información, consulte ¿Con qué frecuencia UID2s se deben actualizar las actualizaciones incrementales? en la documentación de la UID versión 2.0.

Paso 3: Guarde la tabla de datos de entrada en un formato de datos compatible

Si ya has guardado los datos de entrada de terceros en un formato de datos compatible, puedes saltarte este paso.

Para utilizar AWS Entity Resolution, los datos de entrada deben estar en un formato que AWS Entity Resolution admite. AWS Entity Resolution admite los siguientes formatos de datos:

  • valor separado por comas () CSV

    nota

    LiveRamp solo admite archivosCSV.

  • Parquet

Paso 4: Cargue la tabla de datos de entrada a Amazon S3

Si ya tiene su tabla de datos de terceros en Amazon S3, puede omitir este paso.

nota

Los datos de entrada deben almacenarse en Amazon Simple Storage Service (Amazon S3) en el mismo Cuenta de AWS y Región de AWS en el que desee ejecutar el flujo de trabajo correspondiente.

Para cargar la tabla de datos de entrada a Amazon S3
  1. Inicie sesión en el AWS Management Console y abra la consola Amazon S3 en https://console.aws.amazon.com/s3/.

  2. Elija Buckets y, a continuación, elija un bucket para almacenar su tabla de datos.

  3. Elija Cargar y siga las indicaciones de la pantalla.

  4. Seleccione la pestaña Objetos para ver el prefijo donde se almacenan sus datos. Anote el nombre de la carpeta.

    Puede seleccionar la carpeta para ver la tabla de datos.

Paso 5: Crea un AWS Glue tabla

Los datos de entrada en Amazon S3 deben estar catalogados en AWS Glue y se representan como AWS Glue mesa. Para obtener más información sobre cómo crear un AWS Glue tabla con Amazon S3 como entrada, consulte Trabajar con rastreadores en el AWS Glue consola en el AWS Glue Guía para desarrolladores.

nota

AWS Entity Resolution no admite tablas particionadas.

En este paso, configurarás un rastreador en AWS Glue que rastrea todos los archivos de tu bucket de S3 y crea un AWS Glue tabla.

nota

AWS Entity Resolution actualmente no es compatible con las ubicaciones de Amazon S3 registradas en AWS Lake Formation.

Para crear un AWS Glue tabla
  1. Inicie sesión en el AWS Management Console y abre el AWS Glue consola en https://console.aws.amazon.com/glue/.

  2. En la barra de navegación, seleccione Rastreadores.

  3. Seleccione su bucket de S3 de la lista y, a continuación, elija Añadir rastreador.

  4. En la página Añadir rastreador, introduzca el Nombre del rastreador y seleccione Siguiente.

  5. Continúe por la página Añadir rastreador y especifique los detalles.

  6. En la página Elegir un IAM rol, elija Elegir un IAM rol existente y, a continuación, elija Siguiente.

    También puede elegir Crear un IAM rol o hacer que su administrador cree el IAM rol si es necesario.

  7. En Crear una programación para este rastreador, mantenga el valor predeterminado para la Frecuencia (Ejecutar bajo demanda) y, a continuación, seleccione Siguiente.

  8. En Configurar la salida del rastreador, introduzca el AWS Glue base de datos y, a continuación, seleccione Siguiente.

  9. Revise toda la información y, a continuación, elija Finalizar.

  10. En la página Rastreadores, active la casilla de verificación situada junto a su bucket de S3 y, a continuación, elija Ejecutar rastreador.

  11. Cuando el rastreador termine de ejecutarse, en el AWS Glue en la barra de navegación, seleccione Bases de datos y, a continuación, elija el nombre de la base de datos.

  12. En la página Base de datos, elija Tablas de {nombre de su base de datos}.

    1. Vea las tablas en la AWS Glue base de datos.

    2. Para ver el esquema de una tabla, seleccione una tabla.

    3. Tome nota de la AWS Glue nombre de la base de datos y AWS Glue nombre de tabla.