AWS Entity Resolution Glosario - AWS Entity Resolution

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS Entity Resolution Glosario

Nombre de recurso de Amazon (ARN)

Un identificador único de los recursos. AWS ARNs son necesarios cuando se necesita especificar un recurso de forma inequívoca en todos los aspectos, por ejemplo AWS Entity Resolution, en AWS Entity Resolution las políticas, las etiquetas de Amazon Relational Database Service (Amazon RDS) y las llamadas a la API.

Tipo de atributo

El tipo de atributo del campo de entrada. Al crear un esquema de mapeo, se selecciona el tipo de atributo de una lista preconfigurada de valores, como el nombre, la dirección, el número de teléfono o la dirección de correo electrónico. El tipo de atributo indica AWS Entity Resolution qué tipo de datos se están presentando, lo que permite clasificarlos y normalizarlos adecuadamente.

Procesamiento automático

Una opción de cadencia de procesamiento para un trabajo de flujo de trabajo coincidente que permite ejecutarlo automáticamente cuando se modifican los datos introducidos.

Esta opción solo está disponible para la coincidencia basada en reglas.

De forma predeterminada, la cadencia de procesamiento de un trabajo de flujo de trabajo coincidente se establece en Manual, lo que permite ejecutarlo bajo demanda. Puede configurar el procesamiento automático para que ejecute automáticamente el trabajo de flujo de trabajo correspondiente cuando cambie la entrada de datos. Esto mantiene la salida del flujo de trabajo coincidente up-to-date.

AWS KMS key ARN

Este es su nombre de recurso de AWS KMS Amazon (ARN) para el cifrado en reposo. Si no se proporciona, el sistema utilizará una clave de KMS AWS Entity Resolution administrada.

Texto claro

Datos que no están protegidos criptográficamente.

Nivel de confianza () ConfidenceLevel

En el caso de la coincidencia de ML, este es el nivel de confianza que se aplica AWS Entity Resolution cuando ML identifica un conjunto de registros coincidente. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Descifrado

El proceso de transformar los datos cifrados para devolverles su forma original. El descifrado solo se puede realizar si se tiene el acceso a la clave secreta.

Cifrado

Proceso de codificación de datos en un formato aparentemente aleatorio utilizando un valor secreto denominado clave. Es imposible determinar el texto sin formato original sin tener acceso a la clave.

Nombre del grupo

El nombre del grupo hace referencia a todo el grupo de campos de entrada y puede ayudarle a agrupar los datos analizados para hacer coincidir los datos.

Por ejemplo, si hay tres campos de entrada: first_namemiddle_name, ylast_name, puede agruparlos introduciendo el nombre del grupo full_name para que coincidan y salgan.

Hash

El uso de hash consiste en aplicar un algoritmo criptográfico que produce una cadena única e irreversible de caracteres de un tamaño fijo, denominada hash. AWS Entity Resolution utiliza el protocolo hash Secure Hash Algorithm de 256 bits (SHA256) y generará una cadena de caracteres de 32 bytes. En AWS Entity Resolution, puede elegir si desea codificar los valores de los datos en la salida.

Protocolo hash (HashingProtocol)

AWS Entity Resolution utiliza el protocolo hash Secure Hash Algorithm de 256 bits (SHA256) y generará una cadena de caracteres de 32 bytes. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Método de mapeo de ID

Cómo desea que se realice la asignación de ID.

Hay dos métodos de mapeo de ID:

  • Basado en reglas: método mediante el cual se utilizan reglas de coincidencia para traducir datos propios de una fuente a un destino en un flujo de trabajo de mapeo de ID.

  • Servicios de proveedores: método mediante el cual se utiliza un servicio de proveedor para traducir datos codificados de terceros de una fuente a un destino en un flujo de trabajo de mapeo de ID.

    AWS Entity Resolution actualmente es compatible con el LiveRamp método de mapeo de ID basado en los servicios del proveedor. Debe tener una suscripción AWS Data Exchange para LiveRamp utilizar este método. Para obtener más información, consulte Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange.

Flujo de trabajo de asignación de ID

Un trabajo de procesamiento de datos que mapea los datos de una fuente de datos de entrada a un destino de datos de entrada en función del método de mapeo de ID especificado. Produce una tabla de asignación de ID. Este flujo de trabajo requiere que especifique el método de mapeo de ID y los datos de entrada que desea traducir de una fuente a un destino.

Puedes configurar un flujo de trabajo de mapeo de ID para que se ejecute por tu cuenta Cuenta de AWS o en dos Cuentas de AWS.

Espacio de nombres de ID

Un recurso AWS Entity Resolution que contiene metadatos que explican los conjuntos de datos de varios conjuntos de datos Cuentas de AWS y cómo usarlos en un flujo de trabajo de mapeo de ID.

Hay dos tipos de espacios de nombres de ID: y. SOURCE TARGET SOURCEContiene configuraciones para los datos de origen que se procesarán en un flujo de trabajo de mapeo de ID. TARGETContiene una configuración de los datos de destino a la que se adaptarán todas las fuentes. Para definir los datos de entrada que desea dividir en dos Cuentas de AWS, cree una fuente de espacio de nombres de ID y un destino de espacio de nombres de ID para traducir los datos de un conjunto () a otro ()SOURCE. TARGET

Después de crear espacios de nombres de ID con otro miembro y ejecutar un flujo de trabajo de mapeo de ID, pueden unirse a una colaboración AWS Clean Rooms para realizar una unión de varias tablas en la tabla de mapeo de ID y analizar los datos.

Para obtener más información, consulte la AWS Clean Rooms Guía del usuario de .

Campo de entrada

Un campo de entrada corresponde al nombre de una columna de la tabla AWS Glue de datos de entrada.

Fuente de entrada ARN (ARNInputSource)

El nombre de recurso de Amazon (ARN) que se generó para una entrada de AWS Glue tabla. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Emparejamiento basado en el aprendizaje automático

La coincidencia basada en el aprendizaje automático (coincidencia de aprendizaje automático) busca coincidencias en sus datos que pueden estar incompletas o que no tengan exactamente el mismo aspecto. La coincidencia de aprendizaje automático es un proceso preestablecido que intentará hacer coincidir los registros de todos los datos que introduzcas. La coincidencia de ML devuelve un identificador de coincidencia y un nivel de confianza para cada conjunto de datos coincidente.

Procesamiento manual

Una opción de cadencia de procesamiento para un trabajo de flujo de trabajo coincidente que permite ejecutarlo bajo demanda.

Esta opción está configurada de forma predeterminada y está disponible tanto para la coincidencia basada en reglas como para la coincidencia basada en el aprendizaje automático.

Many-to-Many coincidente

Many-to-many la coincidencia compara varias instancias de datos similares. Los valores de los campos de entrada a los que se haya asignado la misma clave de coincidencia se compararán entre sí, independientemente de si están en el mismo campo de entrada o en campos de entrada diferentes.

Por ejemplo, es posible que tengas varios campos de introducción de números de teléfono, como «Teléfono» mobile_phone y home_phone que tengan la misma clave coincidente. Usa la many-to-many coincidencia para comparar los datos del campo mobile_phone de entrada con los datos del campo mobile_phone de entrada y los datos del campo home_phone de entrada.

Las reglas de coincidencia evalúan los datos de varios campos de entrada con la misma clave de coincidencia con una operación (o), y la one-to-many coincidencia compara los valores de varios campos de entrada. Esto significa que si hay alguna combinación mobile_phone o home_phone coincidencia entre dos registros, la clave de coincidencia «Teléfono» devolverá una coincidencia. Para encontrar una coincidencia, pulse «Teléfono», Record One mobile_phone = Record Two mobile_phone Record One mobile_phone = Record Two home_phone OR Record One home_phone = Record Two home_phone ORRecord One home_phone = Record Two mobile_phone.

ID de coincidencia (matchID)

Para la coincidencia basada en reglas y la coincidencia de aprendizaje automático, este es el ID generado AWS Entity Resolution y aplicado a cada conjunto de registros coincidente. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Haga coincidir la clave (MatchKey)

La tecla Match indica AWS Entity Resolution qué campos de entrada se deben considerar como datos similares y cuáles se deben considerar como datos diferentes. Esto ayuda a configurar AWS Entity Resolution automáticamente las reglas de coincidencia basadas en reglas y a comparar datos similares almacenados en diferentes campos de entrada.

Si en sus datos hay varios tipos de información sobre números de teléfono, como un mobile_phone campo de home_phone entrada y un campo de entrada, que le gustaría comparar entre sí, puede asignar a ambos la tecla correspondiente «Teléfono». Luego, la coincidencia basada en reglas se puede configurar para comparar datos utilizando las instrucciones «o» en todos los campos de entrada con la tecla de coincidencia «Teléfono» (consulte las definiciones de One-to-One coincidencia y Many-to-Many coincidencia en la sección Flujo de trabajo coincidente).

Si quieres que las coincidencias basadas en reglas consideren distintos tipos de información de números de teléfono por separado, puedes crear claves de coincidencia más específicas, como «Mobile_Phone» y «Home_Phone». A continuación, al configurar un flujo de trabajo de coincidencia, puede especificar cómo se utilizará cada clave de coincidencia de teléfono en la búsqueda de coincidencias basada en reglas.

Si MatchKey se especifica un número para un campo de entrada concreto, no se puede usar para la coincidencia, pero se puede llevar a cabo durante el proceso de flujo de trabajo de coincidencia y, si se desea, se puede generar como salida.

Haga coincidir el nombre de la clave

El nombre asignado a una clave de coincidencia.

Regla de coincidencia (MatchRule)

En el caso de las coincidencias basadas en reglas, este es el número de regla aplicado que generó un conjunto de registros coincidentes. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Coincidencia

Proceso de combinar y comparar datos de distintos campos de entrada, tablas o bases de datos y determinar cuáles son iguales (o «coinciden») en función del cumplimiento de ciertos criterios de coincidencia (por ejemplo, mediante reglas o modelos coincidentes).

Flujo de trabajo correspondiente

El proceso que se configura para especificar los datos de entrada que deben coincidir y cómo se debe realizar la coincidencia.

Descripción del flujo de trabajo coincidente

Una descripción opcional del flujo de trabajo coincidente que puede decidir introducir. Las descripciones le ayudan a diferenciar entre los flujos de trabajo coincidentes si crea más de uno.

Nombre del flujo de trabajo coincidente

El nombre del flujo de trabajo coincidente que especifique.

nota

Los nombres de los flujos de trabajo coincidentes deben ser únicos. No pueden tener el mismo nombre o se devolverá un error.

Los metadatos del flujo de trabajo coinciden

Información generada y generada AWS Entity Resolution durante un trabajo de flujo de trabajo coincidente. Esta información es obligatoria en la salida.

Normalización (ApplyNormalization)

Elija si desea normalizar los datos de entrada tal como se define en el esquema. La normalización estandariza los datos al eliminar los espacios adicionales y los caracteres especiales y estandarizarlos al formato en minúsculas.

Por ejemplo, si un campo de entrada tiene el tipo de atributo Teléfono completo y los valores de la tabla de entrada tienen el formato correspondiente(123) 456-7890, los valores se AWS Entity Resolution normalizarán a. 1234567890

nota

La normalización solo es compatible con el tipo de grupo correspondiente al nombre, la dirección, el teléfono y el correo electrónico.

En las siguientes secciones se describen nuestras reglas de normalización estándar.

Para obtener información específica sobre la coincidencia basada en ML, consulteNormalización ()ApplyNormalization: solo basada en ML.

Nombre

nota

La normalización solo se admite para el tipo de grupo de nombres.

El tipo de grupo de nombres aparece como nombre completo en la consola y NAME en la API.

Si quieres normalizar los subtipos del grupo de nombres, escribe:

  • En la consola, asigne los siguientes subtipos al grupo de nombres completos: nombre, segundo nombre y apellido.

  • En la CreateSchemaMappingAPI, asigne los siguientes tipos a NAME GroupName: NAME_FIRSTNAME_MIDDLE, y. NAME_LAST

  • TRIM = Recorta los espacios en blanco iniciales y finales

  • MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos

  • CONVERT_ACCENT = Convierte una letra acentuada a una letra normal

  • REMOVE_ALL_NON_ALPHA = Elimina todos los caracteres no alfabéticos [A-zA-z]

Correo electrónico

nota

Se admite la normalización para el tipo de grupo de correo electrónico.

El tipo de grupo de correo electrónico aparece como dirección de correo electrónico en la consola y EMAIL_ADDRESS en la API.

  • TRIM = Recorta los espacios en blanco iniciales y finales

  • MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos

  • CONVERT_ACCENT = Convierte una letra acentuada a una letra normal

  • EMAIL_ADDRESS_UTIL_NORM = Elimina cualquier punto (.) del nombre de usuario, elimina todo lo que aparezca después del signo más (+) del nombre de usuario y estandariza las variaciones de dominio más comunes

  • REMOVE_ALL_NON_EMAIL_CHARS = Elimina todos los caracteres [a-zA-Z0-9] y [.@ -] non-alpha-numeric

Teléfono

nota

La normalización solo es compatible con el tipo de grupo de teléfonos.

El tipo de grupo de teléfonos aparece como Teléfono completo en la consola y PHONE en la API.

Si quieres normalizar los subtipos del tipo de grupo de teléfonos:

  • En la consola, asigne los siguientes subtipos al grupo de teléfonos completo: número de teléfono y código de país del teléfono.

  • En la CreateSchemaMappingAPI, asigne los siguientes tipos a PHONE GroupName: PHONE_NUMBER y. PHONE_COUNTRYCODE

  • TRIM = Recorta los espacios en blanco iniciales y finales

  • REMOVE_ALL_NON_NUMERIC = Elimina todos los caracteres no numéricos [0-9]

  • REMOVE_ALL_LEADING_ZEROES = Elimina todos los ceros iniciales

  • ENSURE_PREFIX_WITH_MAP, "" = Examina cada número de teléfono e intenta compararlo con los patrones del. phonePrefixMap phonePrefixMap Si se encuentra una coincidencia, la regla añadirá o modificará el prefijo del número de teléfono para garantizar que se ajusta al formato estandarizado especificado en el mapa.

Dirección

nota

La normalización solo se admite para el tipo de grupo de direcciones.

El tipo de grupo de direcciones aparece como dirección completa en la consola y ADDRESS en la API.

Si quieres normalizar los subtipos del tipo de grupo de direcciones:

  • En la consola, asigne los siguientes subtipos al grupo de direcciones completo: dirección 1, dirección 2: nombre de la dirección 3, nombre de la ciudad, estado, país y código postal t

  • En la CreateSchemaMappingAPI, asigne los siguientes tipos a ADDRESS GroupName:ADDRESS_STREET1,ADDRESS_STREET2,ADDRESS_STREET3, ADDRESS_CITY ADDRESS_STATEADDRESS_COUNTRY, y. ADDRESS_POSTALCODE

ADDRESS_RENAME_WORD_MAP

Estas son las palabras a las que se les cambiará el nombre al normalizar la cadena de direcciones.

"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"

ADDRESS_RENAME_DELIMITER_MAP

Estos son los delimitadores a los que se les cambiará el nombre al normalizar la cadena de direcciones.

",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "

ADDRESS_RENAME_DIRECTION_MAP

Estos son los identificadores de dirección a los que se les cambiará el nombre al normalizar la cadena de direcciones.

"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"

ADDRESS_RENAME_NUMBER_MAP

Estas son las cadenas numéricas a las que se les cambiará el nombre al normalizar la cadena de direcciones.

"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"

ADDRESS_RENAME_SPECIAL_CHAR_MAP

Estas son las cadenas de caracteres especiales a las que se les cambiará el nombre al normalizar la cadena de direcciones.

"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"

Con un hash

  • TRIM = Recorta los espacios en blanco iniciales y finales

ID de origen

  • TRIM = Recorta los espacios en blanco iniciales y finales

Normalización ()ApplyNormalization: solo basada en ML

Elija si desea normalizar los datos de entrada tal como se define en el esquema. La normalización estandariza los datos al eliminar los espacios adicionales y los caracteres especiales y estandarizarlos al formato en minúsculas.

Por ejemplo, si un campo de entrada tiene un tipo de atributo de y los valores de NAME la tabla de entrada tienen el formato correspondienteJohns Smith, se AWS Entity Resolution normalizarán los valores a. john smith

En las siguientes secciones se describen las reglas de normalización para los flujos de trabajo de coincidencia basados en el aprendizaje automático.

Nombre

  • TRIM = Recorta los espacios en blanco iniciales y finales

  • MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos

Correo electrónico

  • MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos

  • Sustituye únicamente (at) (distingue entre mayúsculas y minúsculas) por el símbolo @

  • Elimina todos los espacios en blanco de cualquier parte del valor

  • Elimina todo lo que esté fuera del primero, "< >" si existe

Teléfono

  • TRIM = Recorta los espacios en blanco iniciales y finales

  • REMOVE_ALL_NON_NUMERIC = Elimina todos los caracteres no numéricos [0-9]

  • REMOVE_ALL_LEADING_ZEROES = Elimina todos los ceros iniciales

  • ENSURE_PREFIX_WITH_MAP, "" = Examina cada número de teléfono e intenta compararlo con los patrones del. phonePrefixMap phonePrefixMap Si se encuentra una coincidencia, la regla añadirá o modificará el prefijo del número de teléfono para garantizar que se ajusta al formato estandarizado especificado en el mapa.

One-to-One coincidente

One-to-one la coincidencia compara instancias individuales de datos similares. Los campos de entrada con la misma clave de coincidencia y los valores del mismo campo de entrada se compararán entre sí.

Por ejemplo, es posible que tengas varios campos de entrada de números de teléfono, como mobile_phone y home_phone que tengan la misma clave de coincidencia: «Teléfono». Utilice la one-to-one coincidencia para comparar los datos del campo de mobile_phone entrada con los datos del campo de mobile_phone entrada y para comparar los datos del campo home_phone de entrada con los datos del campo home_phone de entrada. Los datos del campo mobile_phone de entrada no se compararán con los datos del campo home_phone de entrada.

Las reglas de coincidencia evalúan los datos de varios campos de entrada con la misma clave de coincidencia con una operación (o), y la one-to-many coincidencia compara los valores de un solo campo de entrada. Esto significa que si dos registros home_phone coinciden mobile_phone o coinciden entre ellos, la clave de coincidencia «Teléfono» devolverá una coincidencia. Para encontrar una coincidencia, escriba «Teléfono» Record One mobile_phone = Record Two mobile_phone oRecord One home_phone = Record Two home_phone.

Las reglas de coincidencia evalúan los datos de los campos de entrada con diferentes claves de coincidencia mediante una operación (y). Si quieres que las coincidencias basadas en reglas consideren distintos tipos de información de números de teléfono por separado, puedes crear claves de coincidencia más específicas, como «mobile_phone» y «home_phone». Si quieres usar ambas claves de coincidencia en una regla para buscar coincidencias, AND. Record One mobile_phone = Record Two mobile_phone Record One home_phone = Record Two home_phone

Output

Una lista de OutputAttributeobjetos, cada uno de los cuales tiene los campos Nombre y Hashed. Cada uno de estos objetos representa una columna que se incluirá en la tabla de AWS Glue resultados y si desea que los valores de la columna estén codificados con un hash.

Ruta 3 de salida

El destino S3 en el que se AWS Entity Resolution escribirá la tabla de resultados.

OutputSourceConfig

Una lista de OutputSource objetos, cada uno de los cuales tiene los campos Outputs3Path y Output. ApplyNormalization

Coincidencia basada en los servicios del proveedor

La correspondencia basada en los servicios de los proveedores es un proceso diseñado para hacer coincidir, vincular y mejorar sus registros con los proveedores de servicios de datos preferidos y los conjuntos de datos con licencia. Debe estar suscrito al servicio del proveedor para utilizar esta técnica de comparación. AWS Data Exchange

AWS Entity Resolution actualmente se integra con los siguientes proveedores de servicios de datos:

  • LiveRamp

  • TransUnion

  • UID 2.0

Emparejamiento basado en reglas

La coincidencia basada en reglas es un proceso diseñado para encontrar coincidencias exactas. La coincidencia basada en reglas es un conjunto jerárquico de reglas de coincidencia en cascada, sugeridas por AWS Entity Resolution, basadas en los datos que usted introduce y que usted puede configurar completamente. Todas las claves de coincidencia incluidas en los criterios de la regla deben coincidir exactamente para que los datos comparados se declaren coincidentes y para que se generen los metadatos asociados. La coincidencia basada en reglas devuelve un identificador de coincidencia y un número de regla para cada conjunto de datos coincidente.

Recomendamos definir reglas que puedan identificar de forma única a una entidad. Ordene primero sus reglas para encontrar coincidencias más precisas.

Por ejemplo, supongamos que tienes dos reglas, la Regla 1 y la Regla 2.

Estas reglas tienen las siguientes claves de coincidencia:

  • La regla 1 incluye el nombre completo y la dirección

  • La regla 2 incluye nombre completo, dirección y teléfono

Como la regla 1 se ejecuta primero, la regla 2 no encontrará coincidencias porque la regla 1 las habría encontrado todas.

Para buscar coincidencias diferenciadas por teléfono, reordena las reglas de la siguiente manera:

  • La regla 2 incluye el nombre completo, la dirección y el teléfono

  • La regla 1 incluye el nombre completo y la dirección

Esquema

Término utilizado para una estructura o diseño que define cómo se organiza y conecta un conjunto de datos.

Descripción del esquema

Una descripción opcional del esquema que puede elegir introducir. Las descripciones le ayudan a diferenciar entre las asignaciones de esquemas si crea más de una.

Nombre del esquema

El nombre del esquema.

nota

Los nombres de los esquemas deben ser únicos. No pueden tener el mismo nombre o se devolverá un error.

Asignación de esquemas

El mapeo de esquemas AWS Entity Resolution es el proceso mediante el cual se indica AWS Entity Resolution cómo interpretar los datos para que coincidan. Usted define el esquema de la tabla de datos de entrada que AWS Entity Resolution desea leer en un flujo de trabajo coincidente.

ARN de mapeo de esquemas

El nombre de recurso de Amazon (ARN) generado para el mapeo del esquema.

ID único

Un identificador único que usted designe y que debe asignarse a cada fila de datos de entrada que se AWS Entity Resolution lea.

Por ejemplo: Primary_key, Row_ID o Record_ID.

La columna de ID único es obligatoria.

El identificador único debe ser un identificador único dentro de una sola tabla.

En diferentes tablas, el identificador único puede tener valores duplicados.

Cuando se ejecute el flujo de trabajo coincidente, el registro se rechazará si el identificador único:

  • no está especificado

  • no es único en la misma tabla

  • se superpone en términos de nombre de atributo en todas las fuentes.

  • supera los 38 caracteres (solo flujos de trabajo de coincidencia basados en reglas)