Nombre de recurso de Amazon (ARN)Tipo de atributo Procesamiento automático AWS KMS key ARN Flujo de trabajo por lotes Texto claro Nivel de confianza () ConfidenceLevel Descifrado Cifrado Nombre del grupo Hash Protocolo hash (HashingProtocol)Método de asignación de ID Flujo de trabajo de asignación de ID Espacio de nombres de ID Flujo de trabajo incremental Campo de entrada Fuente de entrada ARN (ARNInputSource)Coincidencias basadas en machine learning Procesamiento manual Many-to-Many coincidente ID de coincidencia (matchID)Haga coincidir la clave (MatchKey)Nombre de clave de coincidencia Regla de coincidencia (MatchRule)Coincidencia Flujo de trabajo correspondiente Descripción del flujo de trabajo coincidente Nombre del flujo de trabajo coincidente Los metadatos del flujo de trabajo coinciden Normalización (ApplyNormalization)Normalización (): solo ApplyNormalization ML-based One-to-One coincidente Output Ruta 3 de salida OutputSourceConfig Coincidencia basada en los servicios del proveedor Rule-based coincidente Coincidencia transitiva Esquema Descripción del esquema Nombre del esquema Asignación de esquemas ARN de mapeo de esquemas ID único

AWS Entity Resolution Glosario

Nombre de recurso de Amazon (ARN)

Un identificador único de los recursos. AWS Los ARN son necesarios cuando se necesita especificar un recurso de forma inequívoca en todos los ámbitos, por ejemplo AWS Entity Resolution, en AWS Entity Resolution las políticas, las etiquetas de Amazon Relational Database Service (Amazon RDS) y las llamadas a la API.

Tipo de atributo

El tipo de atributo del campo de entrada. Al crear un esquema de mapeo, se selecciona el tipo de atributo de una lista preconfigurada de valores, como el nombre, la dirección, el número de teléfono o la dirección de correo electrónico. El tipo de atributo indica AWS Entity Resolution qué tipo de datos se están presentando, lo que permite clasificarlos y normalizarlos adecuadamente.

Procesamiento automático

Una opción de cadencia de procesamiento para un trabajo de flujo de trabajo coincidente que permite ejecutarlo automáticamente cuando se modifican los datos introducidos.

Esta opción solo está disponible para la coincidencia basada en reglas.

De forma predeterminada, la cadencia de procesamiento de un trabajo de flujo de trabajo coincidente se establece en Manual, lo que permite ejecutarlo bajo demanda. Puede configurar el procesamiento automático para que ejecute automáticamente el trabajo de flujo de trabajo correspondiente cuando cambie la entrada de datos. Esto mantiene actualizada la salida del flujo de trabajo correspondiente.

AWS KMS key ARN

Este es su nombre de recurso de AWS KMS Amazon (ARN) para el cifrado en reposo. Si no se proporciona, el sistema utilizará una clave de KMS AWS Entity Resolution administrada.

Flujo de trabajo por lotes

Proceso que se ejecuta a intervalos programados para hacer coincidir y resolver los datos de todo un conjunto de datos. Los flujos de trabajo por lotes se AWS Entity Resolution utilizan mejor para la configuración inicial, las actualizaciones completas periódicas y los escenarios con cambios significativos en los conjuntos de datos de origen y destino.

Texto claro

Datos que no están protegidos criptográficamente.

Nivel de confianza () ConfidenceLevel

En el caso de la coincidencia de ML, este es el nivel de confianza que se aplica AWS Entity Resolution cuando ML identifica un conjunto de registros coincidente. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Descifrado

El proceso de transformar los datos cifrados para devolverles su forma original. El descifrado solo se puede realizar si se tiene el acceso a la clave secreta.

Cifrado

Proceso de codificación de datos en un formato aparentemente aleatorio utilizando un valor secreto denominado clave. Es imposible determinar el texto sin formato original sin tener acceso a la clave.

Nombre del grupo

El nombre del grupo hace referencia a todo el grupo de campos de entrada y puede ayudarle a agrupar los datos analizados para hacer coincidir los datos.

Por ejemplo, si hay tres campos de entrada: first_namemiddle_name, ylast_name, puede agruparlos introduciendo el nombre del grupo full_name para que coincidan y salgan.

Hash

El uso de hash consiste en aplicar un algoritmo criptográfico que produce una cadena única e irreversible de caracteres de un tamaño fijo, denominada hash. AWS Entity Resolution utiliza el protocolo hash Secure Hash Algorithm de 256 bits (SHA256) y generará una cadena de caracteres de 32 bytes. En AWS Entity Resolution, puede elegir si desea codificar los valores de los datos en la salida.

Protocolo hash (HashingProtocol)

AWS Entity Resolution utiliza el protocolo hash Secure Hash Algorithm de 256 bits (SHA256) y generará una cadena de caracteres de 32 bytes. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Método de asignación de ID

Cómo desea que se realice la asignación de ID.

Existen dos métodos de mapeo de ID:

Rule-based — Método mediante el cual se utilizan reglas de coincidencia para traducir datos propios de una fuente a un destino en un flujo de trabajo de mapeo de ID.
Servicios de proveedores: método mediante el cual se utiliza un servicio de proveedor para traducir datos codificados por terceros de una fuente a un destino en un flujo de trabajo de mapeo de identidades.

AWS Entity Resolution actualmente admite LiveRamp como método de mapeo de ID basado en servicios de proveedores. Debe tener una suscripción AWS Data Exchange para LiveRamp utilizar este método. Para obtener más información, consulte Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange.

Flujo de trabajo de asignación de ID

Un trabajo de procesamiento de datos que mapea los datos de una fuente de datos de entrada a un destino de datos de entrada en función del método de mapeo de ID especificado. Produce una tabla de asignación de ID. Este flujo de trabajo requiere que especifique el método de mapeo de ID y los datos de entrada que desea traducir de una fuente a un destino.

Puedes configurar un flujo de trabajo de mapeo de ID para que se ejecute por tu cuenta Cuenta de AWS o en dos Cuentas de AWS.

Espacio de nombres de ID

Un recurso AWS Entity Resolution que contiene metadatos que explican los conjuntos de datos de varios conjuntos de datos Cuentas de AWS y cómo usarlos en un flujo de trabajo de mapeo de ID.

Hay dos tipos de espacios de nombres de ID: y. SOURCE TARGET SOURCEContiene configuraciones para los datos de origen que se procesarán en un flujo de trabajo de mapeo de ID. TARGETContiene una configuración de los datos de destino a la que se adaptarán todas las fuentes. Para definir los datos de entrada que desea dividir en dos Cuentas de AWS, cree una fuente de espacio de nombres de ID y un destino de espacio de nombres de ID para traducir los datos de un conjunto () a otro ()SOURCE. TARGET

Después de crear espacios de nombres de ID con otro miembro y ejecutar un flujo de trabajo de mapeo de ID, pueden unirse a una colaboración AWS Clean Rooms para realizar una unión de varias tablas en la tabla de mapeo de ID y analizar los datos.

Para obtener más información, consulte la Guía del usuario de AWS Clean Rooms.

Flujo de trabajo incremental

Un proceso que solo compara y resuelve los registros nuevos o actualizados desde la última ejecución, en lugar de procesar todo el conjunto de datos. Los flujos de trabajo incrementales se AWS Entity Resolution utilizan mejor para realizar actualizaciones frecuentes a fin de mantener los datos actualizados cuando solo ha cambiado una pequeña parte del conjunto de datos.

Campo de entrada

Un campo de entrada corresponde al nombre de una columna de la tabla AWS Glue de datos de entrada.

Fuente de entrada ARN (ARNInputSource)

El nombre de recurso de Amazon (ARN) que se generó para una entrada de AWS Glue tabla. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Coincidencias basadas en machine learning

La coincidencia basada en el aprendizaje automático (coincidencia de aprendizaje automático) busca coincidencias en sus datos que pueden estar incompletas o que no tengan exactamente el mismo aspecto. La coincidencia de aprendizaje automático es un proceso preestablecido que intentará hacer coincidir los registros de todos los datos que introduzcas. La coincidencia de ML devuelve un identificador de coincidencia y un nivel de confianza para cada conjunto de datos coincidente.

Procesamiento manual

Una opción de cadencia de procesamiento para un trabajo de flujo de trabajo coincidente que permite ejecutarlo bajo demanda.

Esta opción está configurada de forma predeterminada y está disponible tanto para la coincidencia basada en reglas como para la coincidencia basada en el aprendizaje automático.

Many-to-Many coincidente

Many-to-many la coincidencia compara varias instancias de datos similares. Los valores de los campos de entrada a los que se haya asignado la misma clave de coincidencia se compararán entre sí, independientemente de si están en el mismo campo de entrada o en campos de entrada diferentes.

Por ejemplo, es posible que tengas varios campos de introducción de números de teléfono, como «Teléfono» mobile_phone y home_phone que tengan la misma clave coincidente. Utilice la coincidencia de varios a varios para comparar los datos del campo mobile_phone de entrada con los datos del campo mobile_phone de entrada y los datos del campo home_phone de entrada.

Las reglas de coincidencia evalúan los datos de varios campos de entrada con la misma clave de coincidencia mediante una operación (o), y la coincidencia de uno a varios compara los valores de varios campos de entrada. Esto significa que si hay alguna combinación mobile_phone o home_phone coincidencia entre dos registros, la tecla de coincidencia «Teléfono» devolverá una coincidencia. Para encontrar una coincidencia, pulse «Teléfono», Record One mobile_phone = Record Two mobile_phone Record One mobile_phone = Record Two home_phone OR Record One home_phone = Record Two home_phone ORRecord One home_phone = Record Two mobile_phone.

ID de coincidencia (matchID)

Para la coincidencia basada en reglas y la coincidencia de aprendizaje automático, este es el ID generado AWS Entity Resolution y aplicado a cada conjunto de registros coincidente. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Haga coincidir la clave (MatchKey)

La tecla Match indica AWS Entity Resolution qué campos de entrada se deben considerar como datos similares y cuáles se deben considerar como datos diferentes. Esto ayuda a configurar AWS Entity Resolution automáticamente las reglas de coincidencia basadas en reglas y a comparar datos similares almacenados en diferentes campos de entrada.

Si en sus datos hay varios tipos de información sobre números de teléfono, como un mobile_phone campo de home_phone entrada y un campo de entrada, que le gustaría comparar entre sí, puede asignar a ambos la tecla correspondiente «Teléfono». Luego, la coincidencia basada en reglas se puede configurar para comparar datos utilizando las instrucciones «o» en todos los campos de entrada con la tecla de coincidencia «Teléfono» (consulte las definiciones de One-to-One coincidencia y Many-to-Many coincidencia en la sección Flujo de trabajo coincidente).

Si desea que las coincidencias basadas en reglas consideren distintos tipos de información de números de teléfono por separado, puede crear claves de coincidencia más específicas, como «Mobile_Phone» y «». Home_Phone A continuación, al configurar un flujo de trabajo de coincidencia, puede especificar cómo se utilizará cada clave de coincidencia de teléfonos en la búsqueda de coincidencias basada en reglas.

Si MatchKey se especifica un número para un campo de entrada concreto, no se puede usar para la coincidencia, pero se puede llevar a cabo durante el proceso de flujo de trabajo de coincidencia y, si se desea, se puede generar como salida.

Nombre de clave de coincidencia

El nombre asignado a una clave de coincidencia.

Regla de coincidencia (MatchRule)

En el caso de las coincidencias basadas en reglas, este es el número de regla aplicado que generó un conjunto de registros coincidentes. Esto forma parte de los metadatos del flujo de trabajo coincidentes que se incluirán en la salida.

Coincidencia

Proceso de combinar y comparar datos de diferentes campos de entrada, tablas o bases de datos y determinar cuáles son iguales (o «coinciden») en función del cumplimiento de ciertos criterios de coincidencia (por ejemplo, mediante reglas o modelos coincidentes).

Flujo de trabajo correspondiente

El proceso que se configura para especificar los datos de entrada que deben coincidir y cómo se debe realizar la coincidencia.

Descripción del flujo de trabajo coincidente

Una descripción opcional del flujo de trabajo coincidente que puede decidir introducir. Las descripciones le ayudan a diferenciar entre los flujos de trabajo coincidentes si crea más de uno.

Nombre del flujo de trabajo coincidente

El nombre del flujo de trabajo coincidente que especifique.

nota

Los nombres de los flujos de trabajo coincidentes deben ser únicos. No pueden tener el mismo nombre o se devolverá un error.

Los metadatos del flujo de trabajo coinciden

Información generada y generada AWS Entity Resolution durante un trabajo de flujo de trabajo coincidente. Esta información es obligatoria en la salida.

Normalización (ApplyNormalization)

Elija si desea normalizar los datos de entrada tal como se define en el esquema. La normalización estandariza los datos al eliminar los espacios adicionales y los caracteres especiales y estandarizarlos al formato en minúsculas.

Por ejemplo, si un campo de entrada tiene el tipo de atributo Teléfono completo y los valores de la tabla de entrada tienen el formato correspondiente(123) 456-7890, los valores se AWS Entity Resolution normalizarán a. 1234567890

nota

La normalización solo es compatible con el tipo de grupo correspondiente al nombre, la dirección, el teléfono y el correo electrónico.

En las siguientes secciones se describen nuestras reglas de normalización estándar.

Para obtener ML-based información específica sobre la coincidencia, consulteNormalización (): solo ApplyNormalization ML-based.

Name

nota

La normalización solo se admite para el tipo de grupo de nombres.

El tipo de grupo de nombres aparece como nombre completo en la consola y NAME en la API.

Si quieres normalizar los subtipos del grupo de nombres, escribe:

En la consola, asigne los siguientes subtipos al grupo de nombres completos: nombre, segundo nombre y apellido.
En la CreateSchemaMappingAPI, asigne los siguientes tipos a NAME GroupName: NAME_FIRSTNAME_MIDDLE, y. NAME_LAST

TRIM = Recorta los espacios en blanco iniciales y finales
MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos
CONVERT_ACCENT = Convierte una letra acentuada a una letra normal
REMOVE_ALL_NON_ALPHA = Elimina todos los caracteres no alfabéticos [a-z] A-Z

Correo electrónico

nota

Se admite la normalización para el tipo de grupo de correo electrónico.

El tipo de grupo de correo electrónico aparece como dirección de correo electrónico en la consola y EMAIL_ADDRESS en la API.

TRIM = Recorta los espacios en blanco iniciales y finales
MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos
CONVERT_ACCENT = Convierte una letra acentuada a una letra normal
EMAIL_ADDRESS_UTIL_NORM = Elimina cualquier punto (.) del nombre de usuario, elimina todo lo que aparezca después del signo más (+) del nombre de usuario y estandariza las variaciones de dominio más comunes
REMOVE_ALL_NON_EMAIL_CHARS = Elimina todos los caracteres no alfanuméricos [a-z] y [.@-] A-Z0-9

Teléfono

nota

La normalización solo es compatible con el tipo de grupo de teléfonos.

El tipo de grupo de teléfonos aparece como Teléfono completo en la consola y PHONE en la API.

Si quieres normalizar los subtipos del tipo de grupo de teléfonos:

En la consola, asigne los siguientes subtipos al grupo de teléfonos completo: número de teléfono y código de país del teléfono.
En la CreateSchemaMappingAPI, asigne los siguientes tipos a PHONE GroupName: PHONE_NUMBER y. PHONE_COUNTRYCODE

TRIM = Recorta los espacios en blanco iniciales y finales
REMOVE_ALL_NON_NUMERIC = Elimina todos los caracteres no numéricos [0-9]
REMOVE_ALL_LEADING_ZEROES = Elimina todos los ceros iniciales
ENSURE_PREFIX_WITH_MAP, «phone» = Examina cada número de teléfono e intenta compararlo con los patrones del teléfono. PrefixMap PrefixMap Si se encuentra una coincidencia, la regla añadirá o modificará el prefijo del número de teléfono para garantizar que se ajusta al formato estandarizado especificado en el mapa.

Dirección

nota

La normalización solo se admite para el tipo de grupo de direcciones.

El tipo de grupo de direcciones aparece como dirección completa en la consola y ADDRESS en la API.

Si quieres normalizar los subtipos del tipo de grupo de direcciones:

En la consola, asigne los siguientes subtipos al grupo de direcciones completo: dirección 1, dirección 2: nombre de la dirección 3, nombre de la ciudad, estado, país y código postal t
En la CreateSchemaMappingAPI, asigne los siguientes tipos a ADDRESS GroupName:ADDRESS_STREET1,ADDRESS_STREET2,ADDRESS_STREET3, ADDRESS_CITY ADDRESS_STATEADDRESS_COUNTRY, y. ADDRESS_POSTALCODE

TRIM = Recorta los espacios en blanco iniciales y finales
MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos
CONVERT_ACCENT = Convierte una letra acentuada a una letra normal
REMOVE_ALL_NON_ALPHA = Elimina todos los caracteres no alfabéticos [a-z] A-Z
RENAME_WORDS utilizando ADDRESS_RENAME_WORD_MAP = sustituye las palabras de la cadena de direcciones por palabras de ADDRESS_RENAME_WORD_MAP
RENAME_DELIMITERS mediante ADDRESS_RENAME_DELIMITER_MAP = reemplazar los delimitadores de la cadena de direcciones por la cadena de direcciones de ADDRESS_RENAME_DELIMITER_MAP
RENAME_DIRECTIONS utilizando ADDRESS_RENAME_DIRECTION_MAP = reemplazar los delimitadores de la cadena de direcciones por una cadena de ADDRESS_RENAME_DIRECTION_MAP
RENAME_NUMBERS con ADDRESS_RENAME_NUMBER_MAP = reemplaza los números de la cadena de direcciones por la cadena de direcciones de ADDRESS_RENAME_NUMBER_MAP
RENAME_SPECIAL_CHARS utilizando ADDRESS_RENAME_SPECIAL_CHAR_MAP = sustituir los caracteres especiales de la cadena de direcciones por una cadena de ADDRESS_RENAME_SPECIAL_CHAR_MAP

ADDRESS_RENAME_WORD_MAP

Estas son las palabras a las que se les cambiará el nombre al normalizar la cadena de direcciones.


"avenue": "ave",
 "bouled": "blvd",
 "circle": "cir",
 "circles": "cirs",
 "court": "ct",
 "centre": "ctr",
 "center": "ctr",
 "drive": "dr",
 "freeway": "fwy",
 "frwy": "fwy",
 "highway": "hwy",
 "lane": "ln",
 "parks": "park",
 "parkways": "pkwy",
 "pky": "pkwy",
 "pkway": "pkwy",
 "pkwys": "pkwy",
 "parkway": "pkwy",
 "parkwy": "pkwy",
 "place": "pl",
 "plaza": "plz",
 "plza": "plz",
 "road": "rd",
 "square": "sq",
 "squ": "sq",
 "sqr": "sq",
 "street": "st",
 "str": "st",
 "str.": "strasse"

ADDRESS_RENAME_DELIMITER_MAP

Estos son los delimitadores a los que se les cambiará el nombre al normalizar la cadena de direcciones.


",": " ",
".": " ",
"[": " ",
"]": " ",
"/": " ",
"-": " ",
"#": " number "

ADDRESS_RENAME_DIRECTION_MAP

Estos son los identificadores de dirección a los que se les cambiará el nombre al normalizar la cadena de direcciones.


"east": "e",
"north": "n",
"south": "s",
"west": "w",
"northeast": "ne",
"northwest": "nw",
"southeast": "se",
"southwest": "sw"

ADDRESS_RENAME_NUMBER_MAP

Estas son las cadenas numéricas a las que se les cambiará el nombre al normalizar la cadena de direcciones.


"número": "number",
 "numero": "number",
 "no": "number",
 "núm": "number",
 "num": "number"

ADDRESS_RENAME_SPECIAL_CHAR_MAP

Estas son las cadenas de caracteres especiales a las que se les cambiará el nombre al normalizar la cadena de direcciones.


"ß": "ss",
 "ä": "ae",
 "ö": "oe",
 "ü": "ue",
 "ø": "o",
 "æ": "ae"

Con un hash

TRIM = Recorta los espacios en blanco iniciales y finales

Source_ID

TRIM = Recorta los espacios en blanco iniciales y finales

Normalización (): solo ApplyNormalization ML-based

Por ejemplo, si un campo de entrada tiene un tipo de atributo de y los valores de NAME la tabla de entrada tienen el formato correspondienteJohns Smith, los valores se AWS Entity Resolution normalizarán a. john smith

En las siguientes secciones se describen las reglas de normalización para los flujos de trabajo de coincidencia basados en el aprendizaje automático.

Temas

Name
Correo electrónico
Teléfono

Name

TRIM = Recorta los espacios en blanco iniciales y finales
MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos

Correo electrónico

MINÚSCULAS = Pone en minúscula todos los caracteres alfabéticos
Sustituye únicamente (at) (distingue entre mayúsculas y minúsculas) por el símbolo @
Elimina todos los espacios en blanco de cualquier parte del valor
Elimina todo lo que esté fuera del primero, "< >" si existe

Teléfono

TRIM = Recorta los espacios en blanco iniciales y finales
REMOVE_ALL_NON_NUMERIC = Elimina todos los caracteres no numéricos [0-9]
REMOVE_ALL_LEADING_ZEROES = Elimina todos los ceros iniciales
ENSURE_PREFIX_WITH_MAP, «phone» = Examina cada número de teléfono e intenta compararlo con los patrones del teléfono. PrefixMap PrefixMap Si se encuentra una coincidencia, la regla añadirá o modificará el prefijo del número de teléfono para garantizar que se ajusta al formato estandarizado especificado en el mapa.

One-to-One coincidente

One-to-one la coincidencia compara instancias individuales de datos similares. Los campos de entrada con la misma clave de coincidencia y los valores del mismo campo de entrada se compararán entre sí.

Por ejemplo, es posible que tengas varios campos de entrada de números de teléfono, como mobile_phone y home_phone que tengan la misma clave de coincidencia: «Teléfono». Utilice la coincidencia uno a uno para comparar los datos del campo de mobile_phone entrada con los datos del campo de mobile_phone entrada y para comparar los datos del campo de home_phone entrada con los datos del campo de home_phone entrada. Los datos del campo mobile_phone de entrada no se compararán con los datos del campo de home_phone entrada.

Las reglas de coincidencia evalúan los datos de varios campos de entrada con la misma clave de coincidencia mediante una operación (o), y la coincidencia de uno a varios compara los valores de un solo campo de entrada. Esto significa que si dos registros home_phone coinciden mobile_phone o coinciden entre ellos, la clave de coincidencia «Teléfono» devolverá una coincidencia. Para encontrar una coincidencia, escriba «Teléfono» Record One mobile_phone = Record Two mobile_phone oRecord One home_phone = Record Two home_phone.

Las reglas de coincidencia evalúan los datos de los campos de entrada con diferentes claves de coincidencia mediante una operación (y). Si quieres que las coincidencias basadas en reglas consideren distintos tipos de información de números de teléfono por separado, puedes crear claves de coincidencia más específicas, como «mobile_phone» y «home_phone». Si quieres usar ambas claves de coincidencia en una regla para buscar coincidencias, AND. Record One mobile_phone = Record Two mobile_phone Record One home_phone = Record Two home_phone

Output

Una lista de OutputAttributeobjetos, cada uno de los cuales tiene los campos Nombre y Hashed. Cada uno de estos objetos representa una columna que se incluirá en la tabla de AWS Glue resultados y si desea que los valores de la columna estén codificados con un hash.

Ruta 3 de salida

El destino S3 en el que se AWS Entity Resolution escribirá la tabla de resultados.

OutputSourceConfig

Una lista de OutputSource objetos, cada uno de los cuales tiene los campos Outputs3Path y Output. ApplyNormalization

Coincidencia basada en los servicios del proveedor

La correspondencia basada en los servicios de los proveedores es un proceso diseñado para hacer coincidir, vincular y mejorar sus registros con los proveedores de servicios de datos preferidos y los conjuntos de datos con licencia. Debe estar suscrito al servicio del proveedor para utilizar esta técnica de comparación. AWS Data Exchange

AWS Entity Resolution actualmente se integra con los siguientes proveedores de servicios de datos:

LiveRamp
TransUnion
UID 2.0

Rule-based coincidente

Rule-based la coincidencia es un proceso diseñado para encontrar coincidencias exactas. Rule-based la coincidencia es un conjunto jerárquico de reglas de coincidencia en cascada, sugeridas por AWS Entity Resolution, basadas en los datos que usted introduce y que usted puede configurar completamente. Todas las claves de coincidencia incluidas en los criterios de la regla deben coincidir exactamente para que los datos comparados se declaren coincidentes y para que se generen los metadatos asociados. Rule-based la coincidencia devuelve un identificador de coincidencia y un número de regla para cada conjunto de datos coincidente.

Recomendamos definir reglas que puedan identificar de forma exclusiva a una entidad. Ordene primero sus reglas para encontrar coincidencias más precisas.

Por ejemplo, supongamos que tienes dos reglas, la Regla 1 y la Regla 2.

Estas reglas tienen las siguientes claves de coincidencia:

La regla 1 incluye el nombre completo y la dirección
La regla 2 incluye el nombre completo, la dirección y el teléfono

Como la regla 1 se ejecuta primero, la regla 2 no encontrará coincidencias porque la regla 1 las habría encontrado todas.

Para buscar coincidencias diferenciadas por teléfono, reordena las reglas de la siguiente manera:

La regla 2 incluye el nombre completo, la dirección y el teléfono
La regla 1 incluye el nombre completo y la dirección

Coincidencia transitiva

La coincidencia transitiva es una función opcional para los flujos de trabajo de coincidencia basados en reglas que utilizan el tipo de regla avanzada. De forma predeterminada, AWS Entity Resolution utiliza un enfoque de coincidencia en cascada en el que los registros que coinciden con un nivel de regla superior se excluyen de las reglas posteriores. Con la coincidencia transitiva habilitada, todos los registros se procesan en todos los niveles de reglas. El identificador de coincidencia de un registro se fija cuando coincide por primera vez, pero el registro sigue actuando como enlace para conectar registros no coincidentes de reglas posteriores con grupos de coincidencias de reglas anteriores.

Para obtener más información, consulte Uso de la coincidencia transitiva.

Esquema

Término que se utiliza para designar una estructura o un diseño que define cómo se organiza y conecta un conjunto de datos.

Descripción del esquema

Una descripción opcional del esquema que puede elegir introducir. Las descripciones le ayudan a diferenciar entre las asignaciones de esquemas si crea más de una.

Nombre del esquema

El nombre del esquema.

nota

Los nombres de los esquemas deben ser únicos. No pueden tener el mismo nombre o se devolverá un error.

Asignación de esquemas

El mapeo de esquemas AWS Entity Resolution es el proceso mediante el cual se indica AWS Entity Resolution cómo interpretar los datos para que coincidan. Usted define el esquema de la tabla de datos de entrada que AWS Entity Resolution desea leer en un flujo de trabajo coincidente.

ARN de mapeo de esquemas

El nombre de recurso de Amazon (ARN) generado para el mapeo del esquema.

ID único

Un identificador único que usted designa y que debe asignarse a cada fila de datos de entrada que se AWS Entity Resolution lea.

ejemplo

Por ejemplo: Primary_key, Row_ID o Record_ID.

La columna de ID único es obligatoria.

El identificador único debe ser un identificador único dentro de una sola tabla.

El identificador único debe cumplir este patrón: [a-zA-Z0-9_-]

En diferentes tablas, el identificador único puede tener valores duplicados.

La longitud máxima del identificador único es 38 para un flujo de trabajo coincidente

La longitud máxima del identificador único es de 257 caracteres para un Flujo de trabajo de asignación de ID

Cuando se ejecute el flujo de trabajo coincidente, el registro se rechazará si el identificador único:

no está especificado
no es único en la misma tabla
se superpone en términos de nombre de atributo en todas las fuentes
supera los 38 caracteres (solo flujos de trabajo de coincidencia basados en reglas)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Historial de revisión