Résolution des entités AWS Glossaire - Résolution des entités AWS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des entités AWS Glossaire

Nom de la ressource Amazon (ARN)

Identifiant unique pour les AWS ressources. ARNssont obligatoires lorsque vous devez spécifier une ressource sans ambiguïté dans l'ensemble, par exemple dans les Résolution des entités AWS politiques Résolution des entités AWS, les balises Amazon Relational Database Service (AmazonRDS) et les appels. API

Traitement automatique

Une option de cadence de traitement pour une tâche de flux de travail correspondante qui permet de l'exécuter automatiquement lorsque votre saisie de données change.

Cette option n'est disponible que pour le rapprochement basé sur des règles.

Par défaut, la cadence de traitement d'une tâche de flux de travail correspondante est définie sur Manuel, ce qui permet de l'exécuter à la demande. Vous pouvez configurer le traitement automatique pour exécuter automatiquement la tâche de flux de travail correspondante lorsque votre saisie de données change. Cela permet de conserver le résultat correspondant à votre flux de travail up-to-date.

AWS KMS key ARN

Il s'agit de votre nom de ressource AWS KMS Amazon (ARN) pour le chiffrement au repos. Si elle n'est pas fournie, le système utilisera une KMS clé Résolution des entités AWS gérée.

Texte clair

Données qui ne sont pas protégées par cryptographie.

Niveau de confiance (ConfidenceLevel)

Pour la correspondance ML, il s'agit du niveau de confiance appliqué Résolution des entités AWS lorsque ML identifie un ensemble d'enregistrements correspondants. Cela fait partie des métadonnées de flux de travail correspondantes qui seront incluses dans la sortie.

Déchiffrement

Processus qui consiste à remettre les données chiffrées dans leur forme d'origine. Le déchiffrement ne peut être effectué que si vous avez accès à la clé secrète.

Chiffrement

Processus consistant à coder des données sous une forme qui semble aléatoire à l'aide d'une valeur secrète appelée clé. Il est impossible de déterminer le texte brut d'origine sans accéder à la clé.

Nom du groupe

Le nom du groupe fait référence à l'ensemble des champs de saisie et peut vous aider à regrouper les données analysées à des fins de correspondance.

Par exemple, s'il existe trois champs de saisie : first_namemiddle_name, etlast_name, vous pouvez les regrouper en saisissant le nom du groupe comme full_name pour la correspondance et la sortie.

Hachage

Le hachage consiste à appliquer un algorithme cryptographique qui produit une chaîne de caractères unique et irréversible de taille fixe, appelée hachage. Résolution des entités AWS utilise le protocole de hachage 256 bits (SHA256) de l'algorithme de hachage sécurisé et produira une chaîne de caractères de 32 octets. Dans Résolution des entités AWS, vous pouvez choisir de hacher ou non les valeurs des données dans votre sortie.

Protocole de hachage () HashingProtocol

Résolution des entités AWS utilise le protocole de hachage 256 bits (SHA256) de l'algorithme de hachage sécurisé et produira une chaîne de caractères de 32 octets. Cela fait partie des métadonnées de flux de travail correspondantes qui seront incluses dans la sortie.

Méthode de mappage des identifiants

Comment souhaitez-vous que le mappage des identifiants soit effectué.

Il existe deux méthodes de mappage des identifiants :

  • Basée sur des règles : méthode par laquelle vous utilisez des règles de correspondance pour traduire des données de première partie d'une source vers une cible dans un flux de travail de mappage d'identifiants.

  • Services du fournisseur : méthode par laquelle vous utilisez un service fournisseur pour traduire des données codées par des tiers d'une source vers une cible dans un flux de travail de mappage d'identifiants.

    Résolution des entités AWS est actuellement prise en charge en LiveRamp tant que méthode de mappage d'identifiants basée sur les services des fournisseurs. Vous devez être abonné à LiveRamp through AWS Data Exchange pour utiliser cette méthode. Pour de plus amples informations, veuillez consulter Étape 1 : Abonnez-vous à un service fournisseur sur AWS Data Exchange.

Workflow de mappage des identifiants

Une tâche de traitement de données qui mappe les données d'une source de données d'entrée vers une cible de données d'entrée en fonction de la méthode de mappage d'ID spécifiée. Il produit une table de mappage des identifiants. Ce flux de travail vous oblige à spécifier la méthode de mappage des identifiants et les données d'entrée que vous souhaitez traduire d'une source vers une cible.

Vous pouvez configurer un flux de travail de mappage d'identifiants pour qu'il s'exécute seul Compte AWS ou en deux Comptes AWS.

Espace de noms ID

Une ressource Résolution des entités AWS qui contient des métadonnées expliquant les ensembles de données sur plusieurs Comptes AWS et expliquant comment utiliser ces ensembles de données dans un flux de travail de mappage d'identifiants.

Il existe deux types d'espaces de noms d'ID : SOURCE etTARGET. SOURCEcontient les configurations des données sources qui seront traitées dans un flux de travail de mappage d'identifiants. TARGETContient une configuration des données cibles vers laquelle toutes les sources seront résolues. Pour définir les données d'entrée que vous souhaitez résoudre entre deux Comptes AWS, créez une source d'espace de noms ID et une cible d'espace de noms ID pour traduire vos données d'un ensemble (SOURCE) à un autre (). TARGET

Une fois que vous et un autre membre avez créé des espaces de noms d'identification et exécuté un flux de travail de mappage d'identifiants, vous pouvez rejoindre une collaboration AWS Clean Rooms pour exécuter une jointure multitable sur la table de mappage d'identifiants et analyser les données.

Pour plus d’informations, consultez le AWS Clean Rooms Guide de l’utilisateur .

Champ de saisie

Un champ de saisie correspond au nom d'une colonne de votre table de données AWS Glue d'entrée.

Source d'entrée ARN (InputSourceARN)

Le nom de ressource Amazon (ARN) qui a été généré pour une entrée de AWS Glue table. Cela fait partie des métadonnées de flux de travail correspondantes qui seront incluses dans la sortie.

Type d’entrée

Type de données d'entrée. Vous le sélectionnez dans une liste préconfigurée de valeurs telles que le nom, l'adresse, le numéro de téléphone ou l'adresse e-mail. Le type d'entrée indique Résolution des entités AWS le type de données que vous présentez, ce qui permet de les classer et de les normaliser correctement.

Correspondance basée sur le machine learning

La mise en correspondance basée sur l'apprentissage automatique (ML matching) permet de trouver des correspondances entre vos données qui peuvent être incomplètes ou ne pas avoir exactement la même apparence. La correspondance ML est un processus prédéfini qui tentera de faire correspondre les enregistrements de toutes les données que vous entrez. La correspondance ML renvoie un ID de correspondance et un niveau de confiance pour chaque ensemble de données correspondant.

Traitement manuel

Option de cadence de traitement pour une tâche de flux de travail correspondante qui permet de l'exécuter à la demande.

Cette option est définie par défaut et est disponible à la fois pour la correspondance basée sur des règles et pour la correspondance basée sur l'apprentissage automatique.

Many-to-Many appariement

Many-to-many matching compare plusieurs instances de données similaires. Les valeurs des champs de saisie auxquels la même clé de correspondance a été attribuée seront comparées les unes aux autres, qu'elles se trouvent dans le même champ de saisie ou dans des champs de saisie différents.

Par exemple, vous pouvez avoir plusieurs champs de saisie de numéros de téléphone, tels home_phone que mobile_phone et qui ont la même touche de correspondance « Téléphone ». Utilisez le many-to-many rapprochement pour comparer les données du champ de mobile_phone saisie aux données du champ de mobile_phone saisie et aux données du champ de home_phone saisie.

Les règles de correspondance évaluent les données de plusieurs champs de saisie avec la même clé de correspondance à l'aide d'une opération (ou), et le one-to-many rapprochement compare les valeurs entre plusieurs champs de saisie. Cela signifie que si une combinaison mobile_phone ou une home_phone correspondance entre deux enregistrements, la touche de correspondance « Téléphone » renverra une correspondance. Pour la touche de correspondance « Téléphone » pour trouver une correspondance, Record One mobile_phone = Record Two mobile_phone OU Record One mobile_phone = Record Two home_phone OU Record One home_phone = Record Two home_phone OURecord One home_phone = Record Two mobile_phone.

Identifiant du match (MatchID)

Pour la correspondance basée sur des règles et la correspondance ML, il s'agit de l'ID généré Résolution des entités AWS et appliqué à chaque ensemble d'enregistrements appariés. Cela fait partie des métadonnées de flux de travail correspondantes qui seront incluses dans la sortie.

Clé de correspondance (MatchKey)

La touche Match indique les Résolution des entités AWS champs de saisie à considérer comme des données similaires et ceux à considérer comme des données différentes. Cela permet de configurer Résolution des entités AWS automatiquement des règles de correspondance basées sur des règles et de comparer des données similaires stockées dans différents champs de saisie.

S'il existe plusieurs types d'informations de numéro de téléphone, comme un mobile_phone champ de home_phone saisie et un champ de saisie dans vos données, vous pouvez leur attribuer la touche correspondante « Téléphone ». La correspondance basée sur des règles peut ensuite être configurée pour comparer les données à l'aide des instructions « ou » dans tous les champs de saisie avec la touche de correspondance « Téléphone » (voir les définitions de One-to-One correspondance et Many-to-Many de correspondance dans la section Matching Workflow).

Si vous souhaitez que la correspondance basée sur des règles prenne en compte les différents types d'informations de numéro de téléphone de manière complètement séparée, vous pouvez créer des clés de correspondance plus spécifiques, telles que « Mobile_Phone » et « Home_Phone ». Ensuite, lors de la configuration d'un flux de travail de correspondance, vous pouvez spécifier comment chaque touche de correspondance téléphonique sera utilisée dans le cadre de la correspondance basée sur des règles.

Si non MatchKey est spécifié pour un champ de saisie particulier, il ne peut pas être utilisé pour la mise en correspondance mais peut être effectué tout au long du processus de correspondance et peut être sorti si vous le souhaitez.

Nom de la clé de correspondance

Le nom attribué à une clé de correspondance.

Règle de correspondance (MatchRule)

Pour le rapprochement basé sur des règles, il s'agit du numéro de règle appliqué qui a généré un ensemble d'enregistrements correspondants. Cela fait partie des métadonnées de flux de travail correspondantes qui seront incluses dans la sortie.

Correspondance

Processus qui consiste à combiner et à comparer des données provenant de différents champs d'entrée, tables ou bases de données et à déterminer lesquelles de ces données sont similaires (ou « correspondent ») en fonction de certains critères de correspondance (par exemple, par le biais de règles ou de modèles de correspondance).

Flux de travail correspondant

Le processus que vous avez configuré pour spécifier les données d'entrée à associer et la manière dont la correspondance doit être effectuée.

Description du flux de travail correspondant

Description facultative du flux de travail correspondant que vous pouvez choisir de saisir. Les descriptions vous aident à différencier les flux de travail correspondants si vous en créez plusieurs.

Nom du flux de travail correspondant

Nom du flux de travail correspondant que vous spécifiez.

Note

Les noms de flux de travail correspondants doivent être uniques. Ils ne peuvent pas porter le même nom, sinon une erreur sera renvoyée.

Metadonnées de flux de travail correspondantes

Informations générées et sorties par Résolution des entités AWS lors d'une tâche de flux de travail correspondante. Ces informations sont requises en sortie.

Normalisation (ApplyNormalization)

Choisissez si vous souhaitez normaliser les données d'entrée telles que définies dans le schéma. La normalisation normalise les données en supprimant les espaces et les caractères spéciaux supplémentaires et en normalisant le format en minuscules.

Par exemple, si un champ de saisie est de PHONE_NUMBER type et que les valeurs de la table d'entrée sont mises en forme(123) 456-7890, les valeurs Résolution des entités AWS seront normalisées en1234567890.

Les sections suivantes décrivent nos règles de normalisation standard. Pour la correspondance basée sur le ML en particulier, voir. Normalisation (ApplyNormalization) — Basé uniquement sur le ML

Nom

  • TRIM= Supprime les espaces blancs avant et arrière

  • LOWERCASE= En minuscules tous les caractères alphabétiques

  • CONVERT_ ACCENT = Convertir une lettre accentuée en lettre ordinaire

  • REMOVE_ _ ALL NON _ ALPHA = Supprime tous les caractères non alphabétiques [A-za-Z]

E-mails

  • TRIM= Supprime les espaces blancs avant et arrière

  • LOWERCASE= En minuscules tous les caractères alphabétiques

  • CONVERT_ ACCENT = Convertir une lettre accentuée en lettre ordinaire

  • EMAIL_ _ ADDRESS UTIL _ NORM = Supprime tous les points (.) du nom d'utilisateur, supprime tout ce qui se trouve après un signe plus (+) dans le nom d'utilisateur et normalise les variations de domaine courantes

  • REMOVE_ _ ALL _ NON EMAIL _ CHARS = Supprime tous les non-alpha-numeric caractères [A-za-Z0-9] et [.@-]

Téléphone

  • TRIM= Supprime les espaces blancs avant et arrière

  • REMOVE_ _ ALL NON _ NUMERIC = Supprime tous les caractères non numériques [0-9]

  • REMOVE_ _ ALL LEADING _ ZEROES = Supprime tous les zéros en tête

  • ENSURE_ PREFIX _ WITH _MAP, "phonePrefixMap" = Examine chaque numéro de téléphone et essaie de le comparer aux modèles du phonePrefixMap. Si une correspondance est trouvée, la règle ajoutera ou modifiera le préfixe du numéro de téléphone pour s'assurer qu'il est conforme au format standardisé spécifié sur la carte.

Address

  • TRIM= Supprime les espaces blancs avant et arrière

  • LOWERCASE= En minuscules tous les caractères alphabétiques

  • CONVERT_ ACCENT = Convertir une lettre accentuée en lettre ordinaire

  • REMOVE_ _ ALL NON _ ALPHA = Supprime tous les caractères non alphabétiques [A-za-Z]

  • RENAME_ WORDS en utilisant ADDRESS _ RENAME _ WORD _ MAP = remplacer les mots de la chaîne d'adresse par des mots provenant de ADDRESS_ RENAME _ WORD _ MAP

  • RENAME_ DELIMITERS en utilisant ADDRESS _ RENAME _ DELIMITER _ MAP = remplacer les délimiteurs dans la chaîne d'adresse par une chaîne de ADDRESS_ _ RENAME _ DELIMITER MAP

  • RENAME_ DIRECTIONS en utilisant ADDRESS _ RENAME _ DIRECTION _ MAP = remplacer les délimiteurs dans la chaîne d'adresse par une chaîne de ADDRESS_ _ RENAME _ DIRECTION MAP

  • RENAME_ NUMBERS en utilisant ADDRESS _ RENAME _ NUMBER _ MAP = remplacez les nombres dans la chaîne d'adresse par une chaîne de ADDRESS_ RENAME _ NUMBER _ MAP

  • RENAME_ SPECIAL _ CHARS en utilisant ADDRESS _ RENAME _ SPECIAL _ CHAR _ MAP = remplacez les caractères spéciaux de la chaîne d'adresse par une chaîne de ADDRESS_ RENAME _ SPECIAL _ CHAR _ MAP

ADDRESS_RENAME_WORD_MAP

Ce sont les mots qui seront renommés lors de la normalisation de la chaîne d'adresse.

"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"

ADDRESS_RENAME_DELIMITER_MAP

Ce sont les délimiteurs qui seront renommés lors de la normalisation de la chaîne d'adresse.

",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "

ADDRESS_RENAME_DIRECTION_MAP

Il s'agit des identificateurs de direction qui seront renommés lors de la normalisation de la chaîne d'adresse.

"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"

ADDRESS_RENAME_NUMBER_MAP

Il s'agit des chaînes numériques qui seront renommées lors de la normalisation de la chaîne d'adresse.

"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"

ADDRESS_RENAME_SPECIAL_CHAR_MAP

Il s'agit de la chaîne de caractères spéciaux qui sera renommée lors de la normalisation de la chaîne d'adresse.

"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"

Haché

  • TRIM= Supprime les espaces blancs avant et arrière

Identifiant de la source

  • TRIM= Supprime les espaces blancs avant et arrière

Normalisation (ApplyNormalization) — Basé uniquement sur le ML

Choisissez si vous souhaitez normaliser les données d'entrée telles que définies dans le schéma. La normalisation normalise les données en supprimant les espaces et les caractères spéciaux supplémentaires et en normalisant le format en minuscules.

Par exemple, si un champ de saisie est de NAME type et que les valeurs de la table d'entrée sont mises en formeJohns Smith, les valeurs Résolution des entités AWS seront normalisées enjohn smith.

Les sections suivantes décrivent les règles de normalisation pour les flux de travail de correspondance basés sur le machine learning.

Nom

  • TRIM= Supprime les espaces blancs avant et arrière

  • LOWERCASE= Tous les caractères alphabétiques en minuscules

E-mails

  • LOWERCASE= Tous les caractères alphabétiques en minuscules

  • Remplace uniquement (at) (sensible aux majuscules et minuscules) par le symbole @

  • Supprime tous les espaces blancs, n'importe où dans la valeur

  • Supprime tout ce qui se trouve en dehors du premier "< >" s'il existe

Téléphone

  • TRIM= Supprime les espaces blancs avant et arrière

  • REMOVE_ _ ALL NON _ NUMERIC = Supprime tous les caractères non numériques [0-9]

  • REMOVE_ _ ALL LEADING _ ZEROES = Supprime tous les zéros en tête

  • ENSURE_ PREFIX _ WITH _MAP, "phonePrefixMap" = Examine chaque numéro de téléphone et essaie de le comparer aux modèles du phonePrefixMap. Si une correspondance est trouvée, la règle ajoutera ou modifiera le préfixe du numéro de téléphone pour s'assurer qu'il est conforme au format standardisé spécifié sur la carte.

One-to-One appariement

One-to-one le matching compare des instances uniques de données similaires. Les champs de saisie ayant la même clé de correspondance et les mêmes valeurs dans le même champ de saisie seront comparés les uns aux autres.

Par exemple, vous pouvez avoir plusieurs champs de saisie de numéros de téléphone, tels home_phone que mobile_phone et qui ont la même touche de correspondance « Téléphone ». Utilisez le one-to-one rapprochement pour comparer les données du champ de mobile_phone saisie avec les données du champ de mobile_phone saisie et pour comparer les données du champ de home_phone saisie avec les données du champ de home_phone saisie. Les données du champ de mobile_phone saisie ne seront pas comparées aux données du champ de home_phone saisie.

Les règles de correspondance évaluent les données de plusieurs champs de saisie avec la même clé de correspondance à l'aide d'une opération (ou), et le one-to-many rapprochement compare les valeurs d'un seul champ de saisie. Cela signifie que si mobile_phone ou home_phone correspond entre deux enregistrements, la touche de correspondance « Téléphone » renverra une correspondance. Pour la touche de correspondance « Téléphone » pour trouver une correspondance, Record One mobile_phone = Record Two mobile_phone OURecord One home_phone = Record Two home_phone.

Les règles de correspondance évaluent les données dans les champs de saisie dotés de différentes clés de correspondance avec une opération (et). Si vous souhaitez que la correspondance basée sur des règles prenne en compte les différents types d'informations de numéro de téléphone de manière complètement séparée, vous pouvez créer des clés de correspondance plus spécifiques, telles que « mobile_phone » et « home_phone ». Si vous souhaitez utiliser les deux touches de correspondance dans une règle pour trouver des correspondances, Record One mobile_phone = Record Two mobile_phone ANDRecord One home_phone = Record Two home_phone.

Sortie

Une liste d'OutputAttributeobjets, dont chacun comporte les champs Name et Hashed. Chacun de ces objets représente une colonne à inclure dans la table AWS Glue de sortie et indique si vous souhaitez que les valeurs de la colonne soient hachées.

Sorties 3 voies

Destination S3 vers laquelle Résolution des entités AWS sera écrite la table de sortie.

OutputSourceConfig

Une liste d' OutputSource objets, dont chacun possède les champs Outputs3Path et Output. ApplyNormalization

Correspondance basée sur les services des fournisseurs

Le jumelage basé sur les services des fournisseurs est un processus conçu pour associer, relier et améliorer vos dossiers avec les fournisseurs de services de données préférés et les ensembles de données sous licence. Vous devez avoir souscrit un abonnement AWS Data Exchange auprès du service du fournisseur pour utiliser cette technique de mise en correspondance.

Résolution des entités AWS s'intègre actuellement aux fournisseurs de services de données suivants :

  • LiveRamp

  • TransUnion

  • UID2,0

Correspondance basée sur des règles

La correspondance basée sur des règles est un processus conçu pour trouver des correspondances exactes. La correspondance basée sur des règles est un ensemble hiérarchique de règles de correspondance en cascade, suggérées par Résolution des entités AWS, sur la base des données que vous saisissez et entièrement configurables par vos soins. Toutes les clés de correspondance fournies dans les critères des règles doivent correspondre exactement pour que les données comparées soient déclarées concordantes et pour que les métadonnées associées soient sorties. La correspondance basée sur des règles renvoie un identifiant de correspondance et un numéro de règle pour chaque ensemble de données correspondant.

Nous recommandons de définir des règles permettant d'identifier une entité de manière unique. Classez vos règles pour trouver d'abord des correspondances plus précises.

Supposons, par exemple, que vous ayez deux règles, la règle 1 et la règle 2.

Ces règles comportent les clés de correspondance suivantes :

  • La règle 1 inclut le nom complet et l'adresse

  • La règle 2 inclut le nom complet, l'adresse et le téléphone

Comme la Règle 1 s'exécute en premier, aucune correspondance ne sera trouvée par la Règle 2 car elles auraient toutes été trouvées selon la Règle 1.

Pour trouver des correspondances différenciées par téléphone, réorganisez les règles comme suit :

  • La règle 2 inclut le nom complet, l'adresse et le téléphone

  • La règle 1 inclut le nom complet et l'adresse

Schema

Terme utilisé pour désigner une structure ou une mise en page définissant la manière dont un ensemble de données est organisé et connecté.

Description du schéma

Description facultative du schéma que vous pouvez choisir de saisir. Les descriptions vous aident à différencier les mappages de schéma si vous en créez plusieurs.

Nom du schéma

Nom du schéma.

Note

Les noms de schéma doivent être uniques. Ils ne peuvent pas porter le même nom, sinon une erreur sera renvoyée.

Cartographie du schéma

Le mappage du schéma Résolution des entités AWS est le processus par lequel vous indiquez Résolution des entités AWS comment interpréter vos données à des fins de correspondance. Vous définissez le schéma de la table de données d'entrée que vous Résolution des entités AWS souhaitez lire dans un flux de travail correspondant.

Cartographie du schéma ARN

Le nom de ressource Amazon (ARN) généré pour le mappage du schéma.

Identifiant unique

Identifiant unique que vous désignez et qui doit être attribué à chaque ligne de données d'entrée Résolution des entités AWS lue.

Par exemple : Primary_key, Row_ID ou Record_ID.

La colonne Unique ID est obligatoire.

L'identifiant unique doit être un identifiant unique au sein d'une même table.

Dans différentes tables, l'identifiant unique peut comporter des valeurs dupliquées.

Lorsque le flux de travail correspondant est exécuté, l'enregistrement est rejeté si l'ID unique :

  • n'est pas spécifié

  • n'est pas unique au sein d'une même table

  • chevauchements en termes de nom d'attribut entre les sources.

  • dépasse 38 caractères (flux de travail de correspondance basés sur des règles uniquement)