AWS Entity Resolution Glossário - AWS Entity Resolution

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Entity Resolution Glossário

Nome do recurso da Amazon (ARN)

Um identificador exclusivo para AWS recursos. ARNssão necessários quando você precisa especificar um recurso de forma inequívoca em todos eles AWS Entity Resolution, como em AWS Entity Resolution políticas, tags e chamadas do Amazon Relational Database Service (AmazonRDS). API

Processamento automático

Uma opção de cadência de processamento para uma tarefa de fluxo de trabalho correspondente que permite que ela seja executada automaticamente quando a entrada de dados é alterada.

Essa opção está disponível somente para correspondência baseada em regras.

Por padrão, a cadência de processamento de uma tarefa de fluxo de trabalho correspondente é definida como Manual, o que permite que ela seja executada sob demanda. Você pode configurar o processamento automático para executar automaticamente sua tarefa de fluxo de trabalho correspondente quando a entrada de dados for alterada. Isso mantém a saída correspondente do fluxo de trabalho up-to-date.

AWS KMS key ARN

Este é o seu nome de recurso AWS KMS da Amazon (ARN) para criptografia em repouso. Se não for fornecido, o sistema usará uma KMS chave AWS Entity Resolution gerenciada.

Texto não criptografado

Dados que não estão protegidos criptograficamente.

Nível de confiança (ConfidenceLevel)

Para correspondência de ML, esse é o nível de confiança aplicado AWS Entity Resolution quando o ML identifica um conjunto de registros correspondente. Isso faz parte dos metadados correspondentes do fluxo de trabalho que serão incluídos na saída.

Descriptografia

O processo de transformar dados criptografados de volta à sua forma original. Só será possível realizar se você tiver acesso à chave secreta.

Criptografia

O processo de codificação de dados em um formato que parece aleatório usando um valor secreto chamado chave. É impossível determinar o texto sem formatação original sem acesso à chave.

Group name

O nome do grupo faz referência a todo o grupo de campos de entrada e pode ajudá-lo a agrupar dados analisados para fins de correspondência.

Por exemplo, se houver três campos de entrada: first_namemiddle_name,, elast_name, você pode agrupá-los inserindo o nome do grupo full_name para correspondência e saída.

Hash

O hashing significa aplicar um algoritmo criptográfico que produz uma sequência irreversível e exclusiva de caracteres de tamanho fixo, chamada de hash. AWS Entity Resolution usa o protocolo de hash Secure Hash Algorithm de 256 bits (SHA256) e produzirá uma cadeia de caracteres de 32 bytes. Em AWS Entity Resolution, você pode escolher se deseja fazer o hash dos valores de dados em sua saída.

Protocolo de hash () HashingProtocol

AWS Entity Resolution usa o protocolo de hash Secure Hash Algorithm de 256 bits (SHA256) e produzirá uma cadeia de caracteres de 32 bytes. Isso faz parte dos metadados correspondentes do fluxo de trabalho que serão incluídos na saída.

Método de mapeamento de ID

Como você deseja que o mapeamento de ID seja executado.

Há dois métodos de mapeamento de ID:

  • Baseado em regras — O método pelo qual você usa regras de correspondência para traduzir dados primários de uma fonte para um destino em um fluxo de trabalho de mapeamento de ID.

  • Serviços do provedor — O método pelo qual você usa um serviço do provedor para traduzir dados codificados por terceiros de uma fonte para um destino em um fluxo de trabalho de mapeamento de ID.

    AWS Entity Resolution atualmente é compatível com LiveRamp o método de mapeamento de ID baseado em serviços do provedor. Você deve ter uma assinatura AWS Data Exchange para LiveRamp usar esse método. Para obter mais informações, consulte Etapa 1: Assine um serviço de provedor em AWS Data Exchange.

Workflow de mapeamento de ID

Um trabalho de processamento de dados que mapeia dados de uma fonte de dados de entrada para um destino de dados de entrada com base no método de mapeamento de ID especificado. Ele produz uma tabela de mapeamento de ID. Esse fluxo de trabalho exige que você especifique o método de mapeamento de ID e os dados de entrada que você deseja traduzir de uma origem para um destino.

Você pode configurar um fluxo de trabalho de mapeamento de ID para ser executado sozinho Conta da AWS ou em dois Contas da AWS.

Namespace de ID

Um recurso AWS Entity Resolution que contém metadados que explicam conjuntos de dados em vários Contas da AWS e como usar esses conjuntos de dados em um fluxo de trabalho de mapeamento de ID.

Há dois tipos de namespaces de ID: e. SOURCE TARGET O SOURCE contém configurações para os dados de origem que serão processados em um fluxo de trabalho de mapeamento de ID. O TARGET contém uma configuração dos dados de destino para os quais todas as fontes resolverão. Para definir os dados de entrada que você deseja resolver em dois Contas da AWS, crie uma fonte de namespace de ID e um destino de namespace de ID para traduzir seus dados de um set () para outro ()SOURCE. TARGET

Depois que você e outro membro criarem namespaces de ID e executarem um fluxo de trabalho de mapeamento de ID, você poderá participar de uma colaboração AWS Clean Rooms para executar uma união de várias tabelas na tabela de mapeamento de ID e analisar os dados.

Para obter mais informações, consulte o Guia do usuário do AWS Clean Rooms.

Campo de entrada

Um campo de entrada corresponde ao nome de uma coluna da sua tabela AWS Glue de dados de entrada.

Fonte de entrada ARN (InputSourceARN)

O Amazon Resource Name (ARN) que foi gerado para uma entrada de AWS Glue tabela. Isso faz parte da correspondência dos metadados do fluxo de trabalho que serão incluídos na saída.

Tipo de entrada

O tipo de dados de entrada. Você o seleciona em uma lista pré-configurada de valores, como nome, endereço, número de telefone ou endereço de e-mail. O tipo de entrada informa AWS Entity Resolution que tipo de dados você está apresentando, permitindo que sejam classificados e normalizados adequadamente.

Correspondência baseada em aprendizado de máquina

A correspondência baseada em aprendizado de máquina (correspondência de ML) encontra correspondências em seus dados que podem estar incompletas ou podem não ter a mesma aparência. A correspondência de ML é um processo predefinido que tentará combinar registros em todos os dados inseridos. A correspondência de ML retorna uma ID de correspondência e um nível de confiança para cada conjunto de dados correspondente.

Processamento manual

Uma opção de cadência de processamento para uma tarefa de fluxo de trabalho correspondente que permite que ela seja executada sob demanda.

Essa opção é definida por padrão e está disponível tanto para correspondência baseada em regras quanto para correspondência baseada em aprendizado de máquina.

Many-to-Many combinando

Many-to-many a correspondência compara várias instâncias de dados semelhantes. Os valores nos campos de entrada aos quais foi atribuída a mesma chave de correspondência serão comparados entre si, independentemente de estarem no mesmo campo de entrada ou em campos de entrada diferentes.

Por exemplo, você pode ter vários campos de entrada de número de telefone, como mobile_phone e home_phone que tenham a mesma tecla de correspondência “Telefone”. Use a many-to-many correspondência para comparar dados no campo mobile_phone de entrada com dados no campo mobile_phone de entrada e dados no campo home_phone de entrada.

As regras de correspondência avaliam dados em vários campos de entrada com a mesma chave de correspondência com uma operação (ou), e a one-to-many correspondência compara valores em vários campos de entrada. Isso significa que, se alguma combinação de mobile_phone ou home_phone corresponder entre dois registros, a tecla de correspondência “Telefone” retornará uma correspondência. Para combinar, tecle “Telefone” para encontrar uma correspondência, Record One mobile_phone = Record Two mobile_phone OR Record One mobile_phone = Record Two home_phone OR Record One home_phone = Record Two home_phone ORRecord One home_phone = Record Two mobile_phone.

ID da partida (MatchID)

Para correspondência baseada em regras e correspondência de ML, essa é a ID gerada AWS Entity Resolution e aplicada a cada conjunto de registros correspondente. Isso faz parte dos metadados correspondentes do fluxo de trabalho que serão incluídos na saída.

Tecla de correspondência (MatchKey)

A chave de correspondência instrui AWS Entity Resolution quais campos de entrada devem ser considerados como dados semelhantes e quais devem ser considerados como dados diferentes. Isso ajuda a configurar AWS Entity Resolution automaticamente as regras de correspondência baseadas em regras e a comparar dados semelhantes armazenados em diferentes campos de entrada.

Se houver vários tipos de informações de número de telefone, como um mobile_phone campo de home_phone entrada e um campo de entrada em seus dados, que você gostaria de comparar, forneça a ambos a tecla de correspondência “Telefone”. Em seguida, a correspondência baseada em regras pode ser configurada para comparar dados usando instruções “ou” em todos os campos de entrada com a tecla de correspondência “Telefone” (consulte Definições de One-to-One correspondência e Many-to-Many correspondência na seção Fluxo de trabalho correspondente).

Se você quiser que a correspondência baseada em regras considere diferentes tipos de informações de números de telefone de forma completamente separada, você pode criar chaves de correspondência mais específicas, como “Celular_Telefone” e “Home_Phone”. Em seguida, ao configurar um fluxo de trabalho de correspondência, você pode especificar como cada chave de correspondência telefônica será usada na correspondência baseada em regras.

Se não MatchKey for especificado para um campo de entrada específico, ele não poderá ser usado na correspondência, mas poderá ser realizado pelo processo de fluxo de trabalho correspondente e poderá ser gerado, se desejado.

Nome da chave de correspondência

O nome atribuído a uma chave de correspondência.

Regra de partida (MatchRule)

Para correspondência baseada em regras, esse é o número da regra aplicada que gerou um conjunto de registros correspondente. Isso faz parte dos metadados correspondentes do fluxo de trabalho que serão incluídos na saída.

Correspondência

O processo de combinar e comparar dados de diferentes campos de entrada, tabelas ou bancos de dados e determinar quais deles são semelhantes — ou “coincidem” — com base na satisfação de determinados critérios de correspondência (por exemplo, por meio de regras ou modelos de correspondência).

Fluxo de trabalho correspondente

O processo que você configurou para especificar os dados de entrada a serem combinados e como a correspondência deve ser realizada.

Descrição do fluxo de trabalho correspondente

Uma descrição opcional do fluxo de trabalho correspondente que você pode optar por inserir. As descrições ajudam a diferenciar os fluxos de trabalho correspondentes se você criar mais de um.

Nome do fluxo de trabalho correspondente

O nome do fluxo de trabalho correspondente que você especifica.

nota

Os nomes de fluxo de trabalho correspondentes devem ser exclusivos. Eles não podem ter o mesmo nome ou um erro será retornado.

Metadados de fluxo de trabalho correspondentes

Informações geradas e enviadas AWS Entity Resolution durante um trabalho de fluxo de trabalho correspondente. Essas informações são necessárias na saída.

Normalização () ApplyNormalization

Escolha se deseja normalizar os dados de entrada conforme definido no esquema. A normalização padroniza os dados removendo espaços extras e caracteres especiais e padronizando para o formato minúsculo.

Por exemplo, se um campo de entrada tiver um tipo de PHONE_NUMBER entrada e os valores na tabela de entrada estiverem formatados como(123) 456-7890, AWS Entity Resolution normalizará os valores para. 1234567890

As seções a seguir descrevem nossas regras de normalização padrão. Para correspondência baseada em ML especificamente, consulte. Normalização (ApplyNormalization) — somente com base em ML

Nome

  • TRIM= Reduz os espaços em branco à esquerda e à direita

  • LOWERCASE= Todos os caracteres alfa são minúsculos

  • CONVERT_ ACCENT = Letra acentuada secreta para letra normal

  • REMOVE_ _ ALL NON _ ALPHA = Remove todos os caracteres não alfa [A-zA-z]

E-mail

  • TRIM= Reduz os espaços em branco à esquerda e à direita

  • LOWERCASE= Todos os caracteres alfa são minúsculos

  • CONVERT_ ACCENT = Letra acentuada secreta para letra normal

  • EMAIL_ ADDRESS _ UTIL _ NORM = Remove todos os pontos (.) do nome de usuário, remove qualquer coisa após um sinal de adição (+) no nome de usuário e padroniza variações comuns de domínio

  • REMOVE_ _ ALL _ NON EMAIL _ CHARS = Remove todos os non-alpha-numeric caracteres [a-zA-z0-9] e [.@-]

Telefone

  • TRIM= Reduz os espaços em branco à esquerda e à direita

  • REMOVE_ _ ALL NON _ NUMERIC = Remove todos os caracteres não numéricos [0-9]

  • REMOVE_ _ ALL LEADING _ ZEROES = Remove todos os zeros iniciais

  • ENSURE_ PREFIX _ WITH _MAP, "phonePrefixMap" = Examina cada número de telefone e tenta compará-lo com os padrões do phonePrefixMap. Se uma correspondência for encontrada, a regra adicionará ou modificará o prefixo do número de telefone para garantir que ele esteja em conformidade com o formato padronizado especificado no mapa.

Endereço

ADDRESS_RENAME_WORD_MAP

Essas são as palavras que serão renomeadas ao normalizar a string de endereço.

"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"

ADDRESS_RENAME_DELIMITER_MAP

Esses são os delimitadores que serão renomeados ao normalizar a string de endereço.

",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "

ADDRESS_RENAME_DIRECTION_MAP

Esses são os identificadores de direção que serão renomeados ao normalizar a string de endereço.

"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"

ADDRESS_RENAME_NUMBER_MAP

Essas são as sequências numéricas que serão renomeadas ao normalizar a sequência de endereço.

"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"

ADDRESS_RENAME_SPECIAL_CHAR_MAP

Essas são as cadeias de caracteres especiais que serão renomeadas ao normalizar a cadeia de endereços.

"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"

Hashado

  • TRIM= Reduz os espaços em branco à esquerda e à direita

ID de origem

  • TRIM= Reduz os espaços em branco à esquerda e à direita

Normalização (ApplyNormalization) — somente com base em ML

Escolha se deseja normalizar os dados de entrada conforme definido no esquema. A normalização padroniza os dados removendo espaços extras e caracteres especiais e padronizando para o formato minúsculo.

Por exemplo, se um campo de entrada tiver um tipo de NAME entrada e os valores na tabela de entrada estiverem formatados comoJohns Smith, AWS Entity Resolution normalizará os valores para. john smith

As seções a seguir descrevem as regras de normalização para fluxos de trabalho de correspondência baseados em aprendizado de máquina.

Nome

  • TRIM= Reduz os espaços em branco à esquerda e à direita

  • LOWERCASE= Todos os caracteres alfa são minúsculos

E-mail

  • LOWERCASE= Todos os caracteres alfa são minúsculos

  • Substitui somente (at) (com distinção entre maiúsculas e minúsculas) por um símbolo @

  • Remove todos os espaços em branco, em qualquer lugar no valor

  • Remove tudo o que está fora do primeiro, "< >" se existir

Telefone

  • TRIM= Reduz os espaços em branco à esquerda e à direita

  • REMOVE_ _ ALL NON _ NUMERIC = Remove todos os caracteres não numéricos [0-9]

  • REMOVE_ _ ALL LEADING _ ZEROES = Remove todos os zeros iniciais

  • ENSURE_ PREFIX _ WITH _MAP, "phonePrefixMap" = Examina cada número de telefone e tenta compará-lo com os padrões do phonePrefixMap. Se uma correspondência for encontrada, a regra adicionará ou modificará o prefixo do número de telefone para garantir que ele esteja em conformidade com o formato padronizado especificado no mapa.

One-to-One combinando

One-to-one a correspondência compara instâncias únicas de dados semelhantes. Os campos de entrada com a mesma chave de correspondência e valores no mesmo campo de entrada serão comparados entre si.

Por exemplo, você pode ter vários campos de entrada de número de telefone, como mobile_phone e home_phone que tenham a mesma tecla de correspondência “Telefone”. Use a one-to-one correspondência para comparar dados no campo mobile_phone de entrada com dados no campo mobile_phone de entrada e para comparar dados no campo home_phone de entrada com dados no campo home_phone de entrada. Os dados no campo mobile_phone de entrada não serão comparados com os dados no campo home_phone de entrada.

As regras de correspondência avaliam os dados em vários campos de entrada com a mesma chave de correspondência com uma operação (ou), e a one-to-many correspondência compara os valores em um único campo de entrada. Isso significa que se mobile_phone ou home_phone corresponder entre dois registros, a tecla de correspondência “Telefone” retornará uma correspondência. Para combinar, tecle “Telefone” para encontrar uma correspondência, Record One mobile_phone = Record Two mobile_phone OURecord One home_phone = Record Two home_phone.

As regras de correspondência avaliam dados em campos de entrada com chaves de correspondência diferentes com uma operação (e). Se você quiser que a correspondência baseada em regras considere diferentes tipos de informações de números de telefone de forma completamente separada, você pode criar chaves de correspondência mais específicas, como “mobile_phone” e “home_phone”. Se você quiser usar as duas teclas de correspondência em uma regra para encontrar correspondências, Record One mobile_phone = Record Two mobile_phone ANDRecord One home_phone = Record Two home_phone.

Saída

Uma lista de OutputAttributeobjetos, cada um com os campos Nome e Hashed. Cada um desses objetos representa uma coluna a ser incluída na tabela AWS Glue de saída e se você deseja que os valores na coluna sejam criptografados.

Saídas 3Path

O destino do S3 no qual AWS Entity Resolution gravará a tabela de saída.

OutputSourceConfig

Uma lista de OutputSource objetos, cada um com os campos Outputs3Path e Output. ApplyNormalization

Correspondência baseada em serviços de provedores

A correspondência baseada em serviços de provedores é um processo projetado para combinar, vincular e aprimorar seus registros com provedores de serviços de dados preferenciais e conjuntos de dados licenciados. Você deve ter uma assinatura AWS Data Exchange com o serviço do provedor para usar essa técnica de correspondência.

AWS Entity Resolution atualmente se integra aos seguintes provedores de serviços de dados:

  • LiveRamp

  • TransUnion

  • UID2.0

Correspondência baseada em regras

A correspondência baseada em regras é um processo projetado para encontrar correspondências exatas. A correspondência baseada em regras é um conjunto hierárquico de regras de correspondência em cascata, sugerido por AWS Entity Resolution, com base nos dados que você insere e totalmente configurável por você. Todas as chaves de correspondência fornecidas nos critérios da regra devem corresponder exatamente para que os dados comparados sejam declarados como correspondências e para que os metadados associados sejam gerados. A correspondência baseada em regras retorna uma ID de correspondência e um número de regra para cada conjunto de dados correspondente.

Recomendamos definir regras que possam identificar uma entidade de forma exclusiva. Ordene suas regras para encontrar combinações mais precisas primeiro.

Por exemplo, digamos que você tenha duas regras, Regra 1 e Regra 2.

Essas regras têm as seguintes chaves de correspondência:

  • A regra 1 inclui nome completo e endereço

  • A regra 2 inclui nome completo, endereço e telefone

Como a Regra 1 é executada primeiro, nenhuma correspondência será encontrada pela Regra 2, pois todas elas teriam sido encontradas pela Regra 1.

Para encontrar correspondências diferenciadas por telefone, reordene as regras, assim:

  • A regra 2 inclui nome completo, endereço e telefone

  • A regra 1 inclui nome completo e endereço

Schema

O termo usado para uma estrutura ou layout que define como um conjunto de dados é organizado e conectado.

Descrição do esquema

Uma descrição opcional do esquema que você pode escolher inserir. As descrições ajudam a diferenciar os mapeamentos de esquema se você criar mais de um.

Nome do esquema

O nome do esquema.

nota

Os nomes dos esquemas devem ser exclusivos. Eles não podem ter o mesmo nome ou um erro será retornado.

Mapeamento de esquemas

O mapeamento de esquemas AWS Entity Resolution é o processo pelo qual você informa AWS Entity Resolution como interpretar seus dados para fins de correspondência. Você define o esquema da tabela de dados de entrada que AWS Entity Resolution deseja ler em um fluxo de trabalho correspondente.

Mapeamento de esquemas ARN

O Amazon Resource Name (ARN) gerado para o mapeamento do esquema.

ID exclusivo

Um identificador exclusivo que você designa e que deve ser atribuído a cada linha de dados de entrada AWS Entity Resolution lida.

Por exemplo: Primary_key, Row_ID ou Record_ID.

A coluna ID exclusiva é obrigatória.

O ID exclusivo deve ser um identificador exclusivo em uma única tabela.

Em tabelas diferentes, o ID exclusivo pode ter valores duplicados.

Quando o fluxo de trabalho correspondente for executado, o registro será rejeitado se a ID exclusiva:

  • não está especificado

  • não é exclusivo na mesma tabela

  • sobrepõe-se em termos de nome de atributo nas fontes.

  • excede 38 caracteres (somente fluxos de trabalho correspondentes baseados em regras)