Estimação da qualidade das correspondências usando pontuações de confiança de correspondência - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Estimação da qualidade das correspondências usando pontuações de confiança de correspondência

As pontuações de confiança de correspondência fornecem uma estimativa da qualidade das correspondências encontradas pelo FindMatches para distinguir entre registros correspondentes nos quais o modelo de machine learning é altamente confiante, incerto ou improvável. Uma pontuação de confiança na partida ficará entre 0 e 1, onde uma pontuação mais alta significa maior semelhança. O exame das pontuações de confiança da correspondência permite distinguir entre clusters de correspondências em que o sistema é altamente confiante (que você pode decidir mesclar), clusters sobre os quais o sistema é incerto (que você pode decidir que seja revisado por um humano) e clusters que o sistema considera improváveis (que você pode decidir rejeitar).

Você pode querer ajustar seus dados de treinamento em situações em que veja uma pontuação de confiança de correspondência alta, mas determine que não há correspondências ou onde você vê uma pontuação baixa, mas determina que existem, de fato, correspondências.

As pontuações de confiança são particularmente úteis quando há conjuntos de dados industriais de grande porte, nos quais é inviável revisar todas as decisões do FindMatches.

As pontuações de confiança de correspondência estão disponíveis no AWS Glue versão 2.0 ou posterior.

Geração de pontuações de confiança de correspondência

Você pode gerar pontuações de confiança de correspondência definindo o valor booleano de computeMatchConfidenceScores para True (Verdadeiro) ao chamar FindMatches ou a API FindIncrementalMatches.

O AWS Glue adiciona um novo column match_confidence_score para a saída.

Exemplos de pontuação de correspondência

Por exemplo, considere os registros correspondentes a seguir:

Pontuação >= 0,9

Resumo dos registros correspondentes:

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

Detalhes:

Um exemplo de uma tabela de rotas com um gateway da Internet.

A partir deste exemplo, podemos ver que dois registros são muito semelhantes e compartilham display_position, primary_name, e street name.

Pontuação >= 0,8 e pontuação < 0,9

Resumo dos registros correspondentes:

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

Detalhes:

Um exemplo de uma tabela de rotas com um gateway da Internet.

A partir deste exemplo, podemos ver que esses registros compartilham o mesmo primary_name, e country.

Pontuação >= 0,6 e pontuação < 0,7

Resumo dos registros correspondentes:

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

Detalhes:

Um exemplo de uma tabela de rotas com um gateway da Internet.

A partir deste exemplo, podemos ver que esses registros compartilham somente o mesmo primary_name.

Para obter mais informações, consulte: