Estimação da qualidade das correspondências usando pontuações de confiança de correspondência

Modo de foco

Estimação da qualidade das correspondências usando pontuações de confiança de correspondência - AWS Glue

Geração de pontuações de confiança de correspondência Exemplos de pontuação de correspondência

As pontuações de confiança de correspondência fornecem uma estimativa da qualidade das correspondências encontradas pelo FindMatches para distinguir entre registros correspondentes nos quais o modelo de machine learning é altamente confiante, incerto ou improvável. Uma pontuação de confiança na partida ficará entre 0 e 1, onde uma pontuação mais alta significa maior semelhança. O exame das pontuações de confiança da correspondência permite distinguir entre clusters de correspondências em que o sistema é altamente confiante (que você pode decidir mesclar), clusters sobre os quais o sistema é incerto (que você pode decidir que seja revisado por um humano) e clusters que o sistema considera improváveis (que você pode decidir rejeitar).

Você pode querer ajustar seus dados de treinamento em situações em que veja uma pontuação de confiança de correspondência alta, mas determine que não há correspondências ou onde você vê uma pontuação baixa, mas determina que existem, de fato, correspondências.

As pontuações de confiança são particularmente úteis quando há conjuntos de dados industriais de grande porte, nos quais é inviável revisar todas as decisões do FindMatches.

As pontuações de confiança de correspondência estão disponíveis no AWS Glue versão 2.0 ou posterior.

Geração de pontuações de confiança de correspondência

Você pode gerar pontuações de confiança de correspondência definindo o valor booleano de computeMatchConfidenceScores para True (Verdadeiro) ao chamar FindMatches ou a API FindIncrementalMatches.

O AWS Glue adiciona um novo column match_confidence_score para a saída.

Exemplos de pontuação de correspondência

Por exemplo, considere os registros correspondentes a seguir:

Pontuação >= 0,9

Resumo dos registros correspondentes:


  primary_id  |   match_id  | match_confidence_score

3281355037663    85899345947   0.9823658302132061
1546188247619    85899345947   0.9823658302132061

Detalhes:

Um exemplo de uma tabela de rotas com um gateway da Internet.

A partir deste exemplo, podemos ver que dois registros são muito semelhantes e compartilham display_position, primary_name, e street name.

Pontuação >= 0,8 e pontuação < 0,9

Resumo dos registros correspondentes:


  primary_id  |   match_id  | match_confidence_score

309237680432     85899345928   0.8309852373674638
3590592666790    85899345928   0.8309852373674638
343597390617     85899345928   0.8309852373674638
249108124906     85899345928   0.8309852373674638
463856477937     85899345928   0.8309852373674638

Detalhes:

A partir deste exemplo, podemos ver que esses registros compartilham o mesmo primary_name, e country.

Pontuação >= 0,6 e pontuação < 0,7

Resumo dos registros correspondentes:



  primary_id  |   match_id  | match_confidence_score

2164663519676    85899345930   0.6971099896480333
 317827595278    85899345930   0.6971099896480333
 472446424341    85899345930   0.6971099896480333
3118146262932    85899345930   0.6971099896480333
 214748380804    85899345930   0.6971099896480333