Decidir entre acurácia e custo - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Decidir entre acurácia e custo

Cada transformação FindMatches contém um parâmetro accuracy-cost. Você pode usar esse parâmetro para especificar o seguinte:

  • Caso esteja mais preocupado com a transformação corresponder dois registros corretamente, favoreça a acurácia.

  • Caso esteja mais preocupado com o custo ou a velocidade de executar a transformação, favoreça baixo custo.

Você pode ajustar esse equilíbrio no console do AWS Glue ou usando as operações da API de machine learning do AWS Glue.

Quando favorecer a acurácia

Dê preferência para a acurácia se você estiver mais preocupado com o risco dos resultados de find matches não terem correspondências. Para favorecer a acurácia, escolha um valor de equilíbrio entre acurácia e custo mais alto. Com um valor mais alto, a transformação FindMatches precisa de mais tempo para fazer uma pesquisa mais aprofundada e corresponder registros corretamente. Observe que esse parâmetro não diminui a probabilidade de erro na correspondência de dois registros que, na verdade, não correspondem. A transformação será ajustada para gastar mais tempo detectando correspondências.

Quando favorecer o custo

Dê preferência para o custo se estiver mais preocupado com os gastos de execução da transformação find matches e menos com a quantidade de correspondências encontradas. Para favorecer o custo, escolha um valor de equilíbrio entre acurácia e custo mais baixo. Com um valor mais baixo, a transformação FindMatches exige menos recursos para ser executada. A transformação será ajustada para tender a detectar menos correspondências. Se os resultados forem aceitáveis ao favorecer baixo custo, use essa configuração.

Como favorecer tanto a acurácia como o baixo custo

A máquina leva mais tempo para determinar se mais pares de registros correspondem. Você pode executar as seguintes ações para reduzir os gastos, mas manter a qualidade:

  • Elimine registros da fonte de dados que não são relevantes para as correspondências.

  • Elimine colunas da fonte de dados as quais você não tem certeza se são úteis para a identificação de correspondências. Uma boa maneira de decidir isso é eliminando as colunas que você acredita não afetarem sua própria decisão sobre um conjunto de registros ser "o mesmo".