Choisir entre l'exactitude et le coût - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Choisir entre l'exactitude et le coût

Chaque transformation FindMatches contient un paramètre accuracy-cost. Vous pouvez utiliser ce paramètre pour spécifier l'un des éléments suivants :

  • Si vous êtes plus préoccupé par le fait que la transformation indique précisément que deux enregistrements correspondent, vous devez mettre l'accent sur la précision.

  • Si vous êtes plus préoccupé par le coût ou la vitesse d'exécution de la transformation, vous devez mettre l'accent sur la réduction des coûts.

Vous pouvez effectuer un tel compromis sur la console AWS Glue ou à l'aide d'opérations d'API de Machine Learning AWS Glue.

Dans quel cas favoriser l'exactitude

Privilégiez la précision si vous êtes plus préoccupé par le risque que les résultats de find matches ne contiennent des correspondances. Pour favoriser l'exactitude, choisissez une valeur de compromis exactitude-coût plus élevée. Avec une valeur plus élevée, la transformation FindMatches a besoin de plus de temps pour effectuer une recherche plus approfondie afin de trouver des enregistrements qui correspondent correctement. Notez que ce paramètre ne réduit pas le risque d'appeler de manière erronée une correspondance une paire d'enregistrements non correspondants. La transformation est réglée sur une tendance à consacrer plus de temps à la recherche de correspondances.

Dans quel cas favoriser le coût

Privilégiez le coût si vous être plus préoccupé par le coût d'exécution de la transformation find matches et moins préoccupé par le nombre de correspondances trouvées. Pour favoriser le coût, choisissez une valeur de compromis exactitude-coût plus faible. Avec une valeur plus faible, la transformation FindMatches a besoin de moins de ressources pour son exécution. La transformation est réglée sur une tendance à rechercher moins de correspondances. Si le fait de favoriser la réduction des coûts produit des résultats acceptables, utilisez ce paramètre.

Comment favoriser à la fois l'exactitude et la réduction des coûts

Un temps machine supérieur est nécessaire pour examiner davantage de paires d'enregistrements afin de déterminer s'il peut s'agir de correspondances. Si vous souhaitez réduire les coûts sans réduire la qualité, voici quelques conseils :

  • Éliminez dans votre source de données les enregistrements pour lesquels vous ne cherchez pas de correspondances.

  • Éliminez dans votre source de données les colonnes qui sont de manière certaine inutiles à la prise d'une décision correspondance/non correspondance. Une bonne manière de déterminer cela consiste à éliminer les colonnes qui n'affectent en rien votre décision quant il s'agit de déterminer si un ensemble d'enregistrements sont « identiques ».