Decisión entre exactitud y costo - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Decisión entre exactitud y costo

Cada transformación FindMatches contiene un parámetro accuracy-cost. Puede utilizar este parámetro para especificar una de las siguientes opciones:

  • Si está más preocupado en que la transformación informe de forma exacta de que los dos registros coinciden, debe hacer hincapié en exactitud.

  • Si está más preocupado por el costo o la velocidad de ejecución de la transformación, debe hacer hincapié en costo menor.

Puede realizar esta compensación en la consola de AWS Glue o mediante las operaciones de la API de machine learning de AWS Glue.

Cuando favorecer la exactitud

Favorezca la exactitud si está más preocupado por el riesgo de que los resultados de find matches no contengan coincidencias. Para favorecer la exactitud, elija un valor de compensación de exactitud-costo superior. Con un volumen más alto, la transformación FindMatches requiere más tiempo para realizar una búsqueda más exhaustiva para que los registros coincidan correctamente. Tenga en cuenta que con este parámetro no es menos probable que se trate incorrectamente un par de registro no coincidente como coincidencia. La transformación se ajusta para sesgarse hacia una situación de dedicación de más tiempo a buscar coincidencias.

Cuándo favorecer el costo

Favorezca el costo si está más preocupado por el costo de ejecución de la transformación find matches y menos por la cantidad de coincidencias encontradas. Para favorecer el costo, elija un valor de compensación de exactitud-costo inferior. Con un valor inferior, la transformación FindMatches requiere menos recursos que ejecutar. La transformación se ajusta para sesgarse hacia una situación de búsqueda de menos coincidencias. Si los resultados son aceptables cuando se favorece el costo inferior, utilice esta configuración.

Cómo favorecer tanto la exactitud como el costo bajo

Es necesario más tiempo de procesamiento para examinar más pares de registros y determinar si deben ser coincidencias. Si desea reducir el costo sin reducir la calidad, estas son algunas medidas que puede adoptar:

  • Eliminación de registros en el origen de datos para el que lo le preocupa la coincidencia.

  • Eliminación de columnas de origen de datos de las que esté seguro de que no son útiles para crear una decisión de coincidencia/no coincidencia. Una buena forma de decidir esto es eliminar columnas que cree que no afectan a su propia decisión sobre si un conjunto de registros es "el mismo".