FileUniqueness - AWS Glue

FileUniqueness

FileUniqueness permite asegurarse de que no haya archivos duplicados en los datos que ha recibido de sus productores de datos.

Recopila las siguientes estadísticas de datos.

  1. Número total de archivos de la carpeta

  2. La relación de singularidad de los archivos

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Cómo encontrar archivos duplicados en una carpeta:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

Cómo inferir los nombres de las carpetas directamente de los marcos de datos para detectar duplicados:

No siempre tiene que proporcionar una ruta de archivo. Por ejemplo, al crear la regla en el catálogo de datos de AWS Glue, puede resultar difícil encontrar qué carpetas usan las tablas del catálogo. AWS Calidad de datos de Glue puede encontrar las carpetas o archivos específicos que se usan para rellenar su marco de datos.

FileUniqueness > 0.5 FileUniqueness with threshold = 1

Existen algunas consideraciones:

  1. En la ETL de AWS Glue, debe tener la transformación EvaluateDataQuality inmediatamente después de una transformación de Amazon S3 o del Catálogo de datos de AWS Glue.

  2. Esta regla no funcionará en las sesiones interactivas de AWS Glue.