FileUniqueness - AWS Glue

FileUniqueness

文件唯一性可以确保从数据创建器收到的数据中没有重复文件。

其收集以下数据统计信息

  1. 文件夹中的文件总数

  2. 文件的唯一性比率

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

查找文件夹中的重复文件:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

直接从数据帧推断文件夹名称以检测重复项:

您不必总是提供文件路径。例如,当您在 AWS Glue Data Catalog 中编写规则时,可能很难找到目录表使用的文件夹。AWSGlue 数据质量自动监测功能可以找到用于填充数据帧的特定文件夹或文件。

FileUniqueness > 0.5 FileUniqueness with threshold = 1

有几个注意事项:

  1. 在 AWS Glue ETL 中,您必须在 Amazon S3 或 AWS Glue Data Catalog 转换之后立即进行 EvaluateDataQuality 转换。

  2. 此规则在 AWS Glue 交互式会话中不起作用。