DataFreshness - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

DataFreshness

現在の時刻と日付列の値との差を評価して、列内のデータがどの程度新しいかをチェックします。このルールタイプで時間ベースの式を指定することで、列の値を最新に保つことができます。

[Syntax] (構文)

DataFreshness <COL_NAME> <EXPRESSION>
  • COL_NAME – データ品質ルールを評価する対象となる列の名前。

    列でサポートされる型: Date

  • EXPRESSION – 時間または日付の数値表現。表現の中では、時間単位を指定する必要があります。

例: データの新しさ

次のルール例では、データの新しさをチェックします。

DataFreshness "Order_Date" <= 24 hours DataFreshness "Order_Date" between 2 days and 5 days

Null 動作

DataFreshness ルールは、NULL 値がある行を満たしません。null 値が原因でルールが失敗した場合、失敗理由には次の内容が表示されます。

80.00 % of rows passed the threshold

満たさなかった 20% の行には、NULL を含む行が対象となる場合。

次の複合ルールの例では、NULL 値を明示的に満たす方法が示されています。

(DataFreshness "Order_Date" <= 24 hours) OR (ColumnValues "Order_Date" = NULL)

Amazon S3 オブジェクトのデータの鮮度

Amazon S3 ファイルの作成時間に基づいて、データの鮮度を検証する必要がある場合があります。これを行うには、次のコードを使用してタイムスタンプを取得してデータフレームに追加し、データの鮮度のチェックを適用します。

df = glueContext.create_data_frame.from_catalog(database = "default", table_name = "mytable") df = df.withColumn("file_ts", df["_metadata.file_modification_time"]) Rules = [ DataFreshness "file_ts" < 24 hours ]