Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
EvaluateDataQuality Klasse
Wertet einen Datenqualitätsregelsatz anhand eines DynamicFrame
aus und gibt ein neues DynamicFrame
mit den Ergebnissen der Bewertung zurück.
Beispiel
Der folgende Beispielcode zeigt, wie die Datenqualität für ein DynamicFrame
ausgewertet und dann die Datenqualitätsergebnisse angezeigt werden.
from awsglue.transforms import * from pyspark.context import SparkContext from awsglue.context import GlueContext from awsgluedq.transforms import EvaluateDataQuality #Create Glue context sc = SparkContext.getOrCreate() glueContext = GlueContext(sc) # Define DynamicFrame legislatorsAreas = glueContext.create_dynamic_frame.from_catalog( database="legislators", table_name="areas_json") # Create data quality ruleset ruleset = """Rules = [ColumnExists "id", IsComplete "id"]""" # Evaluate data quality dqResults = EvaluateDataQuality.apply( frame=legislatorsAreas, ruleset=ruleset, publishing_options={ "dataQualityEvaluationContext": "legislatorsAreas", "enableDataQualityCloudWatchMetrics": True, "enableDataQualityResultsPublishing": True, "resultsS3Prefix": "amzn-s3-demo-bucket1", }, ) # Inspect data quality results dqResults.printSchema() dqResults.toDF().show()
root |-- Rule: string |-- Outcome: string |-- FailureReason: string |-- EvaluatedMetrics: map | |-- keyType: string | |-- valueType: double +-----------------------+-------+-------------+---------------------------------------+ |Rule |Outcome|FailureReason|EvaluatedMetrics | +-----------------------+-------+-------------+---------------------------------------+ |ColumnExists "id" |Passed |null |{} | |IsComplete "id" |Passed |null |{Column.first_name.Completeness -> 1.0}| +-----------------------+-------+-------------+---------------------------------------+
Methoden
__call__ (Frame, Regelsatz, publishing_options = {})
-
frame
– DieDynamicFrame
, deren Datenqualität Sie bewerten möchten. -
ruleset
— Ein Regelsatz der Data Quality Definition Language (DQDL) im Zeichenkettenformat. Weitere Informationen DQDL dazu finden Sie in der Referenz zur Data Quality Definition Language (DQDL) Anleitung. -
publishing_options
– Ein Wörterbuch, das die folgenden Optionen zum Veröffentlichen von Auswertungsergebnissen und -metriken festlegt:-
dataQualityEvaluationContext
— Eine Zeichenfolge, die den Namespace angibt, unter dem AWS Glue Amazon CloudWatch Metriken und die Datenqualitätsergebnisse veröffentlichen soll. Die aggregierten Metriken werden in der Glue Studio-Oberfläche angezeigt CloudWatch, während die vollständigen Ergebnisse in der Benutzeroberfläche von AWS Glue Studio angezeigt werden.-
Erforderlich: Nein
-
Standardwert:
default_context
-
-
enableDataQualityCloudWatchMetrics
— Gibt an, ob die Ergebnisse der Datenqualitätsbewertung veröffentlicht werden sollen. CloudWatch Mit derdataQualityEvaluationContext
-Option geben Sie einen Namespace für die Metriken an.-
Erforderlich: Nein
-
Standardwert: false
-
-
enableDataQualityResultsPublishing
– Gibt an, ob die Datenqualitätsergebnisse auf der Registerkarte Data Quality (Datenqualität) in der Benutzeroberfläche von AWS Glue Studio angezeigt werden sollen.-
Erforderlich: Nein
-
Standardwert: wahr
-
-
resultsS3Prefix
— Gibt den Amazon S3 S3-Speicherort an, an den AWS Glue die Ergebnisse der Datenqualitätsbewertung schreiben kann.-
Erforderlich: Nein
-
Standardwert: "" (eine leere Zeichenfolge)
-
-
apply(cls, *args, **kwargs)
Geerbt von GlueTransform
apply.
name(cls)
Geerbt von GlueTransform
Name.
describeArgs(cls)
Geerbt von GlueTransform
describeArgs.
describeReturn(cls)
Geerbt von GlueTransform
describeReturn.
describeTransform(cls)
Geerbt von GlueTransform
describeTransform.
describeErrors(cls)
Geerbt von GlueTransform
describeErrors.
describe(cls)
Geerbt von GlueTransform
Beschreiben.