AggregateMatch - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AggregateMatch

Überprüft das Verhältnis zweier Spaltenaggregationen anhand eines bestimmten Ausdrucks. Dieser Regeltyp funktioniert für mehrere Datensätze. Die beiden Spaltenaggregationen werden ausgewertet und ein Quotient wird gebildet, indem das Ergebnis der ersten Spaltenaggregation durch das Ergebnis der zweiten Spaltenaggregation dividiert wird. Das Verhältnis wird mit dem bereitgestellten Ausdruck verglichen, um eine boolesche Antwort zu erzeugen.

Syntax

Spaltenaggregation

AggregateMatch <AGG_OPERATION> (<OPTIONAL_REFERENCE_ALIAS>.<COL_NAME>)
  • AGG_ OPERATION — Die Operation, die für die Aggregation verwendet werden soll. Derzeit werden sum und avg unterstützt.

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

  • OPTIONAL_ REFERENCE _ ALIAS — Dieser Parameter muss angegeben werden, wenn die Spalte aus einem Referenzdatensatz und nicht aus dem Primärdatensatz stammt. Wenn Sie diese Regel im AWS Glue-Datenkatalog verwenden, muss Ihr Referenzalias das Format "haben<database_name>. <table_name>. <column_name>

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

  • COL_ NAME — Der Name der zu aggregierenden Spalte.

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

Beispiel: Durchschnitt

"avg(rating)"

Beispiel: Summe

"sum(amount)"

Beispiel: Durchschnitt der Spalte im Referenzdatensatz

"avg(reference.rating)"

Regel

AggregateMatch <AGG_EXP_1> <AGG_EXP_2> <EXPRESSION>
  • AGG_ EXP _1 — Die erste Spaltenaggregation.

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

  • AGG_ EXP _2 — Die Aggregation der zweiten Spalte.

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

  • EXPRESSION— Ein Ausdruck, der anhand der Antwort vom Regeltyp ausgeführt wird, um einen booleschen Wert zu erzeugen. Weitere Informationen finden Sie unter Ausdrücke.

Beispiel: Aggregieren einer Übereinstimmung mithilfe von Summe

Die folgende Beispielregel prüft, ob die Summe der Werte in der amount-Spalte genau der Summe der Werte in der total_amount-Spalte entspricht.

AggregateMatch "sum(amount)" "sum(total_amount)" = 1.0

Beispiel: Aggregieren einer Übereinstimmung mithilfe des Durchschnitts

Die folgende Beispielregel prüft, ob der Durchschnitt der Werte in der ratings-Spalte mindestens 90 % des Durchschnitts der Werte in der ratings-Spalte im reference-Datensatz entspricht. Der Referenzdatensatz wird als zusätzliche Datenquelle im ETL oder Data Catalog bereitgestellt.

In AWS ETL Glue können Sie Folgendes verwenden:

AggregateMatch "avg(ratings)" "avg(reference.ratings)" >= 0.9

Im AWS Glue-Datenkatalog können Sie Folgendes verwenden:

AggregateMatch "avg(ratings)" "avg(database_name.tablename.ratings)" >= 0.9

Null-Verhalten

Die AggregateMatch Regel ignoriert Zeilen mit NULL Werten bei der Berechnung der Aggregationsmethoden (Summe/Mittelwert). Beispielsweise:

+---+-----------+ |id |units | +---+-----------+ |100|0 | |101|null | |102|20 | |103|null | |104|40 | +---+-----------+

Der Mittelwert der Spalte units ist (0 + 20 + 40)/3 = 20. Die Zeilen 101 und 103 werden bei dieser Berechnung nicht berücksichtigt.