Halten Sie Daten in einer Zieltabelle mit AWS Glue und Athena auf dem neuesten Stand - AWS Step Functions

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Halten Sie Daten in einer Zieltabelle mit AWS Glue und Athena auf dem neuesten Stand

Dieses Beispielprojekt zeigt, wie Sie eine Zieltabelle abfragen, um aktuelle Daten mit AWS Glue Catalog abzurufen, und sie dann mithilfe von Amazon Athena mit neuen Daten aus anderen Quellen aktualisieren.

In diesem Projekt ruft die Step Functions Functions-Zustandsmaschine AWS Glue Catalog auf, um zu überprüfen, ob eine Zieltabelle in einem Amazon S3 S3-Bucket vorhanden ist. Wenn keine Tabelle gefunden wird, wird eine neue Tabelle erstellt. Step FunctionsFührt dann eine Athena-Abfrage aus, um der Zieltabelle Zeilen aus einer anderen Datenquelle hinzuzufügen: zuerst wird die Zieltabelle abgefragt, um das neueste Datum zu erhalten, dann wird die Quelltabelle nach neueren Daten abgefragt und in die Zieltabelle eingefügt.

Schritt 1: Erstellen Sie die Zustandsmaschine und stellen Sie Ressourcen bereit

  1. Öffnen Sie die Step Functions Functions-Konsole und wählen Sie Create State Machine.

  2. Geben Sie etwas Keep data up to date in das Suchfeld ein und wählen Sie dann Daten aus den zurückgegebenen Suchergebnissen auf dem neuesten Stand halten aus.

  3. Wählen Sie Next (Weiter), um fortzufahren.

  4. Step Functions listet die Funktionen auf, die in dem von Ihnen ausgewählten Beispielprojekt AWS -Services verwendet wurden. Außerdem wird ein Workflow-Diagramm für das Beispielprojekt angezeigt. Stellen Sie dieses Projekt für Ihr Projekt bereit AWS-Konto oder verwenden Sie es als Ausgangspunkt für die Erstellung Ihrer eigenen Projekte. Je nachdem, wie Sie vorgehen möchten, wählen Sie „Demo ausführen“ oder „Darauf aufbauen“.

    In diesem Beispielprojekt werden die folgenden Ressourcen bereitgestellt:

    • Einen Amazon S3-Bucket

    • Amazon AthenaAbfragen

    • Ein AWS Glue Data Catalog Anruf

    • Ein AWS Step Functions-Zustandsautomat

    • Zugehörige AWS Identity and Access Management (IAM)-Rollen

    Die folgende Abbildung zeigt das Workflow-Diagramm für das Beispielprojekt Keep data up to date:

    Workflow-Diagramm des Beispielprojekts Keep data up date.
  5. Wählen Sie Vorlage verwenden, um mit Ihrer Auswahl fortzufahren.

  6. Führen Sie eine der folgenden Aktionen aus:

    • Wenn Sie „Darauf aufbauen“ ausgewählt haben, erstellt Step Functions den Workflow-Prototyp, stellt jedoch nicht die Ressourcen in der Workflow-Definition bereit, sodass Sie Ihren Workflow-Prototyp weiterentwickeln können.

      In Workflow Studio können Sie Ihrem Workflow-Prototyp zusätzliche Status hinzufügen. Entwurfsmodus Oder Sie können zu der wechseln, um den integrierten Code-Editor Codemodus zu verwenden, um die Amazon States Language (ASL) -Definition Ihrer Zustandsmaschine von der Step Functions Functions-Konsole aus zu bearbeiten.

      Wichtig

      Möglicherweise müssen Sie den Platzhalter Amazon Resource Name (ARN) für die im Beispielprojekt verwendeten Ressourcen aktualisieren, bevor Sie Ihren Workflow ausführen können.

    • Wenn Sie Eine Demo ausführen ausgewählt haben, erstellt Step Functions ein schreibgeschütztes Projekt, das eine AWS CloudFormation Vorlage verwendet, um die AWS Ressourcen in dieser Vorlage für Ihr Projekt bereitzustellen. AWS-Konto Sie können die State-Machine-Definition anzeigen, indem Sie den Codemodus wählen.

      Wählen Sie Bereitstellen und ausführen, um das Projekt bereitzustellen und die Ressourcen zu erstellen.

      Beachten Sie, dass die Bereitstellung bis zu 10 Minuten dauern kann, bis Ressourcen und IAM Berechtigungen erstellt sind. Während der Bereitstellung Ihrer Ressourcen können Sie den AWS CloudFormation Stack-ID-Link öffnen, um zu sehen, welche Ressourcen bereitgestellt werden.

      Nachdem alle Ressourcen erstellt wurden, sollte das Projekt auf der Seite State Machines in der Konsole angezeigt werden.

      Wichtig

      Für jeden in der CloudFormation Vorlage verwendeten Dienst können Standardgebühren anfallen.

Schritt 2: Führen Sie die Zustandsmaschine aus

  1. Wählen Sie auf der Seite State Machines Ihr Beispielprojekt aus.

  2. Wählen Sie auf der Seite mit dem Beispielprojekt die Option Ausführung starten aus.

  3. Gehen Sie im Dialogfeld Ausführung starten wie folgt vor:

    1. (Optional) Um Ihre Ausführung zu identifizieren, können Sie einen Namen angeben oder den generierten Standardnamen für die Ausführung verwenden.

      Anmerkung

      Step Functions akzeptiert Namen für Zustandsmaschinen, Ausführungen, Aktivitäten und Beschriftungen, die ASCII Nichtzeichen enthalten. Da Namen, die keine ASCII Zeichen enthalten, bei Amazon nicht funktionieren CloudWatch, empfehlen wir, nur ASCII Zeichen zu verwenden, damit Sie die Messwerte verfolgen können. CloudWatch

    2. (Optional) Geben Sie im Eingabefeld Eingabewerte im JSON Format ein, um Ihren Workflow auszuführen.

      Wenn Sie sich dafür entschieden haben, eine Demo auszuführen, müssen Sie keine Ausführungseingaben angeben.

      Anmerkung

      Wenn das von Ihnen bereitgestellte Demo-Projekt vorab aufgefüllte Eingabedaten für die Ausführung enthält, verwenden Sie diese Eingabe, um die Zustandsmaschine auszuführen.

    3. Wählen Sie Start execution (Ausführung starten) aus.

    4. Die Step Functions Functions-Konsole leitet Sie zu einer Seite weiter, die mit Ihrer Ausführungs-ID betitelt ist. Diese Seite wird als Seite mit den Ausführungsdetails bezeichnet. Auf dieser Seite können Sie die Ausführungsergebnisse im Verlauf der Ausführung oder nach deren Abschluss überprüfen.

      Um die Ausführungsergebnisse zu überprüfen, wählen Sie in der Diagrammansicht einzelne Status aus und wählen Sie dann die einzelnen Registerkarten im Einzelheiten zu den Schritten Bereich, um die Details der einzelnen Status, einschließlich Eingabe, Ausgabe und Definition, anzuzeigen. Einzelheiten zu den Ausführungsinformationen, die Sie auf der Seite mit den Ausführungsdetails einsehen können, finden Sie unterSeite mit den Ausführungsdetails — Übersicht über die Benutzeroberfläche.

Code des Zustandsautomaten aus diesem Beispiel

Die Zustandsmaschine in diesem Beispielprojekt lässt sich in Amazon S3 und Amazon Athena integrieren AWS Glue, indem Parameter direkt an diese Ressourcen übergeben werden.

Sehen Sie sich diese Beispiel-Zustandsmaschine an, um zu sehen AWS Glue, wie Step Functions Amazon S3 und Amazon Athena steuert, indem es eine Verbindung mit dem Amazon-Ressourcennamen (ARN) im Resource Feld herstellt und Parameters an den Service API weiterleitet.

Weitere Informationen darüber, wie AWS Step Functions Sie andere AWS Dienste steuern können, finden Sie unterIntegration anderer Dienste mit Step Functions.

{ "Comment": "An example demonstrates how to use Athena to query a target table to get current data, then update it with new data from other sources.", "StartAt": "Get Target Table", "States": { "Get Target Table": { "Type": "Task", "Parameters": { "DatabaseName": "<GLUE_DATABASE_NAME>", "Name": "target" }, "Catch": [ { "ErrorEquals": [ "Glue.EntityNotFoundException" ], "Next": "Create Target Table" } ], "Resource": "arn:aws:states:::aws-sdk:glue:getTable", "Next": "Update Target Table" }, "Create Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "Next": "Update Target Table" }, "Update Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "End": true } } }

IAMBeispiel

Diese vom Beispielprojekt generierte Richtlinie example AWS Identity and Access Management (IAM) beinhaltet die geringsten Rechte, die für die Ausführung der Zustandsmaschine und der zugehörigen Ressourcen erforderlich sind. Wir empfehlen, dass Sie nur die Berechtigungen in Ihre IAM Richtlinien aufnehmen, die erforderlich sind.

AthenaStartQueryExecution

"Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "athena:startQueryExecution", "athena:stopQueryExecution", "athena:getQueryExecution", "athena:getDataCatalog" ], "Resource": [ "arn:aws:athena:us-east-2:123456789012:workgroup/stepfunctions-athena-sample-project-workgroup-26ujlyawxg", "arn:aws:athena:us-east-2:123456789012:datacatalog/*" ] }, { "Effect": "Allow", "Action": [ "s3:GetBucketLocation", "s3:GetObject", "s3:ListBucket", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts", "s3:AbortMultipartUpload", "s3:CreateBucket", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::*" ] }, { "Effect": "Allow", "Action": [ "glue:CreateDatabase", "glue:GetDatabase", "glue:GetDatabases", "glue:UpdateDatabase", "glue:DeleteDatabase", "glue:CreateTable", "glue:UpdateTable", "glue:GetTable", "glue:GetTables", "glue:DeleteTable", "glue:BatchDeleteTable", "glue:BatchCreatePartition", "glue:CreatePartition", "glue:UpdatePartition", "glue:GetPartition", "glue:GetPartitions", "glue:BatchGetPartition", "glue:DeletePartition", "glue:BatchDeletePartition" ], "Resource": [ "arn:aws::glue:us-east-2:123456789012:catalog", "arn:aws::glue:us-east-2:123456789012:database/*", "arn:aws::glue:us-east-2:123456789012:table/*", "arn:aws::glue:us-east-2:123456789012:userDefinedFunction/*" ] }, { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": [ "*" ] } ] }

Informationen zur Konfiguration IAM bei der Verwendung von Step Functions mit anderen AWS Diensten finden Sie unterSo generiert Step Functions IAM Richtlinien für integrierte Dienste.