Menyimpan data dalam tabel target diperbarui dengan AWS Glue dan Athena - AWS Step Functions

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyimpan data dalam tabel target diperbarui dengan AWS Glue dan Athena

Proyek sampel ini mendemonstrasikan cara menanyakan tabel target untuk mendapatkan data saat ini AWS Glue Katalog, lalu perbarui dengan data baru dari sumber lain menggunakan Amazon Athena.

Dalam proyek ini, mesin status Step Functions memanggil AWS Glue Katalog untuk memverifikasi apakah tabel target ada di Bucket Amazon S3. Jika tidak ada tabel yang ditemukan, itu akan membuat tabel baru. Kemudian, Step Functions menjalankan kueri Athena untuk menambahkan baris ke tabel target dari sumber data yang berbeda: pertama-tama kueri tabel target untuk mendapatkan tanggal terbaru, lalu menanyakan tabel sumber untuk data yang lebih baru dan memasukkannya ke dalam tabel target.

Langkah 1: Buat mesin negara

  1. Buka Konsol Step Functions dan pilih Buat mesin status.

  2. Ketik Keep data up to date di kotak pencarian, lalu pilih Perbarui data dari hasil pencarian yang dikembalikan.

  3. Pilih Next untuk melanjutkan.

  4. Pilih Jalankan demo untuk membuat read-only dan ready-to-deploy alur kerja, atau pilih Bangun di atasnya untuk membuat definisi mesin status yang dapat diedit yang dapat Anda buat dan kemudian terapkan.

    Proyek contoh ini menyebarkan sumber daya berikut:

    • Sesi Amazon S3 bucket

    • Amazon Athena pertanyaan

    • Sesi AWS Glue Data Catalog panggilan

    • Sesi AWS Step Functions mesin status

    • Terkait AWS Identity and Access Management (IAM) peran

    Gambar berikut menunjukkan grafik alur kerja untuk Keep data up to date proyek sampel:

    Grafik alur kerja dari proyek sampel Tetap up to date data.
  5. Pilih Gunakan templat untuk melanjutkan pilihan Anda.

Langkah selanjutnya tergantung pada pilihan Anda sebelumnya:

  1. Jalankan demo - Anda dapat meninjau mesin status sebelum membuat proyek hanya-baca dengan sumber daya yang digunakan oleh AWS CloudFormation untuk Anda Akun AWS.

    Anda dapat melihat definisi mesin status, dan ketika Anda siap, pilih Deploy dan jalankan untuk menyebarkan proyek dan membuat sumber daya.

    Penyebaran dapat memakan waktu hingga 10 menit untuk membuat sumber daya dan izin. Anda dapat menggunakan tautan Stack ID untuk memantau kemajuan AWS CloudFormation.

    Setelah penerapan selesai, Anda akan melihat mesin status baru Anda di konsol.

  2. Bangun di atasnya - Anda dapat meninjau dan mengedit definisi alur kerja. Anda mungkin perlu menetapkan nilai untuk placeholder dalam proyek sampel sebelum mencoba untuk menjalankan alur kerja kustom Anda.

catatan

Biaya standar mungkin berlaku untuk layanan yang diterapkan ke akun Anda.

Langkah 2: Jalankan mesin negara

  1. Pada halaman mesin Negara, pilih proyek sampel Anda.

  2. Pada halaman proyek sampel, pilih Mulai eksekusi.

  3. Dalam kotak dialog Mulai eksekusi, lakukan hal berikut:

    1. (Opsional) Masukkan nama eksekusi khusus untuk mengganti default yang dihasilkan.

      Non- ASCII nama dan logging

      Step Functions menerima nama untuk mesin negara, eksekusi, aktivitas, dan label yang berisi ASCII non-karakter. Karena karakter seperti itu tidak akan berfungsi dengan Amazon CloudWatch, kami sarankan hanya menggunakan ASCII karakter sehingga Anda dapat melacak metrik. CloudWatch

    2. (Opsional) Dalam Input kotak, masukkan nilai masukan sebagaiJSON. Anda dapat melewati langkah ini jika Anda menjalankan demo.

    3. Pilih Mulai Eksekusi.

    Konsol Step Functions akan mengarahkan Anda ke halaman Detail Eksekusi di mana Anda dapat memilih status dalam tampilan Grafik untuk menjelajahi informasi terkait di Detail langkah panel.

Contoh Kode Mesin Status

Mesin status dalam proyek sampel ini terintegrasi dengan Amazon S3, AWS Glue, dan Amazon Athena dengan meneruskan parameter langsung ke sumber daya tersebut.

Jelajahi contoh mesin status ini untuk melihat bagaimana Step Functions mengontrol Amazon S3, AWS Glue, dan Amazon Athena dengan menghubungkan ke Amazon Resource Name (ARN) di Resource lapangan, dan dengan meneruskan Parameters ke layanan. API

Untuk informasi lebih lanjut tentang caranya AWS Step Functions dapat mengontrol lainnya AWS layanan, lihatMengintegrasikan layanan dengan Step Functions.

{ "Comment": "An example demonstrates how to use Athena to query a target table to get current data, then update it with new data from other sources.", "StartAt": "Get Target Table", "States": { "Get Target Table": { "Type": "Task", "Parameters": { "DatabaseName": "<GLUE_DATABASE_NAME>", "Name": "target" }, "Catch": [ { "ErrorEquals": [ "Glue.EntityNotFoundException" ], "Next": "Create Target Table" } ], "Resource": "arn:aws:states:::aws-sdk:glue:getTable", "Next": "Update Target Table" }, "Create Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "Next": "Update Target Table" }, "Update Target Table": { "Resource": "arn:aws:states:::athena:startQueryExecution.sync", "Parameters": { "QueryString": "<ATHENA_QUERYSTRING>", "WorkGroup": "<ATHENA_WORKGROUP>" }, "Type": "Task", "End": true } } }

IAMContoh

Contoh ini AWS Identity and Access Management (IAM) kebijakan yang dihasilkan oleh proyek sampel mencakup hak istimewa paling sedikit yang diperlukan untuk mengeksekusi mesin negara dan sumber daya terkait. Kami menyarankan Anda hanya menyertakan izin yang diperlukan dalam IAM kebijakan Anda.

AthenaStartQueryExecution

"Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "athena:startQueryExecution", "athena:stopQueryExecution", "athena:getQueryExecution", "athena:getDataCatalog" ], "Resource": [ "arn:aws:athena:us-east-2:123456789012:workgroup/stepfunctions-athena-sample-project-workgroup-26ujlyawxg", "arn:aws:athena:us-east-2:123456789012:datacatalog/*" ] }, { "Effect": "Allow", "Action": [ "s3:GetBucketLocation", "s3:GetObject", "s3:ListBucket", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts", "s3:AbortMultipartUpload", "s3:CreateBucket", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::*" ] }, { "Effect": "Allow", "Action": [ "glue:CreateDatabase", "glue:GetDatabase", "glue:GetDatabases", "glue:UpdateDatabase", "glue:DeleteDatabase", "glue:CreateTable", "glue:UpdateTable", "glue:GetTable", "glue:GetTables", "glue:DeleteTable", "glue:BatchDeleteTable", "glue:BatchCreatePartition", "glue:CreatePartition", "glue:UpdatePartition", "glue:GetPartition", "glue:GetPartitions", "glue:BatchGetPartition", "glue:DeletePartition", "glue:BatchDeletePartition" ], "Resource": [ "arn:aws::glue:us-east-2:123456789012:catalog", "arn:aws::glue:us-east-2:123456789012:database/*", "arn:aws::glue:us-east-2:123456789012:table/*", "arn:aws::glue:us-east-2:123456789012:userDefinedFunction/*" ] }, { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": [ "*" ] } ] }

Untuk informasi tentang cara mengkonfigurasi IAM saat menggunakan Step Functions dengan lainnya AWS layanan, lihatBagaimana Step Functions menghasilkan IAM kebijakan untuk layanan terintegrasi.