Menggunakan kesadaran konteks dengan Integrasi Data Amazon Q di AWS Glue

Mode fokus

Menggunakan kesadaran konteks dengan Integrasi Data Amazon Q di AWS Glue - AWS Glue

Sekarang Anda dapat membuat pekerjaan pemrosesan data secara lebih efisien dengan sadar konteks berbasis kueri dan pembuatan PySpark DataFrame kode di Amazon Q Data Integration. Misalnya, Anda dapat menggunakan prompt ini untuk menghasilkan PySpark kode: “buat pekerjaan untuk memuat data penjualan dari tabel Redshift 'analytics.salesorder' menggunakan koneksi 'erp_conn', filter order_amount di bawah 50 dolar, dan simpan ke Amazon S3 dalam format parket.”

Amazon Q akan menghasilkan skrip berdasarkan pengaturan alur kerja integrasi data prompt dan penyiapan Anda dengan detail yang diberikan dari pertanyaan Anda, seperti konfigurasi koneksi, detail skema, nama database/tabel, dan spesifikasi kolom untuk transformasi. Informasi sensitif, seperti kata sandi opsi koneksi, terus disunting.

Jika informasi yang diperlukan tidak diberikan dari prompt Anda, Amazon Q akan menempatkan placeholder, yang harus Anda perbarui kode yang dihasilkan dengan nilai yang sesuai sebelum menjalankan kode.

Berikut ini adalah contoh tentang cara menggunakan kesadaran konteks.

Contoh: interaksi

Prompt: Create an AWS Glue spark job that reads a file s3://amzn-s3-demo-bucket-input-bucket-name/input-filename.csv and saves it into the parquet file under directory s3://amzn-s3-demo-bucket-output-bucket-name/output-s3-prefix/


import sys
from awsglue.transforms import *
from pyspark.context import SparkContext
from pyspark.sql import SparkSession

sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

# Script generated for node S3DataSource
S3DataSource_dsource1 = spark.read.format("csv").load(
    "s3://amzn-s3-demo-bucket-input-bucket-name/input-filename.csv"
)

# Script generated for node S3DataSink
S3DataSource_dsource1.write.format("parquet").mode("append").save(
    "s3://amzn-s3-demo-bucket-output-bucket-name/output-s3-prefix/"
)

Contoh meminta integrasi data Amazon Q di AWS Glue untuk skrip ETL yang dihasilkan.

Membaca file Amazon S3 dan menulis ke bucket Amazon S3


import sys
from awsglue.transforms import *
from pyspark.context import SparkContext
from pyspark.sql import SparkSession

sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

# Script generated for node S3DataSource
S3DataSource_dsource1 = spark.read.format("csv").load(
    "s3://amzn-s3-demo-bucket-input-bucket-name/input-filename.csv"
)

# Script generated for node S3DataSink
S3DataSource_dsource1.write.format("parquet").mode("append").save(
    "s3://amzn-s3-demo-bucket-output-bucket-name/output-s3-prefix/"
)

Prompt: write an ETL script to read from a Lakehouse table my-table in database my-database and write it to a RDS MySQL table my-target-table

Untuk bidang di mana Anda tidak memberikan informasi (misalnya, ConnectionName yang diperlukan adalah untuk data sink MySQL dan default dengan placehoder <connection-name>dalam kode yang dihasilkan), placeholder disimpan agar Anda dapat mengisi informasi yang diperlukan sebelum menjalankan skrip.

Skrip yang dihasilkan:


import sys
from awsglue.transforms import *
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from connectivity.adapter import CatalogConnectionHelper

sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

# Script generated for node S3DataSource
S3DataSource_dsource1 = spark.read.format("parquet").load(
    "s3://amzn-lakehouse-demo-bucket/my-database/my-table"
)

# Script generated for node ConnectionV2DataSink
ConnectionV2DataSink_dsink1_additional_options = {"dbtable": "my-target-table"}
CatalogConnectionHelper(spark).write(
    S3DataSource_dsource1,
    "mysql",
    "<connection-name>",
    ConnectionV2DataSink_dsink1_additional_options,
)

Dapatkan data dari Lakehouse dan tulis ke database

Prompt: write an ETL script to read from a Lakehouse table my-table in database my-database and write it to a RDS MySQL table my-target-table

Skrip yang dihasilkan:


import sys
from awsglue.transforms import *
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from connectivity.adapter import CatalogConnectionHelper

sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

# Script generated for node S3DataSource
S3DataSource_dsource1 = spark.read.format("parquet").load(
    "s3://amzn-lakehouse-demo-bucket/my-database/my-table"
)

# Script generated for node ConnectionV2DataSink
ConnectionV2DataSink_dsink1_additional_options = {"dbtable": "my-target-table"}
CatalogConnectionHelper(spark).write(
    S3DataSource_dsource1,
    "mysql",
    "<connection-name>",
    ConnectionV2DataSink_dsink1_additional_options,
)

Contoh berikut menunjukkan bagaimana Anda dapat meminta AWS Glue untuk membuat skrip AWS Glue untuk menyelesaikan alur kerja ETL penuh dengan prompt berikut:. Create a AWS Glue ETL Script read from two AWS Glue Data Catalog tables venue and event in my database glue_db_4fthqih3vvk1if, join the results on the field venueid, filter on venue state with condition as venuestate=='DC' after joining the results and write output to an Amazon S3 S3 location s3://amz-s3-demo-bucket/output/ in CSV format

Alur kerja berisi pembacaan dari sumber data yang berbeda (dua tabel Katalog Data AWS Glue), dan beberapa transformasi setelah pembacaan dengan menggabungkan hasil dari dua pembacaan, filter berdasarkan beberapa kondisi dan tulis output yang diubah ke tujuan Amazon S3 dalam format CSV.

Pekerjaan yang dihasilkan akan mengisi informasi terperinci ke sumber data, mengubah dan menenggelamkan operasi dengan informasi terkait yang diekstrak dari pertanyaan pengguna seperti di bawah ini.



import sys
from awsglue.transforms import *
from pyspark.context import SparkContext
from pyspark.sql import SparkSession

sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

# Script generated for node CatalogDataSource
CatalogDataSource_dsource1 = spark.sql("select * from `glue_db_4fthqih3vvk1if`.`venue`")

# Script generated for node CatalogDataSource
CatalogDataSource_dsource2 = spark.sql("select * from `glue_db_4fthqih3vvk1if`.`event`")

# Script generated for node JoinTransform
JoinTransform_transform1 = CatalogDataSource_dsource1.join(
    CatalogDataSource_dsource2,
    (CatalogDataSource_dsource1["venueid"] == CatalogDataSource_dsource2["venueid"]),
    "inner",
)

# Script generated for node FilterTransform
FilterTransform_transform2 = JoinTransform_transform1.filter("venuestate=='DC'")

# Script generated for node S3DataSink
FilterTransform_transform2.write.format("csv").mode("append").save(
    "s3://amz-s3-demo-bucket/output//output/"
)

Contoh: Alur kerja ETL penuh

Pekerjaan yang dihasilkan akan mengisi informasi terperinci ke sumber data, mengubah dan menenggelamkan operasi dengan informasi terkait yang diekstrak dari pertanyaan pengguna seperti di bawah ini.



import sys
from awsglue.transforms import *
from pyspark.context import SparkContext
from pyspark.sql import SparkSession

sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

# Script generated for node CatalogDataSource
CatalogDataSource_dsource1 = spark.sql("select * from `glue_db_4fthqih3vvk1if`.`venue`")

# Script generated for node CatalogDataSource
CatalogDataSource_dsource2 = spark.sql("select * from `glue_db_4fthqih3vvk1if`.`event`")

# Script generated for node JoinTransform
JoinTransform_transform1 = CatalogDataSource_dsource1.join(
    CatalogDataSource_dsource2,
    (CatalogDataSource_dsource1["venueid"] == CatalogDataSource_dsource2["venueid"]),
    "inner",
)

# Script generated for node FilterTransform
FilterTransform_transform2 = JoinTransform_transform1.filter("venuestate=='DC'")

# Script generated for node S3DataSink
FilterTransform_transform2.write.format("csv").mode("append").save(
    "s3://amz-s3-demo-bucket/output//output/"
)

Batasan

Konteks carryover:
- Fitur kesadaran konteks hanya membawa konteks dari kueri pengguna sebelumnya dalam percakapan yang sama. Itu tidak mempertahankan konteks di luar kueri sebelumnya langsung.
Support untuk konfigurasi node:
- Saat ini, kesadaran konteks hanya mendukung sebagian dari konfigurasi yang diperlukan untuk berbagai node.
- Support untuk bidang opsional direncanakan dalam rilis mendatang.
Ketersediaan:
- Kesadaran konteks dan DataFrame dukungan tersedia di buku catatan Q Chat dan SageMaker Unified Studio. Namun, fitur ini belum tersedia di notebook AWS Glue Studio.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Contoh interaksi

Orkestrasi

Topik berikutnya:

Orkestrasi

Topik sebelumnya:

Contoh interaksi

Perlu bantuan?

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Menggunakan kesadaran konteks dengan Integrasi Data Amazon Q di AWS Glue

Contoh: interaksi

Membaca file Amazon S3 dan menulis ke bucket Amazon S3

Dapatkan data dari Lakehouse dan tulis ke database

Contoh: Alur kerja ETL penuh

Batasan

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Contoh meminta integrasi data Amazon Q di AWS Glue untuk skrip ETL yang dihasilkan.

Contoh meminta integrasi data Amazon Q di AWS Glue untuk skrip ETL yang dihasilkan.

Contoh meminta integrasi data Amazon Q di AWS Glue untuk skrip ETL yang dihasilkan.