Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Konektor DS (-DS) TPC TPC patokan Amazon Athena
Konektor Amazon Athena TPC -DS memungkinkan Amazon Athena untuk berkomunikasi dengan sumber data TPC Benchmark DS yang dihasilkan secara acak untuk digunakan dalam benchmarking dan pengujian fungsional Federasi Athena. Konektor Athena TPC -DS menghasilkan database yang sesuai TPC -DS pada salah satu dari empat faktor skala. Kami tidak merekomendasikan penggunaan konektor ini sebagai alternatif untuk tes kinerja data lake berbasis Amazon S3.
Konektor ini tidak dapat didaftarkan dengan Glue Data Catalog sebagai katalog federasi. Konektor ini tidak mendukung kontrol akses data yang ditentukan dalam Lake Formation di tingkat katalog, database, tabel, kolom, baris, dan tag. Konektor ini menggunakan Glue Connections untuk memusatkan properti konfigurasi di Glue.
Prasyarat
Menyebarkan konektor ke Anda Akun AWS menggunakan konsol Athena atau. AWS Serverless Application Repository Untuk informasi selengkapnya, lihat Buat koneksi sumber data atau Gunakan AWS Serverless Application Repository untuk menyebarkan konektor sumber data.
Parameter
Gunakan parameter di bagian ini untuk mengkonfigurasi konektor TPC -DS.
catatan
Konektor sumber data Athena dibuat pada 3 Desember 2024 dan kemudian menggunakan koneksi. AWS Glue
Nama parameter dan definisi yang tercantum di bawah ini adalah untuk konektor sumber data Athena yang dibuat sebelum 3 Desember 2024. Ini dapat berbeda dari properti AWS Glue koneksi yang sesuai. Mulai 3 Desember 2024, gunakan parameter di bawah ini hanya jika Anda menggunakan konektor sumber data Athena versi sebelumnya secara manual.
-
spill_bucket - Menentukan bucket Amazon S3 untuk data yang melebihi batas fungsi Lambda.
-
spill_prefix — (Opsional) Default ke subfolder dalam nama yang ditentukan.
spill_bucket
athena-federation-spill
Kami menyarankan Anda mengonfigurasi siklus hidup penyimpanan Amazon S3 di lokasi ini untuk menghapus tumpahan yang lebih lama dari jumlah hari atau jam yang telah ditentukan sebelumnya. -
spill_put_request_headers — (Opsional) Peta header permintaan dan nilai yang JSON dikodekan untuk permintaan Amazon S3 yang digunakan untuk tumpahan (misalnya,).
putObject
{"x-amz-server-side-encryption" : "AES256"}
Untuk kemungkinan header lainnya, lihat PutObjectdi APIReferensi Layanan Penyimpanan Sederhana Amazon. -
kms_key_id — (Opsional) Secara default, data apa pun yang tumpah ke Amazon S3 dienkripsi menggunakan AES mode enkripsi yang diautentikasi dan kunci yang dihasilkan secara acak. GCM Agar fungsi Lambda Anda menggunakan kunci enkripsi yang lebih kuat yang dihasilkan oleh KMS like
a7e63k4b-8loc-40db-a2a1-4d0en2cd8331
, Anda dapat menentukan ID KMS kunci. -
disable_spill_encryption — (Opsional) Ketika diatur ke, menonaktifkan enkripsi tumpahan.
True
DefaultnyaFalse
agar data yang tumpah ke S3 dienkripsi menggunakan AES - GCM — baik menggunakan kunci yang dihasilkan secara acak atau untuk menghasilkan kunci. KMS Menonaktifkan enkripsi tumpahan dapat meningkatkan kinerja, terutama jika lokasi tumpahan Anda menggunakan enkripsi sisi server.
Uji database dan tabel
Konektor Athena TPC -DS menghasilkan database yang sesuai TPC -DS di salah satu dari empat faktor skalatpcds1
,,,, tpcds10
atau. tpcds100
tpcds250
tpcds1000
Ringkasan tabel
Untuk daftar lengkap tabel dan kolom data pengujian, jalankan SHOW
TABLES
atau DESCRIBE TABLE
kueri. Ringkasan tabel berikut disediakan untuk kenyamanan.
-
call_center
-
catalog_page
-
catalog_returns
-
catalog_sales
-
pelanggan
-
customer_address
-
customer_demografi
-
date_dim
-
dbgen_version
-
demografi rumah tangga
-
pendapatan_band
-
inventaris
-
item
-
promosi
-
akal budi
-
ship_mode
-
Toko
-
store_returns
-
store_sales
-
waktu_redup
-
gudang
-
web_halaman
-
web_returns
-
web_penjualan
-
situs web
Untuk kueri TPC -DS yang kompatibel dengan skema dan data yang dihasilkan ini, lihat direktori athena- tpcds/src/main/resources/queries
Kueri contoh
Contoh SELECT
kueri berikut menanyakan tpcds
katalog untuk demografi pelanggan di kabupaten tertentu.
SELECT cd_gender, cd_marital_status, cd_education_status, count(*) cnt1, cd_purchase_estimate, count(*) cnt2, cd_credit_rating, count(*) cnt3, cd_dep_count, count(*) cnt4, cd_dep_employed_count, count(*) cnt5, cd_dep_college_count, count(*) cnt6 FROM "lambda:tpcds".tpcds1.customer c, "lambda:tpcds".tpcds1.customer_address ca, "lambda:tpcds".tpcds1.customer_demographics WHERE c.c_current_addr_sk = ca.ca_address_sk AND ca_county IN ('Rush County', 'Toole County', 'Jefferson County', 'Dona Ana County', 'La Porte County') AND cd_demo_sk = c.c_current_cdemo_sk AND exists(SELECT * FROM "lambda:tpcds".tpcds1.store_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = ss_customer_sk AND ss_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3) AND (exists(SELECT * FROM "lambda:tpcds".tpcds1.web_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = ws_bill_customer_sk AND ws_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3) OR exists(SELECT * FROM "lambda:tpcds".tpcds1.catalog_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = cs_ship_customer_sk AND cs_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3)) GROUP BY cd_gender, cd_marital_status, cd_education_status, cd_purchase_estimate, cd_credit_rating, cd_dep_count, cd_dep_employed_count, cd_dep_college_count ORDER BY cd_gender, cd_marital_status, cd_education_status, cd_purchase_estimate, cd_credit_rating, cd_dep_count, cd_dep_employed_count, cd_dep_college_count LIMIT 100
Izin yang Diperlukan
Untuk detail selengkapnya tentang IAM kebijakan yang diperlukan konektor ini, tinjau Policies
bagian file athena-tpcds.yaml
-
Akses tulis Amazon S3 - Konektor memerlukan akses tulis ke lokasi di Amazon S3 untuk menumpahkan hasil dari kueri besar.
-
Athena GetQueryExecution — Konektor menggunakan izin ini untuk gagal cepat ketika kueri Athena hulu telah dihentikan.
Kinerja
Konektor Athena TPC -DS mencoba memparalelkan kueri berdasarkan faktor skala yang Anda pilih. Predikat pushdown dilakukan dalam fungsi Lambda.
Informasi lisensi
Proyek konektor Amazon Athena TPC -DS dilisensikan di bawah Lisensi Apache-2.0.
Sumber daya tambahan
Untuk informasi tambahan tentang konektor ini, kunjungi situs terkait