Konektor DS (-DS) TPC TPC patokan Amazon Athena - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konektor DS (-DS) TPC TPC patokan Amazon Athena

Konektor Amazon Athena TPC -DS memungkinkan Amazon Athena untuk berkomunikasi dengan sumber data TPC Benchmark DS yang dihasilkan secara acak untuk digunakan dalam benchmarking dan pengujian fungsional Federasi Athena. Konektor Athena TPC -DS menghasilkan database yang sesuai TPC -DS pada salah satu dari empat faktor skala. Kami tidak merekomendasikan penggunaan konektor ini sebagai alternatif untuk tes kinerja data lake berbasis Amazon S3.

Konektor ini tidak dapat didaftarkan dengan Glue Data Catalog sebagai katalog federasi. Konektor ini tidak mendukung kontrol akses data yang ditentukan dalam Lake Formation di tingkat katalog, database, tabel, kolom, baris, dan tag. Konektor ini menggunakan Glue Connections untuk memusatkan properti konfigurasi di Glue.

Prasyarat

Parameter

Gunakan parameter di bagian ini untuk mengkonfigurasi konektor TPC -DS.

catatan

Konektor sumber data Athena dibuat pada 3 Desember 2024 dan kemudian menggunakan koneksi. AWS Glue

Nama parameter dan definisi yang tercantum di bawah ini adalah untuk konektor sumber data Athena yang dibuat sebelum 3 Desember 2024. Ini dapat berbeda dari properti AWS Glue koneksi yang sesuai. Mulai 3 Desember 2024, gunakan parameter di bawah ini hanya jika Anda menggunakan konektor sumber data Athena versi sebelumnya secara manual.

  • spill_bucket - Menentukan bucket Amazon S3 untuk data yang melebihi batas fungsi Lambda.

  • spill_prefix — (Opsional) Default ke subfolder dalam nama yang ditentukan. spill_bucket athena-federation-spill Kami menyarankan Anda mengonfigurasi siklus hidup penyimpanan Amazon S3 di lokasi ini untuk menghapus tumpahan yang lebih lama dari jumlah hari atau jam yang telah ditentukan sebelumnya.

  • spill_put_request_headers — (Opsional) Peta header permintaan dan nilai yang JSON dikodekan untuk permintaan Amazon S3 yang digunakan untuk tumpahan (misalnya,). putObject {"x-amz-server-side-encryption" : "AES256"} Untuk kemungkinan header lainnya, lihat PutObjectdi APIReferensi Layanan Penyimpanan Sederhana Amazon.

  • kms_key_id — (Opsional) Secara default, data apa pun yang tumpah ke Amazon S3 dienkripsi menggunakan AES mode enkripsi yang diautentikasi dan kunci yang dihasilkan secara acak. GCM Agar fungsi Lambda Anda menggunakan kunci enkripsi yang lebih kuat yang dihasilkan oleh KMS likea7e63k4b-8loc-40db-a2a1-4d0en2cd8331, Anda dapat menentukan ID KMS kunci.

  • disable_spill_encryption — (Opsional) Ketika diatur ke, menonaktifkan enkripsi tumpahan. True Defaultnya False agar data yang tumpah ke S3 dienkripsi menggunakan AES - GCM — baik menggunakan kunci yang dihasilkan secara acak atau untuk menghasilkan kunci. KMS Menonaktifkan enkripsi tumpahan dapat meningkatkan kinerja, terutama jika lokasi tumpahan Anda menggunakan enkripsi sisi server.

Uji database dan tabel

Konektor Athena TPC -DS menghasilkan database yang sesuai TPC -DS di salah satu dari empat faktor skalatpcds1,,,, tpcds10 atau. tpcds100 tpcds250 tpcds1000

Ringkasan tabel

Untuk daftar lengkap tabel dan kolom data pengujian, jalankan SHOW TABLES atau DESCRIBE TABLE kueri. Ringkasan tabel berikut disediakan untuk kenyamanan.

  1. call_center

  2. catalog_page

  3. catalog_returns

  4. catalog_sales

  5. pelanggan

  6. customer_address

  7. customer_demografi

  8. date_dim

  9. dbgen_version

  10. demografi rumah tangga

  11. pendapatan_band

  12. inventaris

  13. item

  14. promosi

  15. akal budi

  16. ship_mode

  17. Toko

  18. store_returns

  19. store_sales

  20. waktu_redup

  21. gudang

  22. web_halaman

  23. web_returns

  24. web_penjualan

  25. situs web

Untuk kueri TPC -DS yang kompatibel dengan skema dan data yang dihasilkan ini, lihat direktori athena- tpcds/src/main/resources/queries/di. GitHub

Kueri contoh

Contoh SELECT kueri berikut menanyakan tpcds katalog untuk demografi pelanggan di kabupaten tertentu.

SELECT cd_gender, cd_marital_status, cd_education_status, count(*) cnt1, cd_purchase_estimate, count(*) cnt2, cd_credit_rating, count(*) cnt3, cd_dep_count, count(*) cnt4, cd_dep_employed_count, count(*) cnt5, cd_dep_college_count, count(*) cnt6 FROM "lambda:tpcds".tpcds1.customer c, "lambda:tpcds".tpcds1.customer_address ca, "lambda:tpcds".tpcds1.customer_demographics WHERE c.c_current_addr_sk = ca.ca_address_sk AND ca_county IN ('Rush County', 'Toole County', 'Jefferson County', 'Dona Ana County', 'La Porte County') AND cd_demo_sk = c.c_current_cdemo_sk AND exists(SELECT * FROM "lambda:tpcds".tpcds1.store_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = ss_customer_sk AND ss_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3) AND (exists(SELECT * FROM "lambda:tpcds".tpcds1.web_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = ws_bill_customer_sk AND ws_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3) OR exists(SELECT * FROM "lambda:tpcds".tpcds1.catalog_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = cs_ship_customer_sk AND cs_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3)) GROUP BY cd_gender, cd_marital_status, cd_education_status, cd_purchase_estimate, cd_credit_rating, cd_dep_count, cd_dep_employed_count, cd_dep_college_count ORDER BY cd_gender, cd_marital_status, cd_education_status, cd_purchase_estimate, cd_credit_rating, cd_dep_count, cd_dep_employed_count, cd_dep_college_count LIMIT 100

Izin yang Diperlukan

Untuk detail selengkapnya tentang IAM kebijakan yang diperlukan konektor ini, tinjau Policies bagian file athena-tpcds.yaml. Daftar berikut merangkum izin yang diperlukan.

  • Akses tulis Amazon S3 - Konektor memerlukan akses tulis ke lokasi di Amazon S3 untuk menumpahkan hasil dari kueri besar.

  • Athena GetQueryExecution — Konektor menggunakan izin ini untuk gagal cepat ketika kueri Athena hulu telah dihentikan.

Kinerja

Konektor Athena TPC -DS mencoba memparalelkan kueri berdasarkan faktor skala yang Anda pilih. Predikat pushdown dilakukan dalam fungsi Lambda.

Informasi lisensi

Proyek konektor Amazon Athena TPC -DS dilisensikan di bawah Lisensi Apache-2.0.

Sumber daya tambahan

Untuk informasi tambahan tentang konektor ini, kunjungi situs terkait GitHub di.com.