Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Connettore DS (-DS) TPC TPC benchmark Amazon Athena
Il connettore Amazon Athena TPC -DS consente ad Amazon Athena di comunicare con una fonte di dati Benchmark DS generati casualmente da utilizzare nei TPC benchmark e nei test funzionali di Athena Federation. Il connettore Athena TPC -DS genera un database conforme a TPC -DS con uno dei quattro fattori di scala. Non consigliamo di utilizzare questo connettore in alternativa ai test sulle prestazioni dei data lake basati su Amazon S3.
Questo connettore non può essere registrato con Glue Data Catalog come catalogo federato. Questo connettore non supporta i controlli di accesso ai dati definiti in Lake Formation a livello di catalogo, database, tabella, colonna, riga e tag. Questo connettore utilizza Glue Connections per centralizzare le proprietà di configurazione in Glue.
Prerequisiti
Implementa il connettore sul tuo Account AWS utilizzando la console Athena o AWS Serverless Application Repository. Per ulteriori informazioni, consulta Creare una connessione a una fonte di dati o Utilizzare il AWS Serverless Application Repository per distribuire un connettore di origine dati.
Parametri
Usa i parametri di questa sezione per configurare il connettore TPC -DS.
Nota
I connettori di origine dati Athena creati il 3 dicembre 2024 e versioni successive utilizzano connessioni. AWS Glue
I nomi e le definizioni dei parametri elencati di seguito si riferiscono ai connettori di origine dati Athena creati prima del 3 dicembre 2024. Questi possono differire dalle proprietà di AWS Glue connessione corrispondenti. A partire dal 3 dicembre 2024, utilizza i parametri seguenti solo quando distribuisci manualmente una versione precedente di un connettore di origine dati Athena.
-
spill_bucket: specifica il bucket Amazon S3 per i dati che superano i limiti della funzione Lambda.
-
spill_prefix: (facoltativo) per impostazione predefinita, viene utilizzata una sottocartella nello
spill_bucket
specificato chiamataathena-federation-spill
. Ti consigliamo di configurare un ciclo di vita dell'archiviazione di Amazon S3 in questa posizione per eliminare gli spill più vecchi di un numero predeterminato di giorni o ore. -
spill_put_request_headers — (Facoltativo) Una mappa JSON codificata delle intestazioni e dei valori delle richieste per la richiesta Amazon S3 utilizzata per lo spilling (ad esempio,).
putObject
{"x-amz-server-side-encryption" : "AES256"}
Per altre possibili intestazioni, consulta PutObjectAmazon Simple Storage Service API Reference. -
kms_key_id — (Facoltativo) Per impostazione predefinita, tutti i dati trasferiti su Amazon S3 vengono crittografati utilizzando la modalità di crittografia autenticata e una chiave generata AES GCM casualmente. Per fare in modo che la funzione Lambda utilizzi chiavi di crittografia più potenti generate da KMS like
a7e63k4b-8loc-40db-a2a1-4d0en2cd8331
, puoi specificare un ID di KMS chiave. -
disable_spill_encryption: (facoltativo) se impostato su
True
, disabilita la crittografia dello spill. L'impostazione predefinita èFalse
che i dati trasferiti su S3 vengano crittografati utilizzando AES GCM -, utilizzando una chiave generata casualmente o per generare chiavi. KMS La disabilitazione della crittografia dello spill può migliorare le prestazioni, soprattutto se la posizione dello spill utilizza la crittografia lato server.
Esecuzione di test su database e tabelle
Il connettore Athena TPC -DS genera un database conforme a TPC -DS con uno dei quattro fattori tpcds1
di scala,,, o. tpcds10
tpcds100
tpcds250
tpcds1000
Riepilogo delle tabelle
Per un elenco completo delle tabelle e delle colonne dei dati del test, esegui le query SHOW
TABLES
o DESCRIBE TABLE
. Per comodità, viene fornito il seguente riepilogo delle tabelle.
-
call_center
-
catalog_page
-
catalog_returns
-
catalog_sales
-
customer
-
customer_address
-
customer_demographics
-
date_dim
-
dbgen_version
-
household_demographics
-
income_band
-
Inventory
-
elemento
-
promotion
-
motivo
-
ship_mode
-
memorizzazione
-
store_returns
-
store_sales
-
time_dim
-
warehouse
-
web_page
-
web_returns
-
web_sales
-
web_site
Query di esempio
La query SELECT
di esempio seguente interroga il catalogo tpcds
in merito ai dati demografici dei clienti in contee specifiche.
SELECT cd_gender, cd_marital_status, cd_education_status, count(*) cnt1, cd_purchase_estimate, count(*) cnt2, cd_credit_rating, count(*) cnt3, cd_dep_count, count(*) cnt4, cd_dep_employed_count, count(*) cnt5, cd_dep_college_count, count(*) cnt6 FROM "lambda:tpcds".tpcds1.customer c, "lambda:tpcds".tpcds1.customer_address ca, "lambda:tpcds".tpcds1.customer_demographics WHERE c.c_current_addr_sk = ca.ca_address_sk AND ca_county IN ('Rush County', 'Toole County', 'Jefferson County', 'Dona Ana County', 'La Porte County') AND cd_demo_sk = c.c_current_cdemo_sk AND exists(SELECT * FROM "lambda:tpcds".tpcds1.store_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = ss_customer_sk AND ss_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3) AND (exists(SELECT * FROM "lambda:tpcds".tpcds1.web_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = ws_bill_customer_sk AND ws_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3) OR exists(SELECT * FROM "lambda:tpcds".tpcds1.catalog_sales, "lambda:tpcds".tpcds1.date_dim WHERE c.c_customer_sk = cs_ship_customer_sk AND cs_sold_date_sk = d_date_sk AND d_year = 2002 AND d_moy BETWEEN 1 AND 1 + 3)) GROUP BY cd_gender, cd_marital_status, cd_education_status, cd_purchase_estimate, cd_credit_rating, cd_dep_count, cd_dep_employed_count, cd_dep_college_count ORDER BY cd_gender, cd_marital_status, cd_education_status, cd_purchase_estimate, cd_credit_rating, cd_dep_count, cd_dep_employed_count, cd_dep_college_count LIMIT 100
Autorizzazioni richieste
Per tutti i dettagli sulle IAM politiche richieste da questo connettore, consulta la Policies
sezione del file athena-tpcds.yaml.
-
Accesso in scrittura ad Amazon S3: per trasferire i risultati di query di grandi dimensioni, il connettore richiede l'accesso in scrittura a una posizione in Amazon S3.
-
Athena GetQueryExecution: il connettore utilizza questa autorizzazione per fallire rapidamente quando la query Athena upstream è terminata.
Prestazioni
Il connettore Athena TPC -DS tenta di parallelizzare le query in base al fattore di scala scelto. Il pushdown dei predicati viene eseguito all'interno della funzione Lambda.
Informazioni sulla licenza
Il progetto Amazon Athena TPC -DS connector è concesso in licenza con licenza Apache-2.0.
Risorse aggiuntive
Per ulteriori informazioni su questo connettore, visita il sito corrispondente su .com.