Dimensionamento simultaneo - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Dimensionamento simultaneo

Con la funzione dimensionamento simultaneo, puoi supportare migliaia di utenti e di query simultanee, con prestazioni di query a velocità costante. Quando si attiva il dimensionamento simultaneo, Amazon Redshift aggiunge automaticamente ulteriore capacità del cluster quando necessario per elaborare un aumento delle query di lettura e di scrittura. Gli utenti visualizzano sempre i dati più recenti, indipendentemente dal fatto che le query vengano eseguite nel cluster principale o in un cluster a dimensionamento simultaneo.

È possibile gestire le query da inviare al cluster di scalabilità simultanea configurando le code. WLM Quando si attiva il dimensionamento simultaneo per una coda, anziché attendere in una coda le query idonee vengono inviate al cluster di dimensionamento simultaneo.

I cluster a dimensionamento simultaneo vengono addebitati solo per il tempo in cui eseguono le query. Per ulteriori informazioni sui prezzi, tra cui il modo in cui i costi si accumulano e i costi minimi, consulta Prezzi di Concurrency Scaling.

Capacità di dimensionamento simultaneo

Quando attivi il ridimensionamento simultaneo per una WLM coda, funziona per le operazioni di lettura, come le query sulla dashboard. Funziona anche per le operazioni di scrittura comunemente utilizzate, come le istruzioni per l'importazione e l'elaborazione dei dati.

Funzionalità di dimensionamento simultaneo per le operazioni di scrittura

Il ridimensionamento simultaneo supporta le operazioni di scrittura utilizzate di frequente, come le istruzioni extract, transform e load (). ETL Il dimensionamento simultaneo per le operazioni di scrittura è particolarmente utile quando si desidera mantenere tempi di risposta coerenti quando il cluster riceve un numero elevato di richieste. Migliora la velocità effettiva per le operazioni di scrittura contendendo le risorse nel cluster principale.

Il ridimensionamento simultaneo supporta le COPY istruzioni, INSERT DELETEUPDATE, e CREATE TABLE AS (). CTAS Inoltre, il ridimensionamento simultaneo supporta l'aggiornamento della vista materializzata per coloro che non utilizzano aggregazioni. MVs Altre istruzioni data-manipulation language (DML) e data-definition language () non sono supportate. DDL Quando le istruzioni di scrittura non supportate, ad esempio CREATE senza TABLE AS, sono incluse in una transazione esplicita prima delle istruzioni di scrittura supportate, nessuna delle istruzioni di scrittura verrà eseguita su cluster con scalabilità simultanea.

Quando si accumula credito per il dimensionamento simultaneo, questo accumulo si applica sia alle operazioni di lettura che a quelle di scrittura.

Limitazioni per il dimensionamento simultaneo

Di seguito sono riportate le limitazioni per l'utilizzo del dimensionamento simultaneo di Amazon Redshift:

  • Non supporta query su tabelle che utilizzano chiavi di ordinamento interlacciato.

  • Non supporta query sulle tabelle temporanee.

  • Non supporta le query che accedono a risorse esterne protette da configurazioni restrittive di rete o di cloud privato virtuale (). VPC

  • Non supporta le query che contengono funzioni definite dall'utente in Python UDFs () e Lambda. UDFs

  • Non supporta le query che accedono alle tabelle di sistema, alle tabelle del catalogo Postgre SQL o alle tabelle senza backup.

  • Non supporta COPY né UNLOAD interroga che accedono a una risorsa esterna quando sono presenti autorizzazioni restrittive IAM relative a policy. Ciò include le autorizzazioni applicate alla risorsa, come un bucket Amazon S3 o una tabella DynamoDB, o all'origine. IAMle fonti possono includere quanto segue:

    • aws:sourceVpc— Una fonteVPC.

    • aws:sourceVpce— Un VPC endpoint di origine.

    • aws:sourceIp— Un indirizzo IP di origine.

    In alcuni casi, potrebbe essere necessario rimuovere le autorizzazioni che limitano la risorsa o l'origine, in modo che le UNLOAD query che COPY accedono alla risorsa vengano inviate al cluster con scalabilità competitiva.

    Per ulteriori informazioni sulle politiche delle risorse, consulta Tipi di policy nella guida per l' AWS Identity and Access Management utente e Controlling access from endpoint with bucket policies. VPC

  • La scalabilità simultanea di Amazon Redshift per le operazioni di scrittura non è supportata per DDL operazioni come o. CREATE TABLE ALTER TABLE

  • Non supporta il comandoANALYZE. COPY

  • Non supporta le operazioni di scrittura su una tabella di destinazione in cui DISTSTYLE è impostato suALL.

  • Non supporta COPY i seguenti formati di file:

    • Parquet

    • ORC

  • Non supporta le operazioni di scrittura su tabelle con colonne di identità.

  • Amazon Redshift supporta la scalabilità simultanea per le operazioni di scrittura solo sui nodi Amazon Redshift. RA3 Il dimensionamento simultaneo per le operazioni di scrittura non è supportato su altri tipi di nodi.

Regioni AWS per la scalabilità simultanea

Con Amazon Redshift, puoi utilizzare la scalabilità simultanea per gestire le richieste di carichi di lavoro simultanei tra i cluster Redshift. Questo argomento descrive in quali regioni è possibile utilizzare la scalabilità simultanea con Amazon Redshift.

La scalabilità simultanea è disponibile nelle seguenti regioni: AWS

  • Regione Stati Uniti orientali (Virginia settentrionale) (us-east-1)

  • Regione Stati Uniti orientali (Ohio) (us-east-2)

  • Regione Stati Uniti occidentali (California settentrionale) (us-west-1)

  • Regione Stati Uniti occidentali (Oregon) (us-west-2)

  • Regione Asia Pacifico (Mumbai) (ap-south-1)

  • Regione Asia Pacifico (Seoul) (ap-northeast-2)

  • Regione Asia Pacifico (Singapore) (ap-southeast-1)

  • Regione Asia Pacifico (Sydney) (ap-southeast-2)

  • Regione Asia Pacifico (Tokyo) (ap-northeast-1)

  • Regione Canada (Centrale) (ca-central-1)

  • Regione Cina (Pechino) (cn-north-1)

  • Regione Cina (Ningxia) (cn-northwest-1)

  • Regione Europa (Francoforte) (eu-central-1)

  • Regione Europa (Irlanda) (eu-west-1)

  • Regione Europa (Londra) (eu-west-2)

  • Regione Europa (Parigi) (eu-west-3)

  • Regione Europa (Stoccolma) (eu-north-1)

  • Regione Europa (Zurigo) (eu-central-2)

  • Regione Europa (Spagna) (eu-south-2)

  • Regione Sud America (San Paolo) (sa-east-1)

  • AWS GovCloud (Stati Uniti orientali)

Candidati per il dimensionamento simultaneo

Con Amazon Redshift, puoi scalare l'elaborazione delle query per accelerare l'esecuzione di query simultanee. L'argomento seguente descrive i criteri utilizzati da Amazon Redshift per determinare quali query indirizzare alla scalabilità simultanea.

Le query vengono instradate al cluster a dimensionamento simultaneo solo quando il cluster principale soddisfa i seguenti requisiti:

  • EC2VPC- piattaforma.

  • Il tipo di nodo deve essere dc2.8xlarge, dc2.large, ra3.large, ra3.xlplus, ra3.4xlarge o ra3.16xlarge. La scalabilità simultanea per le operazioni di scrittura è supportata solo sui nodi Amazon RA3 Redshift.

  • Massimo 32 nodi di calcolo per cluster con tipi di nodi ra3.xlplus, ra3.4xlarge o ra3.16xlarge. Inoltre, il numero di nodi del cluster principale non può essere maggiore di 32 al momento della creazione del cluster originale. Ad esempio, anche se un cluster ha attualmente 20 nodi, ma è stato originariamente creato con 40, non soddisfa i requisiti per il dimensionamento simultaneo. Al contrario, se un DC2 cluster ha attualmente 40 nodi, ma è stato originariamente creato con 20, soddisfa i requisiti per la scalabilità simultanea.

  • Non un cluster a nodo singolo.

Configurazione delle code di dimensionamento simultaneo

Con Amazon Redshift, puoi gestire la concorrenza e le risorse di sistema configurando la scalabilità simultanea. Le code di scalabilità simultanea consentono di impostare limiti al numero di query o sessioni utente che possono essere eseguite contemporaneamente. La sezione seguente fornisce istruzioni su come abilitare le code di scalabilità simultanea in Amazon Redshift, consentendoti di gestire in modo efficace le query e le sessioni utente simultanee.

Puoi indirizzare le query ai cluster di scalabilità simultanea abilitando la scalabilità simultanea in una coda di workload manager (). WLM Per abilitare il dimensionamento simultaneo su una coda, impostare il valore Modalità di dimensionamento simultaneo su auto.

Quando il numero di query indirizzate a una coda con scalabilità simultanea abilitata supera la capacità di concorrenza della coda, indipendentemente dal fatto che la capacità sia configurata manualmente o determinata automaticamente, le query idonee vengono inviate al cluster di scalabilità simultanea. Quando gli slot di coda diventano disponibili sul cluster principale, le query vengono instradate ed eseguite sul cluster principale. Come con qualsiasi WLM coda, le interrogazioni vengono indirizzate a una coda con scalabilità simultanea in base ai gruppi di utenti, etichettando le query con etichette dei gruppi di query o in base alle condizioni di corrispondenza definite in Assegnazione di interrogazioni alle code. Puoi anche instradare le query definendo WLMregole di monitoraggio delle interrogazioni. Ad esempio, potresti instradare tutte le query che impiegano più di 5 secondi a una coda di dimensionamento simultaneo. Tieni presente che il comportamento di accodamento può variare a seconda che tu stia utilizzando la modalità automatica o manuale. WLM WLM Per ulteriori informazioni, consulta Implementazione automatica WLM o Implementazione manuale. WLM

Il numero predefinito di cluster di dimensionamento simultaneo è uno. Il numero di cluster di dimensionamento simultaneo che è possibile utilizzare è controllato da max_concurrency_scaling_clusters.

Monitoraggio del dimensionamento simultaneo

Con Amazon Redshift, puoi monitorare e gestire la scalabilità simultanea per ottimizzare le prestazioni e l'efficienza dei costi per i carichi di lavoro di data warehousing. La scalabilità simultanea consente ad Amazon Redshift di aggiungere automaticamente ulteriore capacità di cluster quando le richieste di carico di lavoro aumentano e di rimuovere tale capacità quando le richieste diminuiscono. La sezione seguente fornisce indicazioni sul monitoraggio della scalabilità simultanea per i cluster Amazon Redshift.

È possibile visualizzare se una query è in esecuzione nel cluster principale o in un cluster a dimensionamento simultaneo selezionando Cluster dalla console Amazon Redshift e scegliendo un cluster. Quindi scegli la scheda Monitoraggio delle query e Simultaneità del carico di lavoro per visualizzare le informazioni sulle query in esecuzione e sulle query in coda.

Per trovare i tempi di esecuzione, interroga la QUERY tabella STL _ e filtra sulla colonna. concurrency_scaling_status La seguente query confronta il tempo di attesa in coda e il tempo di esecuzione per le query eseguite nel cluster a dimensionamento simultaneo e le query eseguite nel cluster principale.

SELECT w.service_class AS queue , CASE WHEN q.concurrency_scaling_status = 1 THEN 'concurrency scaling cluster' ELSE 'main cluster' END as concurrency_scaling_status , COUNT( * ) AS queries , SUM( q.aborted ) AS aborted , SUM( ROUND( total_queue_time::NUMERIC / 1000000,2) ) AS queue_secs , SUM( ROUND( total_exec_time::NUMERIC / 1000000,2) ) AS exec_secs FROM stl_query q JOIN stl_wlm_query w USING (userid,query) WHERE q.userid > 1 AND q.starttime > '2019-01-04 16:38:00' AND q.endtime < '2019-01-04 17:40:00' GROUP BY 1,2 ORDER BY 1,2;

Regola i valori starttimeendtime in base alle tue esigenze.

Visualizzazioni di sistema per il dimensionamento simultaneo

Con Amazon Redshift, puoi utilizzare le viste del sistema di scalabilità simultanea per monitorare e gestire l'attività di scalabilità simultanea nel tuo cluster. La sezione seguente descrive l'interrogazione di queste viste di sistema e l'interpretazione dei risultati per sfruttare efficacemente la scalabilità simultanea nel tuo ambiente Amazon Redshift.

Una serie di viste di sistema con il prefisso SVCS fornisce dettagli tratti dalle tabelle dei log di sistema sulle interrogazioni sui cluster di scalabilità principali e simultanei.

Le seguenti viste contengono informazioni simili alle viste o alle viste corrispondenti: STL SVL

Le seguenti visualizzazioni sono specifiche del dimensionamento simultaneo.

Per ulteriori informazioni sul dimensionamento simultaneo, consulta i seguenti argomenti nella Guida alla gestione di Amazon Redshift.