Limits Ereditarietà di attributi di colonna e tabella Codifica di compressione Distribuzione dei dati in arrivo Operazioni ANALYZE automatiche

Note per l'utilizzo di CTAS

Limits

Amazon Redshift applica una quota del numero di tabelle per cluster per tipo di nodo.

Il numero massimo di caratteri per un nome di tabella è 127.

Il numero massimo di colonne che puoi definire in una singola tabella è 1.600.

Ereditarietà di attributi di colonna e tabella

Le tabelle CREATE TABLE AS (CTAS) non ereditano vincoli, colonne di identità, valori di colonna predefiniti o la chiave primaria dalla tabella da cui sono stati creati.

Non è possibile specificare le codifiche di compressione delle colonne per le tabelle CTAS. Amazon Redshift assegna automaticamente la codifica della compressione come segue:

Le colonne definite come chiavi di ordinamento vengono assegnate alla compressione RAW.
Alle colonne definite come tipi di dati BOOLEAN, REAL, DOUBLE PRECISION, GEOMETRY o GEOGRAPHY viene assegnata la compressione di tipo RAW.
Le colonne definite come SMALLINT, INTEGER, BIGINT, DECIMAL, DATE, TIME, TIMETZ, TIMESTAMP o TIMESTAMPTZ sono assegnate alla compressione AZ64.
Le colonne definite come CHAR, VARCHAR o VARBYTE sono assegnate alla compressione LZO.

Per ulteriori informazioni, consultare Codifiche di compressione e Tipi di dati.

Per assegnare esplicitamente le codifiche di colonna, utilizza CREATE TABLE.

CTAS determina lo stile di distribuzione e la chiave di ordinamento per la nuova tabella in base al piano di query per la clausola SELECT.

Per le query complesse, come le query che includono join, aggregazioni, una clausola order by o una clausola limit, CTAS tenta di scegliere al meglio lo stile di distribuzione ottimale e la chiave di ordinamento in base al piano di query.

Nota

Per le prestazioni ottimali con set di dati di grandi dimensioni o query complesse, consigliamo di eseguire il test utilizzando set di dati tipici.

Spesso puoi prevedere quale chiave di distribuzione e chiave di ordinamento viene scelta da CTAS esaminando il piano di query per vedere quali colonne, se presenti, l'ottimizzatore di query sceglie per l'ordinamento e la distribuzione dei dati. Se il nodo superiore del piano di query è una semplice scansione sequenziale da una singola tabella (XN Seq Scan), in genere CTAS utilizza lo stile di distribuzione e la chiave di ordinamento della tabella di origine. Se il nodo principale del piano di query è qualcosa di diverso da una scansione sequenziale (come XN Limit, XN Sort, XN HashAggregate e così via), CTAS fa del suo meglio per scegliere lo stile di distribuzione e la chiave di ordinamento ottimali in base al piano di query.

Ad esempio, supponiamo di creare cinque tabelle utilizzando i seguenti tipi di clausole SELECT:

Una semplice istruzione select
Una clausola limit
Una clausola order by usando LISTID
Una clausola order by usando QTYSOLD
Una funzione di aggregazione SUM con una clausola group by.

I seguenti esempi mostrano il piano di query per ciascuna istruzione CTAS.


explain create table sales1_simple as select listid, dateid, qtysold from sales;
                           QUERY PLAN
----------------------------------------------------------------
 XN Seq Scan on sales  (cost=0.00..1724.56 rows=172456 width=8)
(1 row)


explain create table sales2_limit as select listid, dateid, qtysold from sales limit 100;
                              QUERY PLAN
----------------------------------------------------------------------
 XN Limit  (cost=0.00..1.00 rows=100 width=8)
   ->  XN Seq Scan on sales  (cost=0.00..1724.56 rows=172456 width=8)
(2 rows)


explain create table sales3_orderbylistid as select listid, dateid, qtysold from sales order by listid;
                               QUERY PLAN
------------------------------------------------------------------------
 XN Sort  (cost=1000000016724.67..1000000017155.81 rows=172456 width=8)
   Sort Key: listid
   ->  XN Seq Scan on sales  (cost=0.00..1724.56 rows=172456 width=8)
(3 rows)


explain create table sales4_orderbyqty as select listid, dateid, qtysold from sales order by qtysold;
                               QUERY PLAN
------------------------------------------------------------------------
 XN Sort  (cost=1000000016724.67..1000000017155.81 rows=172456 width=8)
   Sort Key: qtysold
   ->  XN Seq Scan on sales  (cost=0.00..1724.56 rows=172456 width=8)
(3 rows)


explain create table sales5_groupby as select listid, dateid, sum(qtysold) from sales group by listid, dateid;
                              QUERY PLAN
----------------------------------------------------------------------
 XN HashAggregate  (cost=3017.98..3226.75 rows=83509 width=8)
   ->  XN Seq Scan on sales  (cost=0.00..1724.56 rows=172456 width=8)
(2 rows)

Per visualizzare la chiave di distribuzione e la chiave di ordinamento per ogni tabella, eseguire una query sulla tabella del catalogo di sistema PG_TABLE_DEF, come illustrato di seguito.


select * from pg_table_def where tablename like 'sales%';

      tablename       |   column   | distkey | sortkey
----------------------+------------+---------+---------
 sales                | salesid    | f       |       0
 sales                | listid     | t       |       0
 sales                | sellerid   | f       |       0
 sales                | buyerid    | f       |       0
 sales                | eventid    | f       |       0
 sales                | dateid     | f       |       1
 sales                | qtysold    | f       |       0
 sales                | pricepaid  | f       |       0
 sales                | commission | f       |       0
 sales                | saletime   | f       |       0
 sales1_simple        | listid     | t       |       0
 sales1_simple        | dateid     | f       |       1
 sales1_simple        | qtysold    | f       |       0
 sales2_limit         | listid     | f       |       0
 sales2_limit         | dateid     | f       |       0
 sales2_limit         | qtysold    | f       |       0
 sales3_orderbylistid | listid     | t       |       1
 sales3_orderbylistid | dateid     | f       |       0
 sales3_orderbylistid | qtysold    | f       |       0
 sales4_orderbyqty    | listid     | t       |       0
 sales4_orderbyqty    | dateid     | f       |       0
 sales4_orderbyqty    | qtysold    | f       |       1
 sales5_groupby       | listid     | f       |       0
 sales5_groupby       | dateid     | f       |       0
 sales5_groupby       | sum        | f       |       0

La tabella seguente riepiloga i risultati. Per semplicità, vengono omessi i dettagli relativi a costi, righe e larghezza dal piano explain.

Tabella	Istruzione CTAS SELECT	Nodo superiore del piano explain	Chiave distribuzione	Chiave di ordinamento
S1_SIMPLE	`select listid, dateid, qtysold from sales`	`XN Seq Scan on sales ...`	LISTID	DATEID
S2_LIMIT	`select listid, dateid, qtysold from sales limit 100`	`XN Limit ...`	Nessuna (EVEN)	Nessuno
S3_ORDER_BY_LISTID	`select listid, dateid, qtysold from sales order by listid`	`XN Sort ...` `Sort Key: listid`	LISTID	LISTID
S4_ORDER_BY_QTY	`select listid, dateid, qtysold from sales order by qtysold`	`XN Sort ...` `Sort Key: qtysold`	LISTID	QTYSOLD
S5_GROUP_BY	`select listid, dateid, sum(qtysold) from sales group by listid, dateid`	`XN HashAggregate ...`	Nessuna (EVEN)	Nessuno

Puoi specificare in modo lo stile di distribuzione e la chiave di ordinamento nell'istruzione CTAS. Ad esempio, la seguente istruzione crea una tabella utilizzando la distribuzione EVEN e specifica SALESID come chiave di ordinamento.


create table sales_disteven
diststyle even
sortkey (salesid)
as
select eventid, venueid, dateid, eventname
from event;

Codifica di compressione

ENCODE AUTO è l'impostazione predefinita per le tabelle. Amazon Redshift gestisce automaticamente la codifica di compressione per tutte le colonne della tabella.

Distribuzione dei dati in arrivo

Quando lo schema di distribuzione dell'hash dei dati in arrivo corrisponde a quello della tabella di destinazione, non è necessaria alcuna distribuzione fisica dei dati quando i dati vengono caricati. Ad esempio, se una chiave di distribuzione è impostata per la nuova tabella e i dati vengono inseriti da un'altra tabella che viene distribuita sulla stessa colonna chiave, i dati vengono caricati in posizione, utilizzando gli stessi nodi e sezioni. Tuttavia, se le tabelle di origine e di destinazione sono entrambe impostate sulla distribuzione EVEN, i dati vengono ridistribuiti nella tabella di destinazione.

Operazioni ANALYZE automatiche

Amazon Redshift analizza automaticamente le tabelle create con i comandi CTAS. Non è necessario eseguire il comando ANALYZE su queste tabelle quando vengono create per la prima volta. Se le modifichi, devi analizzarle come fai per le altre tabelle.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

CREATE TABLE AS

Esempi di CTAS