Throughput allocato Caricamento di dati multibyte

Caricamento di dati da una tabella Amazon DynamoDB

È possibile utilizzare il comando COPY per caricare una tabella con dati da una singola tabella Amazon DynamoDB.

Importante

La tabella Amazon DynamoDB che fornisce i dati deve essere creata nella AWS stessa regione del cluster a meno che non si utilizzi l'opzione per specificare REGION la regione in cui si trova AWS la tabella Amazon DynamoDB.

Il comando COPY utilizza l'architettura MPP (Massively Parallel Processing) di Amazon Redshift per leggere e caricare dati in parallelo da una tabella Amazon DynamoDB. È possibile ottenere il massimo dall'elaborazione parallela impostando gli stili di distribuzione nelle tabelle Amazon Redshift. Per ulteriori informazioni, consulta Distribuzione dei dati per l’ottimizzazione delle query.

Importante

Quando il comando COPY legge i dati dalla tabella Amazon DynamoDB, il trasferimento dei dati risultante fa parte del throughput assegnato di quella tabella.

Per evitare di utilizzare quantità eccessive di throughput di lettura assegnato, consigliamo di non caricare i dati dalle tabelle Amazon DynamoDB che si trovano in ambienti di produzione. Se carichi i dati dalle tabelle di produzione, consigliamo di impostare l'opzione READRATIO su un valore molto più basso della percentuale media del throughput assegnato inutilizzato. Un'impostazione READRATIO bassa contribuirà a ridurre al minimo i problemi di throttling. Per utilizzare l'intero throughput assegnato di una tabella Amazon DynamoDB, impostare READRATIO su 100.

Il comando COPY fa corrispondere i nomi degli attributi negli elementi recuperati dalla tabella DynamoDB ai nomi di colonna nella tabella Amazon Redshift esistente utilizzando le seguenti regole:

Le colonne di una tabella Amazon Redshift corrispondono senza distinzione tra maiuscole e minuscole agli attributi degli elementi di Amazon DynamoDB. Se una voce nella tabella DynamoDB contiene più attributi che differiscono solo tra maiuscole e minuscole, come Price e PRICE, il comando COPY fallirà.
Le colonne della tabella Amazon Redshift che non corrispondono a un attributo nella tabella Amazon DynamoDB vengono caricate come NULL o vuote, a seconda del valore specificato con l'opzione EMPTYASNULL nel comando COPY.
Gli attributi di Amazon DynamoDB che non corrispondono a una colonna nella tabella Amazon Redshift vengono scartati. Gli attributi vengono letti prima di essere abbinati, quindi anche gli attributi eliminati utilizzano parte del throughput assegnato della tabella.
Sono supportati solo gli attributi di Amazon DynamoDB con tipi di dati STRING e NUMBER scalari. I tipi di dati BINARY e SET di Amazon DynamoDB non sono supportati. Se un comando COPY prova a caricare un attributo con un tipo di dati non supportato, il comando fallirà. Se l'attributo non corrisponde a una colonna della tabella Amazon Redshift, il comando COPY non prova a caricarlo e non genera un errore.

Il comando COPY utilizza la seguente sintassi per caricare i dati da una tabella Amazon DynamoDB:


COPY <redshift_tablename> FROM 'dynamodb://<dynamodb_table_name>'
authorization
readratio '<integer>';

I valori per l'autorizzazione sono le AWS credenziali necessarie per accedere alla tabella Amazon DynamoDB. Se queste credenziali corrispondono a un utente, tale utente deve disporre dell'autorizzazione per le operazioni SCAN e DESCRIBE per la tabella Amazon DynamoDB che viene caricata.

I valori di autorizzazione forniscono l' AWS autorizzazione necessaria al cluster per accedere alla tabella Amazon DynamoDB. L'autorizzazione deve includere SCAN e DESCRIBE per la tabella Amazon DynamoDB che viene caricata. Per ulteriori informazioni sulle autorizzazioni richieste, consultare Autorizzazioni IAM per COPY, UNLOAD e CREATE LIBRARY. Il metodo preferito per l'autenticazione è specificare il parametro IAM_ROLE e fornire l'Amazon Resource Name (ARN) per un ruolo IAM con le autorizzazioni necessarie. Per ulteriori informazioni, consulta Role-based controllo degli accessi.

Per autenticarsi utilizzando il parametro IAM_ROLE <aws-account-id> e <role-name> come mostrato nella sintassi seguente.


IAM_ROLE 'arn:aws:iam::<aws-account-id>:role/<role-name>'

L'esempio seguente mostra l'autenticazione utilizzando un ruolo IAM.


COPY favoritemovies 
FROM 'dynamodb://ProductCatalog'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole';

Per ulteriori informazioni su altre opzioni di autorizzazione, consulta Parametri di autorizzazione

Se desideri convalidare i dati senza caricare effettivamente la tabella, utilizza l'opzione NOLOAD con il comando COPY.

L'esempio seguente carica la tabella FAVORITEMOVIES con i dati della tabella DynamoDB my-favorite-movies-table. L'attività di lettura può utilizzare fino al 50% del throughput assegnato.


COPY favoritemovies FROM 'dynamodb://my-favorite-movies-table' 
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole' 
READRATIO 50;

Per massimizzare il throughput, il comando COPY carica i dati da una tabella Amazon DynamoDB in parallelo in tutti i nodi di calcolo nel cluster.

Throughput assegnata con la compressione automatica

Per impostazione predefinita, il comando COPY applica la compressione automatica ogni volta che specifichi una tabella di destinazione vuota senza codifica di compressione. L'analisi della compressione automatica inizialmente campiona un numero elevato di righe dalla tabella Amazon DynamoDB. La dimensione del campione si basa sul valore del parametro COMPROWS. La versione predefinita è di 100.000 per sezione.

Dopo il campionamento, le righe di esempio vengono scartate e viene caricata l'intera tabella. Di conseguenza, molte righe vengono lette due volte. Per ulteriori informazioni sul funzionamento della compressione automatica, consultare Caricamento di tabelle con compressione automatica.

Importante

Quando il comando COPY legge i dati dalla tabella Amazon DynamoDB, incluse le righe utilizzate per il campionamento, il trasferimento dei dati risultante fa parte del throughput assegnato di quella tabella.

Caricamento di dati multibyte da Amazon DynamoDB

Se i dati includono caratteri multibyte non ASCII (ad esempio caratteri cinesi o cirillici), è necessario caricare i dati nelle colonne VARCHAR. Il tipo di dati VARCHAR supporta caratteri a quattro byte, ma il tipo di dati CHAR accetta solo UTF-8 caratteri ASCII a byte singolo. Non è possibile caricare caratteri a cinque byte o più lunghi nelle tabelle Amazon Redshift. Per ulteriori informazioni su CHAR e VARCHAR, consulta Tipi di dati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Caricamento di dati da host remoti

Verifica del caricamento corretto dei dati