Caricamento di dati da file che possono essere divisi Caricamento di dati da file che non possono essere divisi

Caricamento di file di dati

I file di dati di origine sono disponibili in diversi formati e utilizzano diversi algoritmi di compressione. Durante il caricamento dei dati con il COPY comando, Amazon Redshift carica tutti i file a cui fa riferimento il prefisso del bucket Amazon S3. Un prefisso è una stringa di caratteri all'inizio del nome della chiave dell'oggetto. Se il prefisso si riferisce a più file o file che possono essere suddivisi, Amazon Redshift carica i dati in parallelo, sfruttando l'architettura di Amazon Redshift. MPP Questo consente di suddividere il carico di lavoro tra i nodi del cluster. Quando tutti i dati vengono caricati da un singolo file che non è possibile dividere, Amazon Redshift viene forzato a eseguire un caricamento serializzato, che è molto più lento. Le sezioni seguenti descrivono il modo consigliato per caricare diversi tipi di file in Amazon Redshift, a seconda del formato e della compressione.

Caricamento di dati da file che possono essere divisi

I seguenti file possono essere divisi automaticamente quando i dati vengono caricati:

un file non compresso CSV
un CSV file compresso con BZIP
un file colonnare (Parquet/) ORC

Amazon Redshift divide automaticamente i file di almeno 128 MB o più grandi in blocchi. I file a colonne, in particolare Parquet eORC, non vengono suddivisi se pesano meno di 128 MB. Redshift utilizza le sezioni che lavorano in parallelo per caricare i dati. Ciò fornisce prestazioni di carico rapide.

Caricamento di dati da file che non possono essere divisi

I tipi di file comeJSON, oCSV, se compressi con altri algoritmi di compressione, comeGZIP, non vengono suddivisi automaticamente. Per questi si consiglia di dividere manualmente i dati in più file più piccoli di dimensioni simili, da 1 MB a 1 GB dopo la compressione. Fare in modo, inoltre, che il numero di file sia un multiplo del numero di sezioni nel cluster. Per ulteriori informazioni su come suddividere i dati in più file ed esempi di caricamento dei dati utilizzandoCOPY, consulta Caricamento di dati da Amazon S3.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Usa un solo COPY comando

Compressione dei file di dati