Caricamento di file di dati - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caricamento di file di dati

I file di dati di origine sono disponibili in diversi formati e utilizzano diversi algoritmi di compressione. Durante il caricamento dei dati con il COPY comando, Amazon Redshift carica tutti i file a cui fa riferimento il prefisso del bucket Amazon S3. Un prefisso è una stringa di caratteri all'inizio del nome della chiave dell'oggetto. Se il prefisso si riferisce a più file o file che possono essere suddivisi, Amazon Redshift carica i dati in parallelo, sfruttando l'architettura di Amazon Redshift. MPP Questo consente di suddividere il carico di lavoro tra i nodi del cluster. Quando tutti i dati vengono caricati da un singolo file che non è possibile dividere, Amazon Redshift viene forzato a eseguire un caricamento serializzato, che è molto più lento. Le sezioni seguenti descrivono il modo consigliato per caricare diversi tipi di file in Amazon Redshift, a seconda del formato e della compressione.

Caricamento di dati da file che possono essere divisi

I seguenti file possono essere divisi automaticamente quando i dati vengono caricati:

  • un file non compresso CSV

  • un CSV file compresso con BZIP

  • un file colonnare (Parquet/) ORC

Amazon Redshift divide automaticamente i file di almeno 128 MB o più grandi in blocchi. I file a colonne, in particolare Parquet eORC, non vengono suddivisi se pesano meno di 128 MB. Redshift utilizza le sezioni che lavorano in parallelo per caricare i dati. Ciò fornisce prestazioni di carico rapide.

Caricamento di dati da file che non possono essere divisi

I tipi di file comeJSON, oCSV, se compressi con altri algoritmi di compressione, comeGZIP, non vengono suddivisi automaticamente. Per questi si consiglia di dividere manualmente i dati in più file più piccoli di dimensioni simili, da 1 MB a 1 GB dopo la compressione. Fare in modo, inoltre, che il numero di file sia un multiplo del numero di sezioni nel cluster. Per ulteriori informazioni su come suddividere i dati in più file ed esempi di caricamento dei dati utilizzandoCOPY, consulta Caricamento di dati da Amazon S3.