Chargement de fichiers de données - Amazon Redshift

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Chargement de fichiers de données

Les fichiers de données sources se présentent sous différents formats et utilisent divers algorithmes de compression. Lorsque vous chargez des données à l'aide de la COPY commande, Amazon Redshift charge tous les fichiers référencés par le préfixe du compartiment Amazon S3. (Le préfixe est une chaîne de caractères située au début du nom de clé d'objet.) Si le préfixe fait référence à plusieurs fichiers ou à des fichiers pouvant être divisés, Amazon Redshift charge les données en parallèle, en tirant parti de l'architecture d'Amazon Redshift. MPP La charge de travail est alors répartie entre les nœuds du cluster. En revanche, lorsque vous chargez des données à partir d'un fichier non fractionnable, Amazon Redshift est forcé d'effectuer un chargement sérialisé, ce qui est beaucoup plus long. Les sections suivantes décrivent la méthode recommandée pour charger différents types de fichiers dans Amazon Redshift, en fonction de leur format et de leur compression.

Chargement de données à partir de fichiers fractionnables

Les fichiers suivants peuvent être automatiquement fractionnés pendant le chargement de leurs données :

  • un fichier non compressé CSV

  • un CSV fichier compressé avec BZIP

  • un fichier en colonnes (ORCParquet/)

Amazon Redshift fractionne automatiquement les fichiers de 128 Mo ou plus en fragments. Les fichiers en colonnes, en particulier Parquet et BORC, ne sont pas divisés s'ils mesurent moins de 128 Mo. Pour charger les données, Redshift utilise des tranches fonctionnant en parallele. Cela autorise des chargements rapides.

Chargement de données à partir de fichiers non fractionnables

Les types de fichiers tels queJSON, ouCSV, lorsqu'ils sont compressés avec d'autres algorithmes de compression, tels queGZIP, ne sont pas automatiquement divisés. Dans ce cas, nous vous recommandons de fractionner manuellement les données en plusieurs petits fichiers dont les tailles sont aussi proches que possible les unes des autres, de 1 Mo à 1 Go après compression. De plus, faites en sorte que le nombre de fichiers soit un multiple du nombre de tranches présentes dans votre cluster. Pour plus d'informations sur la façon de diviser vos données en plusieurs fichiers et pour des exemples de chargement de données à l'aide de cette COPY méthode, consultez Charger des données depuis Amazon S3.