Dividir los datos de carga
Los archivos de origen de datos vienen en diferentes formatos y utilizan distintos algoritmos de compresión. Al cargar datos con el comando COPY, Amazon Redshift carga todos los archivos a los que hace referencia el prefijo del bucket de Amazon S3. (El prefijo es una cadena de caracteres al principio del nombre de la clave de objeto). Si el prefijo hace referencia a varios archivos o archivos que se pueden dividir, Amazon Redshift carga los datos en paralelo, aprovechando la arquitectura MPP de Amazon Redshift. Esto divide la carga de trabajo entre los nodos del clúster. En contraste, cuando carga los datos desde un archivo que no se puede dividir, Amazon Redshift se ve obligado a realizar una carga serializada, que es mucho más lenta. En las siguientes secciones se describe la forma recomendada de cargar diferentes tipos de archivos en Amazon Redshift, en función del formato y la compresión.
Carga de datos de archivos que se pueden dividir
Los siguientes archivos se pueden dividir automáticamente cuando se cargan los datos:
un archivo CSV sin comprimir
un archivo en columnas (Parquet/ORC)
Amazon Redshift divide automáticamente los archivos de 128 MB o más en fragmentos. Los archivos en columnas, específicamente Parquet y ORC, no se dividen si tienen menos de 128 MB. Redshift utiliza segmentos que funcionan en paralelo para cargar los datos. Esto proporciona un rendimiento de carga rápido.
Carga de datos de archivos que no se pueden dividir
Los tipos de archivos como JSON o CSV, cuando se comprimen con otros algoritmos de compresión, como GZIP, no se dividen automáticamente. Para estos, le recomendamos que los divida manualmente en varios archivos más pequeños que tengan aproximadamente el mismo tamaño, de 1 MB a 1 GB después de la compresión. Además, la cantidad de archivos debe ser múltiplo de la cantidad de secciones en el clúster. Para obtener más información acerca de cómo dividir los datos en archivos múltiples y ejemplos de carga de datos con COPY, consulte Carga de datos desde Amazon S3.