Uso de COPY con formatos de datos de columnas - Amazon Redshift

Uso de COPY con formatos de datos de columnas

El comando COPY puede cargar datos de Amazon S3 en los siguientes formatos en columnas:

  • ORC

  • Parquet

Para ver ejemplos del uso de COPY a partir de formatos de datos en columnas, consulteEjemplos de COPY.

COPY admite los datos que tienen formato de columna con las siguientes consideraciones:

  • El bucket de Amazon S3 debe estar en la misma región de AWS que la base de datos de Amazon Redshift.

  • Para acceder a los datos de Amazon S3 a través de un punto de conexión de VPC, configure el acceso mediante políticas de IAM y roles de IAM como se describe en Uso de Amazon Redshift Spectrum con el enrutamiento de VPC mejorado en la Guía de administración de Amazon Redshift.

  • El comando COPY no aplica automáticamente codificaciones de compresión.

  • Solo se admiten los siguientes parámetros de COPY:

  • Si COPY encuentra un error al cargar, el comando no se ejecuta correctamente. Los tipos de datos en columnas no aceptan ACCEPTANYDATE y MAXERROR.

  • Los mensajes de error se envían al cliente de SQL. Algunos errores se registran en STL_LOAD_ERRORS y STL_ERROR.

  • De manera predeterminada, COPY inserta los valores en las columnas de la tabla de destino en el mismo orden en que las columnas aparecen en los archivos de datos con formato de columna. La tabla de destino y el archivo de datos deben tener el mismo número de columnas.

  • Si el archivo que especifica para la operación COPY incluye una de las siguientes extensiones, descomprimimos los datos sin necesidad de agregar ningún parámetro:

    • .gz

    • .snappy

    • .bz2

  • COPY con los formatos de archivos Parquet y ORC utiliza Redshift Spectrum y el acceso al bucket. Para utilizar COPY para estos formatos, asegúrese de que no haya ninguna política de IAM que bloquee el uso de direcciones URL prefirmadas de Amazon S3. Las URL prefirmadas generadas por Amazon Redshift son válidas durante 1 hora para que Amazon Redshift tenga tiempo suficiente para cargar todos los archivos del bucket de Amazon S3. Se genera una URL prefirmada única para cada archivo escaneado mediante COPY a partir de formatos de datos en columnas. Para las políticas de bucket que incluyen una acción s3:signatureAge, asegúrese de establecer el valor en al menos 3 600 000 milisegundos. Para obtener más información, consulte Uso de Amazon Redshift Spectrum con el enrutamiento de VPC mejorado.