COPY de formatos de dados colunar - Amazon Redshift

COPY de formatos de dados colunar

COPY pode carregar dados do Amazon S3 nos seguintes formatos colunares:

  • ORC

  • Parquet

Para obter exemplos do uso de COPY a partir de formatos de dados colunares, consulte Exemplos de COPY.

O comando COPY aceita dados formatados colunares com as seguintes considerações:

  • O bucket da Amazon S3 deve estar na mesma região da AWS que o banco de dados do Amazon Redshift.

  • Para acessar seus dados do Amazon S3 por meio de um endpoint da VPC, configure o acesso usando políticas e perfis do IAM conforme descrito em “Usar o Amazon Redshift Spectrum com roteamento aprimorado da VPC” no Guia de gerenciamento de clusters do Amazon Redshift.

  • COPY não aplicará automaticamente as codificações de compactação.

  • Apenas os parâmetros COPY a seguir são aceitos:

  • Se COPY encontrar um erro ao carregar, o comando falhará. ACCEPTANYDATE e MAXERROR não são compatíveis com tipos de dados colunares.

  • Mensagens de erro são enviadas para o cliente SQL. Alguns erros são registrados em log em STL_LOAD_ERRORS e STL_ERROR.

  • COPY insere valores nas colunas da tabela de destino na mesma ordem das colunas ocorridas nos arquivos de dados colunares. O número de colunas na tabela de destino e o número de colunas no arquivo de dados devem combinar.

  • Se o arquivo especificado para a operação COPY incluir uma das seguintes extensões, os dados serão descompactados sem a necessidade de adicionar nenhum parâmetro:

    • .gz

    • .snappy

    • .bz2

  • COPY dos formatos de arquivo Parquet e ORC usa o Redshift Spectrum e o acesso de bucket. Para usar COPY para esses formatos, verifique se não há políticas do IAM bloqueando o uso de URLs pré-assinados do Amazon S3. Os URLs pré-assinados gerados pelo Amazon Redshift são válidos por uma hora para que o Amazon Redshift tenha tempo suficiente para carregar todos os arquivos do bucket do Amazon S3. Um URL pré-assinado exclusivo é gerado para cada arquivo verificado pelo comando COPY com base em formatos de dados colunares. Para políticas de bucket que incluem uma ação s3:signatureAge, o valor deve ser definido como pelo menos 3.600.000 milissegundos. Para obter mais informações, consulte Usar o Amazon Redshift Spectrum com o roteamento de VPC aprimorado.