Considerações e limitações
Esta seção inclui itens a serem considerados ao usar otimizadores de tabela no AWS Glue Data Catalog.
Formatos e limitações compatíveis para compactação gerenciada de dados
A compactação de dados aceita uma variedade de tipos de dados e formatos de compactação para leitura e gravação de dados, incluindo a leitura de dados de tabelas criptografadas.
A compactação de dados suporta:
Tipos de arquivo: Parquet
Tipos de dados: Booleano, Inteiro, Longo, Flutuante, Duplo, String, Decimal, Data, Hora, Timestamp, String, UUID, Binário
Compactação: zstd, gzip, snappy, não compactado
Criptografia: a compactação de dados oferece suporte somente à criptografia padrão do Amazon S3 (SSE-S3) e a criptografia do KMS no lado do servidor (SSE-KMS).
Compactação do compartimento
Evolução do esquema
Tabelas com tamanho de arquivo de destino (propriedade write.target-file-size-bytes na configuração iceberg) de até 64 MB
-
Você pode executar a compactação a partir da conta em que o catálogo de dados reside quando o bucket do Amazon S3 que armazena os dados subjacentes estiver em outra conta. Para fazer isso, a função de compactação exige acesso ao bucket do Amazon S3.
Atualmente, a compactação de dados não oferece suporte a:
Tipos de arquivo: Avro, ORC
Tipos de dados: Fixo
Compactação: brotli, lz4
Compactação de arquivos enquanto a especificação da partição evolui.
Classificação regular ou classificação por ordem z
Mesclar ou excluir arquivos: o processo de compactação ignora os arquivos de dados que têm arquivos excluídos associados a eles.
-
Compactação em tabelas de contas cruzadas: não é possível executar a compactação em tabelas de contas cruzadas.
-
Compactação de tabelas entre regiões: não é possível executar a compactação de tabelas entre regiões.
Habilitando a compactação em links de recursos
Endpoints da VPC para buckets do Amazon S3
-
Gerenciador de bloqueio do DynamoDB
: quando a compactação de dados é usada, nenhum outro trabalho de carregamento de dados deve usar lock-impl
, como org.apache.iceberg.aws.dynamodb.DynamodBlockManager.
Considerações sobre otimizadores de retenção de snapshots e exclusão de arquivos órfãos
A consideração a seguir se aplica ao otimizador de retenção de snapshots e exclusão de arquivos órfãos.
Os processos de retenção de snapshots e exclusão de arquivos órfãos têm um limite máximo de exclusão de 1 milhão de arquivos por execução. Ao excluir snapshots expirados, se o número de arquivos elegíveis para exclusão ultrapassar 1 milhão, todos os arquivos restantes além desse limite continuarão existindo no armazenamento da tabela como arquivos órfãos.
-
Os snapshots serão preservados pelo otimizador de retenção de snapshots somente quando ambos os critérios forem satisfeitos: o número mínimo de snapshots a serem mantidos e o período de retenção especificado.
-
O otimizador de retenção de snapshots exclui metadados de snapshots expirados do Apache Iceberg, evitando consultas de viagem no tempo para snapshots expirados e, opcionalmente, excluindo arquivos de dados associados.
-
O otimizador de exclusão de arquivos órfãos exclui dados órfãos e arquivos de metadados que não são mais referenciados pelos metadados do Iceberg se a hora de criação for anterior ao período de retenção da exclusão de arquivos órfãos a partir do momento da execução do otimizador.
-
O Apache Iceberg facilita o controle de versão por meio de ramificações e tags, que são denominadas ponteiros para estados específicos de snapshots. Cada ramificação e tag segue seu próprio ciclo de vida independente, regido por políticas de retenção definidas em seus respectivos níveis. Os otimizadores do AWS Glue Data Catalog levam em consideração essas políticas de ciclo de vida, garantindo a adesão às regras de retenção especificadas. As políticas de retenção em nível de ramificação e tag têm precedência sobre as configurações do otimizador.
Para obter mais informações, consulte a seção Ramificações e marcações
na documentação do Iceberg. -
Os otimizadores de retenção de snapshots e exclusão de arquivos órfãos excluirão os arquivos elegíveis para limpeza de acordo com os parâmetros configurados. Melhore seu controle sobre a exclusão de arquivos implementando políticas de controle de versão e ciclo de vida do S3 nos buckets apropriados.
Para obter instruções detalhadas sobre como configurar o controle de versão e criar regras de ciclo de vida, consulte https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.