Noções básicas sobre entrega de exportação

Modo de foco

Noções básicas sobre entrega de exportação - Exportações de dados da AWS

Estrutura do diretório principal do S3 de exportação Atualização da exportação Substituição da exportação e criação de outra exportação Nomes e fragmentos de arquivos de dados de exportação Resumo

Nas seções a seguir, você encontrará informações sobre a entrega da exportação.

Estrutura do diretório principal do S3 da exportação: como os dados de exportação são estruturados no diretório do S3 para o qual sua exportação é entregue.
Atualização da exportação: com que frequência a exportação é atualizada no diretório do S3.
Substituição da exportação e criação de outra exportação: como a entrega da exportação muda com a substituição e cria preferências de entrega.
Nomes e fragmentos de arquivos de dados de exportação: como os arquivos de exportação (gzip/csv ou Parquet) são nomeados.

Estrutura do diretório principal do S3 de exportação

Cada exportação entrega os dados da consulta ao S3 (como um ou mais arquivos gzip/csv ou Parquet) e um arquivo de metadados Manifest.json que contém informações sobre a definição da exportação no momento em que ela foi realizada.

Dados

Os dados resultantes da consulta de exportação são armazenados no seguinte caminho de arquivo do S3:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/

A partição corresponde à tabela que está sendo consultada. Para o CUR 2.0, a partição corresponde ao “período de cobrança” de uma exportação específica do CUR 2.0.

prefix: o prefixo do arquivo do S3 atribuído à exportação.

export-name: o nome atribuído à exportação.

partition: a partição descreve como uma única tabela é particionada em tabelas separadas para entrega. Para o CUR 2.0, a partição corresponde ao “período de cobrança” no formato BILLING_PERIOD=YYYY-MM. Por exemplo, a partição para novembro de 2023 é 2023-11.

Veja a seguir um exemplo de caminho de arquivo do S3:

s3://my-data-export-s3-bucket/my-cur-files/business_group_a_cur/data/BILLING_PERIOD=2023-11

Metadados

O arquivo de metadados Manifest.json da consulta é armazenado no seguinte caminho de arquivo do S3:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<export-name>-Manifest.json

O arquivo Manifest.json é atualizado sempre que a exportação é atualizada. Um novo arquivo Manifest.json é criado para cada partição criada pela exportação. Para o CUR 2.0, isso significa que um novo arquivo Manifest.json é gerado quando um novo período de cobrança é iniciado.

Arquivos de manifesto contêm as seguintes informações:

Todas as colunas incluídas na exportação.
Uma lista dos arquivos de exportação e o caminho do arquivos. Recomendamos identificar quais arquivos ingerir lendo programaticamente essa lista.
O período coberto pela exportação.

O Manifest.json é entregue somente quando todos os arquivos de dados de exportação são entregues ao S3.

Atualização da exportação

As exportações de dados atualizam as exportações sempre que os dados de origem são atualizados. Para o CUR 2.0, isso ocorre pelo menos uma vez por dia. O período de cobrança atual (partição) é atualizado até o término do período de cobrança, momento em que as entregas do próximo período de cobrança começam. As entregas do próximo período de cobrança contêm apenas os encargos e os dados de cobrança do período em questão. Após o término do período de cobrança, AWS pode atualizar a entrega de exportação do período de cobrança anterior nas primeiras duas semanas após o término.

Substituição da exportação e criação de outra exportação

Ao criar uma exportação, é possível optar por criar arquivos de exportação ou substituir os arquivos existentes a cada atualização.

Criar outra exportação

A criação de arquivos de exportação usa mais armazenamento do S3 porque todas as atualizações de exportação são mantidas. A substituição dos arquivos de exportação anteriores usa menos armazenamento do S3 porque somente a versão mais recente de cada atualização do período de cobrança é mantida.

Quando no modo “criar outra exportação”, os arquivos de exportação são entregues ao seguinte caminho do S3:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>

O timestamp é a data e a hora em que a exportação foi executada. O execution-id é o ID exclusivo atribuído à execução.

Para “criar outra exportação”, dois arquivos Manifest.json são entregues com cada execução de exportação. Um é armazenado no diretório metadata/<partition>/<timestamp>-<execution-id> e o outro é substituído no diretório metadata/<partition>. O manifesto no diretório metadata/<partition> sempre representa a atualização mais recente e os dados são usados para identificar a localização dos arquivos de exportação atualizados mais recentemente.

Substituir.

A substituição só se aplica às atualizações da mesma partição (ou seja, período de cobrança). Quando um novo período de cobrança começa, a exportação cria um diretório do S3 com um nome baseado na partição ou no período de cobrança mais recente e começa a entregar a nova partição de exportação. A exportação da partição anterior não é substituída, a menos que os dados dessa partição específica sejam atualizados.

Quando no modo “substituir”, os arquivos de exportação são entregues ao seguinte caminho do S3:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/

Os arquivos de exportação nesse diretório de arquivos são substituídos a cada entrega da mesma partição (ou seja, período de cobrança).

Os arquivos de exportação são entregues em vários “fragmentos” (arquivos gzip/csv ou Parquet separados) quando a exportação se torna suficientemente grande. Se o tamanho da exportação diminuir durante o mês (devido a uma alteração na consulta ou uma correção nos dados), talvez sejam necessários menos fragmentos para entregar a atualização da exportação. Nesse caso, o Data Exports substitui todos os fragmentos extras da última atualização por dados vazios.

Para substituir, um arquivo Manifest.json é entregue com cada execução de exportação. Ele é armazenado no diretório metadata/<partition> e é substituído a cada atualização.

Nomes e fragmentos de arquivos de dados de exportação

As exportações fornecem os resultados de uma execução como um arquivo (gzip/csv or Parquet) or in multiple “chunks” (separate gzip/csvou arquivos Parquet) quando a exportação se torna suficientemente grande.

As exportações são nomeadas da seguinte forma para o formato de arquivo gzip/csv:

<export-name>-<chunk-number>.csv.gz

As exportações são nomeadas da seguinte forma para o formato Parquet:

<export-name>-<chunk-number>.snappy.parquet

Os números de fragmentos sempre têm cinco dígitos. Os números dos fragmentos são enumerados começando com 00001.

Resumo

Nomes de arquivos de dados de exportação com diretório para criar outra exportação

Parquet:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.snappy.parquet

gzip/csv:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.csv.gz

Nomes de arquivos de dados de exportação com diretório para substituir

Parquet:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.snappy.parquet

gzip/csv:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.csv.gz

Nomes de arquivos de manifesto com diretório para criar outra exportação

O modo “criar outra exportação” entrega o Manifest.json a dois locais.

O primeiro local está em uma pasta que representa uma execução específica de uma exportação (denominada timestamp e execution-id). Esse Manifesto corresponde a essa execução específica. O caminho de arquivo é o seguinte:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<timestamp>-<execution-id>

O segundo local está em uma pasta de partições que contém todas as execuções. Esse manifesto é o mesmo arquivo da execução mais recente da exportação. É possível ler esse Manifesto para identificar os caminhos exatos de todos os arquivos de exportação recentes. O caminho de arquivo é o seguinte:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/Manifest.json

Nomes de arquivos de manifesto com diretório para substituir

O modo “substituir” entrega Manifest.json a um local.

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>

O manifesto nesse diretório é substituído com cada atualização de uma partição específica (ou seja, período de cobrança).

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Visualizar e gerenciar exportações de dados

Editar detalhes de exportação

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Noções básicas sobre entrega de exportação

Estrutura do diretório principal do S3 de exportação

Atualização da exportação

Substituição da exportação e criação de outra exportação

Nomes e fragmentos de arquivos de dados de exportação

Resumo

Nesta página

Esta página foi útil?

Próximo tópico:

Tópico anterior:

Precisa de ajuda?