As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Nas seções a seguir, você encontrará informações sobre a entrega da exportação.
-
Estrutura do diretório principal do S3 da exportação: como os dados de exportação são estruturados no diretório do S3 para o qual sua exportação é entregue.
-
Atualização da exportação: com que frequência a exportação é atualizada no diretório do S3.
-
Substituição da exportação e criação de outra exportação: como a entrega da exportação muda com a substituição e cria preferências de entrega.
-
Nomes e fragmentos de arquivos de dados de exportação: como os arquivos de exportação (gzip/csv ou Parquet) são nomeados.
Estrutura do diretório principal do S3 de exportação
Cada exportação entrega os dados da consulta ao S3 (como um ou mais arquivos gzip/csv ou Parquet) e um arquivo de metadados Manifest.json
que contém informações sobre a definição da exportação no momento em que ela foi realizada.
- Dados
-
Os dados resultantes da consulta de exportação são armazenados no seguinte caminho de arquivo do S3:
s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/
A partição corresponde à tabela que está sendo consultada. Para o CUR 2.0, a partição corresponde ao “período de cobrança” de uma exportação específica do CUR 2.0.
prefix
: o prefixo do arquivo do S3 atribuído à exportação.export-name
: o nome atribuído à exportação.partition
: a partição descreve como uma única tabela é particionada em tabelas separadas para entrega. Para o CUR 2.0, a partição corresponde ao “período de cobrança” no formatoBILLING_PERIOD=YYYY-MM
. Por exemplo, a partição para novembro de 2023 é 2023-11.Veja a seguir um exemplo de caminho de arquivo do S3:
s3://my-data-export-s3-bucket/my-cur-files/business_group_a_cur/data/BILLING_PERIOD=2023-11
- Metadados
-
O arquivo de metadados
Manifest.json
da consulta é armazenado no seguinte caminho de arquivo do S3:s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<export-name>-Manifest.json
O arquivo
Manifest.json
é atualizado sempre que a exportação é atualizada. Um novo arquivoManifest.json
é criado para cada partição criada pela exportação. Para o CUR 2.0, isso significa que um novo arquivoManifest.json
é gerado quando um novo período de cobrança é iniciado.Arquivos de manifesto contêm as seguintes informações:
-
Todas as colunas incluídas na exportação.
-
Uma lista dos arquivos de exportação e o caminho do arquivos. Recomendamos identificar quais arquivos ingerir lendo programaticamente essa lista.
-
O período coberto pela exportação.
O
Manifest.json
é entregue somente quando todos os arquivos de dados de exportação são entregues ao S3. -
Atualização da exportação
As exportações de dados atualizam as exportações sempre que os dados de origem são atualizados. Para o CUR 2.0, isso ocorre pelo menos uma vez por dia. O período de cobrança atual (partição) é atualizado até o término do período de cobrança, momento em que as entregas do próximo período de cobrança começam. As entregas do próximo período de cobrança contêm apenas os encargos e os dados de cobrança do período em questão. Após o término do período de cobrança, AWS pode atualizar a entrega de exportação do período de cobrança anterior nas primeiras duas semanas após o término.
Substituição da exportação e criação de outra exportação
Ao criar uma exportação, é possível optar por criar arquivos de exportação ou substituir os arquivos existentes a cada atualização.
- Criar outra exportação
-
A criação de arquivos de exportação usa mais armazenamento do S3 porque todas as atualizações de exportação são mantidas. A substituição dos arquivos de exportação anteriores usa menos armazenamento do S3 porque somente a versão mais recente de cada atualização do período de cobrança é mantida.
Quando no modo “criar outra exportação”, os arquivos de exportação são entregues ao seguinte caminho do S3:
s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>
O
timestamp
é a data e a hora em que a exportação foi executada. Oexecution-id
é o ID exclusivo atribuído à execução.Para “criar outra exportação”, dois arquivos
Manifest.json
são entregues com cada execução de exportação. Um é armazenado no diretóriometadata/<partition>/<timestamp>-<execution-id>
e o outro é substituído no diretóriometadata/<partition>
. O manifesto no diretóriometadata/<partition>
sempre representa a atualização mais recente e os dados são usados para identificar a localização dos arquivos de exportação atualizados mais recentemente. - Substituir.
-
A substituição só se aplica às atualizações da mesma partição (ou seja, período de cobrança). Quando um novo período de cobrança começa, a exportação cria um diretório do S3 com um nome baseado na partição ou no período de cobrança mais recente e começa a entregar a nova partição de exportação. A exportação da partição anterior não é substituída, a menos que os dados dessa partição específica sejam atualizados.
Quando no modo “substituir”, os arquivos de exportação são entregues ao seguinte caminho do S3:
s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/
Os arquivos de exportação nesse diretório de arquivos são substituídos a cada entrega da mesma partição (ou seja, período de cobrança).
Os arquivos de exportação são entregues em vários “fragmentos” (arquivos gzip/csv ou Parquet separados) quando a exportação se torna suficientemente grande. Se o tamanho da exportação diminuir durante o mês (devido a uma alteração na consulta ou uma correção nos dados), talvez sejam necessários menos fragmentos para entregar a atualização da exportação. Nesse caso, o Data Exports substitui todos os fragmentos extras da última atualização por dados vazios.
Para substituir, um arquivo
Manifest.json
é entregue com cada execução de exportação. Ele é armazenado no diretóriometadata/<partition>
e é substituído a cada atualização.
Nomes e fragmentos de arquivos de dados de exportação
As exportações fornecem os resultados de uma execução como um arquivo (gzip/csv or Parquet) or in multiple “chunks” (separate gzip/csvou arquivos Parquet) quando a exportação se torna suficientemente grande.
As exportações são nomeadas da seguinte forma para o formato de arquivo gzip/csv:
<export-name>-<chunk-number>.csv.gz
As exportações são nomeadas da seguinte forma para o formato Parquet:
<export-name>-<chunk-number>.snappy.parquet
Os números de fragmentos sempre têm cinco dígitos. Os números dos fragmentos são enumerados começando com 00001
.
Resumo
- Nomes de arquivos de dados de exportação com diretório para criar outra exportação
-
Parquet:
s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.snappy.parquet
gzip/csv:
s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.csv.gz
- Nomes de arquivos de dados de exportação com diretório para substituir
-
Parquet:
s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.snappy.parquet
gzip/csv:
s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.csv.gz
- Nomes de arquivos de manifesto com diretório para criar outra exportação
-
O modo “criar outra exportação” entrega o
Manifest.json
a dois locais.O primeiro local está em uma pasta que representa uma execução específica de uma exportação (denominada
timestamp
eexecution-id
). Esse Manifesto corresponde a essa execução específica. O caminho de arquivo é o seguinte:s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<timestamp>-<execution-id>
O segundo local está em uma pasta de partições que contém todas as execuções. Esse manifesto é o mesmo arquivo da execução mais recente da exportação. É possível ler esse Manifesto para identificar os caminhos exatos de todos os arquivos de exportação recentes. O caminho de arquivo é o seguinte:
s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/Manifest.json
- Nomes de arquivos de manifesto com diretório para substituir
-
O modo “substituir” entrega
Manifest.json
a um local.s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>
O manifesto nesse diretório é substituído com cada atualização de uma partição específica (ou seja, período de cobrança).