Convenzioni di denominazione dei file per le esportazioni verso Amazon S3 per Amazon RDS - Amazon Relational Database Service

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Convenzioni di denominazione dei file per le esportazioni verso Amazon S3 per Amazon RDS

I dati esportati per tabelle specifiche vengono memorizzati nel formato base_prefix/files, dove il prefisso di base è il seguente:

export_identifier/database_name/schema_name.table_name/

Ad esempio:

export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Esistono due convenzioni di denominazione per i file.

  • Convenzione attuale:

    batch_index/part-partition_index-random_uuid.format-based_extension

    L'indice batch è un numero di sequenza che rappresenta un batch di dati letti dalla tabella. Se non riusciamo a partizionare la tabella in piccoli blocchi da esportare in parallelo, ci saranno più indici batch. La stessa cosa accade se la tabella è partizionata in più tabelle. Ci saranno più indici batch, uno per ciascuna delle partizioni di tabella della tabella principale.

    Se riusciamo a partizionare la tabella in piccoli blocchi da leggere in parallelo, ci sarà solo la cartella batch index. 1

    All'interno della cartella dell'indice batch, ci sono uno o più file Parquet che contengono i dati della tabella. Il prefisso del nome del file Parquet è. part-partition_index Se la tabella è partizionata, ci saranno più file che iniziano con l'indice delle partizioni. 00000

    Possono esserci delle lacune nella sequenza dell'indice delle partizioni. Ciò accade perché ogni partizione è ottenuta da una query a intervalli nella tabella. Se non ci sono dati nell'intervallo di quella partizione, quel numero di sequenza viene ignorato.

    Ad esempio, supponiamo che la id colonna sia la chiave primaria della tabella e che i suoi valori minimo e massimo siano e. 100 1000 Quando proviamo a esportare questa tabella con nove partizioni, la leggiamo con query parallele come le seguenti:

    SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300

    Questo dovrebbe generare nove file, da apart-00000-random_uuid.gz.parquet. part-00008-random_uuid.gz.parquet Tuttavia, se non ci sono righe IDs comprese tra 200 e350, una delle partizioni completate è vuota e non viene creato alcun file per essa. Nell'esempio precedente, part-00001-random_uuid.gz.parquet non viene creato.

  • Convention precedente:

    part-partition_index-random_uuid.format-based_extension

    È la stessa della convenzione attuale, ma senza il batch_index prefisso, ad esempio:

    part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

La convenzione di denominazione file è soggetta a modifiche. Pertanto, quando usi le tabelle di destinazione ti consigliamo di leggere tutto quanto riportato all'interno del prefisso di base della tabella.