Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Convenzioni di denominazione dei file per le esportazioni verso Amazon S3 per Amazon RDS
I dati esportati per tabelle specifiche vengono memorizzati nel formato
, dove il prefisso di base è il seguente:base_prefix
/files
export_identifier
/database_name
/schema_name
.table_name
/
Ad esempio:
export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/
Esistono due convenzioni di denominazione per i file.
-
Convenzione attuale:
batch_index
/part-partition_index
-random_uuid
.format-based_extension
L'indice batch è un numero di sequenza che rappresenta un batch di dati letti dalla tabella. Se non riusciamo a partizionare la tabella in piccoli blocchi da esportare in parallelo, ci saranno più indici batch. La stessa cosa accade se la tabella è partizionata in più tabelle. Ci saranno più indici batch, uno per ciascuna delle partizioni di tabella della tabella principale.
Se riusciamo a partizionare la tabella in piccoli blocchi da leggere in parallelo, ci sarà solo la cartella batch index.
1
All'interno della cartella dell'indice batch, ci sono uno o più file Parquet che contengono i dati della tabella. Il prefisso del nome del file Parquet è.
part-
Se la tabella è partizionata, ci saranno più file che iniziano con l'indice delle partizioni.partition_index
00000
Possono esserci delle lacune nella sequenza dell'indice delle partizioni. Ciò accade perché ogni partizione è ottenuta da una query a intervalli nella tabella. Se non ci sono dati nell'intervallo di quella partizione, quel numero di sequenza viene ignorato.
Ad esempio, supponiamo che la
id
colonna sia la chiave primaria della tabella e che i suoi valori minimo e massimo siano e.100
1000
Quando proviamo a esportare questa tabella con nove partizioni, la leggiamo con query parallele come le seguenti:SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300
Questo dovrebbe generare nove file, da a
part-00000-
.random_uuid
.gz.parquetpart-00008-
Tuttavia, se non ci sono righe IDs comprese trarandom_uuid
.gz.parquet200
e350
, una delle partizioni completate è vuota e non viene creato alcun file per essa. Nell'esempio precedente,part-00001-
non viene creato.random_uuid
.gz.parquet -
Convention precedente:
part-
partition_index
-random_uuid
.format-based_extension
È la stessa della convenzione attuale, ma senza il
prefisso, ad esempio:batch_index
part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet
La convenzione di denominazione file è soggetta a modifiche. Pertanto, quando usi le tabelle di destinazione ti consigliamo di leggere tutto quanto riportato all'interno del prefisso di base della tabella.