本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
要匯出至 Amazon S3 for Amazon 的檔案命名慣例 RDS
特定表格的匯出資料會以
的格式儲存,其中基本前綴如下:base_prefix
/files
export_identifier
/database_name
/schema_name
.table_name
/
例如:
export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/
檔案命名方式有兩種慣例:
-
目前慣例:
batch_index
/part-partition_index
-random_uuid
.format-based_extension
批次索引是序列編號,代表從資料表讀取的資料批次。如果我們無法將您的資料表分割為要平行匯出的小區塊,則會有多個批次索引。如果您的資料表分割為多個資料表,則會發生相同的情況。會有多個批次索引,其中一個是主資料表的每個資料表分割區。
如果我們可以將您的資料表分割為要平行讀取的小區塊,則只會有批次索引
1
資料夾。在批次索引資料夾中,有一或多個 Parquet 檔案包含資料表的資料。Parquet 檔案名稱的字首為
part-
。如果您的資料表已分割,則會有多個以分割區索引 開頭的檔案partition_index
00000
。分割區索引序列中可能存在間隙。這是因為每個分割區是從資料表中的範圍查詢取得。如果該分割區的範圍內沒有資料,則會略過該序號。
例如,假設資料
id
欄是資料表的主要索引鍵,且其最小值和最大值為100
和1000
。當我們嘗試匯出具有九個分割區的此表格時,我們會透過平行查詢來讀取,例如下列項目:SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300
這應該會產生從
part-00000-
到 的九個檔案random_uuid
.gz.parquetpart-00008-
。不過,如果沒有介於random_uuid
.gz.parquet200
和 IDs之間的資料列350
,則其中一個已完成的分割區為空白,而且不會為其建立檔案。在上一個範例中,part-00001-
不會建立。random_uuid
.gz.parquet -
較舊的慣例:
part-
partition_index
-random_uuid
.format-based_extension
這與目前的慣例相同,但沒有
字首,例如:batch_index
part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet
檔案命名慣例可能會有所變更。因此,在讀取目標資料表時,建議您讀取資料表基本字首內的所有內容。