本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在資料來源中使用 Delta Lake 架構
在 Amazon S3 資料來源中使用 Delta Lake 架構
-
從「來源」選單中,選擇 Amazon S3。
-
如果您選擇 Data Catalog 資料表做為 Amazon S3 來源類型,請選擇資料庫和資料表。
-
AWS Glue Studio 顯示格式為 Delta Lake 和 Amazon S3 URL。
-
選擇其他選項,以輸入鍵值對。例如,鍵值對可能是:索引鍵:timestampAsOf 和值:2023-02-24 14:16:18。
-
如果您選擇 Amazon S3 位置做為 Amazon S3 來源類型,請按一下瀏覽 Amazon S3 來選擇 Amazon S3 URL。
-
在資料格式中,選擇 Delta Lake。
注意
如果 AWS Glue Studio 無法從您選取的 Amazon S3 資料夾或檔案推斷結構描述,請選擇其他選項,以選取新的資料夾或檔案。
在其他選項中,選擇結構描述推論下的下列選項:
-
讓 AWS Glue Studio 自動選擇一個範例檔案 – AWS Glue Studio 會在 Amazon S3 位置選擇一個範例檔案,以便推斷結構描述。在自動取樣檔案欄位中,您可以檢視自動選取的檔案。
-
從 Amazon S3 中選擇一個範例檔案 – 按一下瀏覽 Amazon S3,選擇要使用的 Amazon S3 檔案。
-
-
按一下推斷結構描述。然後,您可以按一下輸出結構描述索引標籤,來檢視輸出結構描述。
在 Data Catalog 資料來源中使用 Delta Lake 架構
-
從來源選單中,選擇 AWS Glue Studio Data Catalog。
-
在資料來源屬性索引標籤中,選擇資料庫和資料表。
-
AWS Glue Studio 顯示格式類型為 Delta Lake 和 Amazon S3 URL。
注意
如果您的 Delta Lake 來源尚未註冊為 AWS Glue Data Catalog 資料表,則會有兩個選項:
-
針對 Delta Lake 資料存放區建立 AWS Glue 爬蟲程式。如需詳細資訊,請參閱如何為 Delta Lake 的資料儲存指定配置選項。
-
使用 Amazon S3 資料來源,以選取您的 Delta Lake 資料來源。請參閱 在 Amazon S3 資料來源中使用 Delta Lake 架構 。
-
在資料目標中使用 Delta Lake 格式
在 Data Catalog 資料目標中使用 Delta Lake 格式
-
從目標選單中,選擇 AWS Glue Studio Data Catalog。
-
在資料來源屬性索引標籤中,選擇資料庫和資料表。
-
AWS Glue Studio 顯示格式類型為 Delta Lake 和 Amazon S3 URL。
在 Amazon S3 資料來源中使用 Delta Lake 格式
輸入值,或者從可用選項中選取,以設定 Delta Lake 格式。
-
壓縮類型 – 從壓縮類型選項中選擇:未壓縮或 Snappy。
-
Amazon S3 目標位置 – 按一下瀏覽 S3 來選擇 Amazon S3 目標位置。
-
Data Catalog 更新選項 – Glue Studio 視覺化編輯器中不支援更新此格式的 Data Catalog。
-
不更新資料目錄:(預設值) 如果您不希望任務更新資料目錄 (即使結構描述變更或新增分割區),請選擇此選項。
-
若要在 AWS Glue 任務執行後更新 Data Catalog,請執行或排程 AWS Glue 爬蟲程式。如需詳細資訊,請參閱如何為 Delta Lake 的資料儲存指定配置選項。
-
-
分割區索引鍵 – 選擇要在輸出中用作分割索引鍵的欄。若要新增更多分割區索引鍵,請選擇 Add a partition key (新增分割區索引鍵)。
-
或者,選擇其他選項,以輸入鍵值對。例如,鍵值對可能是:索引鍵:timestampAsOf 和值:2023-02-24 14:16:18。