AWS Glue for Spark 中的輸入與輸出的資料格式選項

焦點模式

AWS Glue for Spark 中的輸入與輸出的資料格式選項 - AWS Glue

這些頁面提供有關 AWS Glue for Spark 支援的資料格式之功能支援和組態參數的資訊。有關此信息的用法和適用性的說明，請參閱以下內容。

Glue AWS 中跨資料格式的功能支援

每個資料格式都可能支援不同的 AWS Glue 功能。根據您的格式類型，可能會或可能不支持以下常見功能。請參閱資料格式的文件，瞭解如何運用我們的功能來滿足您的需求。

讀取	AWS Glue 無需連接器等其他資源即可識別和解譯此資料格式。
寫入	AWS Glue 可以以此格式寫入資料，無需其他資源。您可以在工作中包含協力廠商程式庫，並使用標準 Apache Spark 函數來寫入資料，就像在其他 Spark 環境中一樣。如需這些程式庫的詳細資訊，請參閱搭配 Glue 使用 Python AWS 程式庫。
串流讀取	AWS Glue 可以從 Apache Kafka、Amazon Managed Streaming for Apache Kafka 或 Amazon Kinesis 訊息串流識別和解譯此資料格式。我們希望流以一致的格式呈現數據，因此它們被讀為`DataFrames`。
對小型檔案進行分組	AWS Glue 可以將檔案分組，以在執行 Glue AWS 轉換時傳送至每個節點的批次工作。如此可大幅改善涉及大量小型檔案的工作負載的效能。如需詳細資訊，請參閱讀取在大型群組中的輸入檔案。
任務書籤	AWS Glue 可以使用任務書籤追蹤在任務執行期間對相同資料集執行相同任務的轉換進度。這可以提高工作負載的效能，涉及自上次作業執行以來只需在新資料上完成工作的資料集。如需詳細資訊，請參閱使用任務書籤追蹤處理的資料。

用來與 Glue AWS 中的資料格式互動的參數

某些 AWS Glue 連線類型支援多種format類型，要求您在使用等方法時，使用 format_options 物件指定資料格式的相關資訊GlueContext.write_dynamic_frame.from_options。

s3 – 如需詳細資訊，請參閱 Glue 中 ETL AWS 的連線類型和選項：S3 連線參數。您也可以檢視促進此連線類型之方法的文件：create_dynamic_frame_from_options和write_dynamic_frame_from_options在 Python 和相應的斯卡拉方法def getSourceWithFormat和def getSinkWithFormat。
kinesis – 如需詳細資訊，請參閱 Glue 中 ETL AWS 的連線類型和選項：Kinesis 連線參數。您也可以檢視促進此連線類型的方法文件：create_data_frame_from_options和相應的斯卡拉方法def createDataFrameFromOptions。
kafka – 如需詳細資訊，請參閱 Glue 中 ETL AWS 的連線類型和選項：Kafka 連線參數。您也可以檢視促進此連線類型的方法文件：create_data_frame_from_options和相應的斯卡拉方法def createDataFrameFromOptions。

某些連線類型不需要format_options。例如，在正常使用中，與關聯式資料庫的 JDBC 連線將以一致的表格式擷取資料。因此，從 JDBC 連接讀取不需要format_options。

在膠水中讀取和寫入數據的某些方法不需要format_options。例如，使用 AWS GlueContext.create_dynamic_frame.from_catalog搭配 Glue 爬蟲程式。爬蟲確定數據的形狀。使用爬蟲程式時，Glue AWS 分類器會檢查您的資料，以做出如何代表資料格式的明智決策。然後，它會將您的資料的表示法存放在 AWS Glue Data Catalog 中，該目錄可在 Glue ETL AWS 指令碼內使用 GlueContext.create_dynamic_frame.from_catalog方法擷取您的資料。檢索器無需手動指定有關數據格式的信息。

對於存取 AWS Lake Formation 受管資料表的任務， AWS Glue支援讀取和寫入 Lake Formation 受管資料表支援的所有格式。如需受 AWS Lake Formation 管資料表支援的最新格式清單，請參閱《 AWS Lake Formation 開發人員指南》中的受管資料表的備註和限制。

注意

對於寫入 Apache Parquet，AWS Glue ETL 只支援透過指定為動態框架優化的自訂 Parquet 寫入器類型的選項寫入受管控資料表。使用 parquet 格式寫入受管控資料表時，您應該在表參數中新增值為 true 的金鑰 useGlueParquetWriter。

主題

共用的組態參考

您可以將以下 format_options 值與任何格式類型搭配使用。

attachFilename：以適當格式作為資料欄名稱使用的字串。如果您提供此選項，記錄的來源檔案名稱會附加到記錄中。參數值將用作資料欄名稱。
attachTimestamp：以適當格式作為資料欄名稱使用的字串。如果您提供此選項，記錄的來源檔案修改時間會附加到記錄中。參數值將用作資料欄名稱。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Vertica 連線

CSV

在本頁面

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定

AWS Glue for Spark 中的輸入與輸出的資料格式選項

Glue AWS 中跨資料格式的功能支援

用來與 Glue AWS 中的資料格式互動的參數

注意

主題

共用的組態參考

在本頁面

Related resources

此頁面是否有幫助？

Related resources

下一個主題：

上一個主題：

需要協助？