選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

將資料湖架構與 AWS Glue Studio 搭配使用

焦點模式
將資料湖架構與 AWS Glue Studio 搭配使用 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

概要

若檔案存放於在 Amazon S3 上建置的資料湖中,開放原始碼資料湖架構可以簡化這些檔案的增量資料處理。AWS Glue 3.0 及更高版本支援下列開放原始碼資料湖儲存架構:

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

從 AWS Glue 4.0 開始,AWS Glue 會為這些架構提供原生支援,讓您能夠以交易一致的方式讀取和寫入存放在 Amazon S3 中的資料。您不需要安裝個別的連接器或完成額外的設定步驟,就能在 AWS Glue 任務中使用這些架構。

透過 Spark 指令碼編輯器任務,資料湖架構可以用作 AWS Glue Studio 內的來源或目標。如需使用 Apache Hudi、Apache Iceberg 和 Delta Lake 的詳細資訊,請參閱搭配使用資料湖架構與 AWS Glue ETL 任務

從 AWS Glue 串流來源建立開放資料表格式

AWS Glue 串流 ETL 工作會持續使用串流來源的資料、清理和轉換傳輸中資料,並可在數秒內完成分析。

AWS 提供廣泛的服務選項,可滿足您的需求。資料庫複寫服務 (例如,AWS Database Migration Service) 可從來源系統將資料複寫至 Amazon S3 (通常會託管資料湖的儲存層)。雖然在支援線上來源應用程式之關聯式資料庫管理系統 (RDBMS) 上套用更新相當簡單,但在資料湖上套用此 CDC 程序卻相當困難。開放原始碼資料管理架構可簡化增量資料處理與資料管道開發,是解決此問題的絕佳選擇。

如需詳細資訊,請參閱:

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。