View a markdown version of this page

Aurora PostgreSQL 相容與 的整合 AWS Glue - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Aurora PostgreSQL 相容與 的整合 AWS Glue

AWS Glue 是一種全受管的擷取、轉換和載入 (ETL) 服務,用於準備和載入資料以進行分析。您可以 AWS Glue 整合任何資料處理和分析工作流程的 Amazon Aurora PostgreSQL 相容版本。

AWS Glue 使用案例和高階步驟

與 整合 Aurora PostgreSQL 相容, AWS Glue 支援下列使用案例:

  • 資料倉儲和分析 ‒ 使用 AWS Glue 與 Aurora PostgreSQL 相容 的整合來建置資料倉儲和分析解決方案。 AWS Glue 可以從 Aurora PostgreSQL 相容資料庫擷取資料,並根據您的需求進行轉換。然後, AWS Glue 可以將轉換的資料載入資料倉儲,例如 Amazon Redshift 或 Amazon Athena,以進行進階分析和報告。

  • 資料湖建立 ‒ 用來從 Aurora PostgreSQL 相容 AWS Glue 擷取資料,並將其載入存放在 Amazon S3 中的資料湖。然後,您可以將此資料湖用於各種用途,例如機器學習、資料探勘或饋送其他分析系統。

  • ETL 管道 ‒ 使用無 AWS Glue 伺服器 ETL 服務來建置強大的資料管道。您可以從 Aurora PostgreSQL 相容擷取資料,並使用 Apache Spark 或 PySpark 執行複雜的轉換。您可以將處理的資料載入 Amazon S3 或 Amazon Redshift 等目標,也可以 將其載入回 Aurora PostgreSQL 相容。

  • 資料編目和中繼資料管理 ‒ AWS Glue Data Catalog 用於從 Aurora PostgreSQL 相容資料庫和資料表自動編目和編目中繼資料。 AWS 服務 例如 Amazon Athena 和 Amazon Redshift Spectrum,可以使用此集中式中繼資料儲存庫來查詢和分析資料。

  • 機器學習的資料準備 – AWS Glue 用於從與機器學習 (ML) 工作負載相容的 Aurora PostgreSQL 準備資料。處理的資料可以載入 Amazon SageMaker AI 或其他 ML 服務,以訓練和部署模型。

  • 資料遷移和複寫 ‒ 雖然 AWS Database Migration Service (AWS DMS) 是資料庫遷移的主要服務,但您也可以使用 AWS Glue。將資料從 Aurora PostgreSQL 相容遷移或複寫到其他資料存放區,例如 Amazon S3、Amazon Redshift 或其他資料庫引擎。

您的組織可以使用 AWS 資料整合和分析服務的力量,以及 Aurora PostgreSQL 相容的可擴展性、效能和相容性。透過這些使用案例,您可以建置強大的資料管道、執行複雜的資料轉換,並與其他 整合 AWS 服務 ,以進行進階分析和報告。

若要將 Aurora PostgreSQL 相容與 整合 AWS Glue,請使用下列高階步驟:

  1. 登入 AWS 管理主控台,導覽至 AWS Glue 主控台,然後建立 AWS Glue Data Catalog。

    Data Catalog 是中央儲存庫,可存放資料來源的中繼資料,包括 Aurora PostgreSQL 相容資料庫和資料表。

  2. 建立 AWS Glue 連線。

    導覽至連線頁面,然後建立 AWS Glue 連線。選取 Aurora PostgreSQL 相容做為連線類型,並提供 Aurora PostgreSQL 相容叢集端點、資料庫名稱,以及資料庫使用者名稱和密碼。

  3. 編目 Aurora PostgreSQL 相容資料來源。

    導覽至爬蟲程式區段,並建立設定為使用您建立之連線的爬蟲程式。指定您要編目並包含在資料目錄中的資料庫和資料表名稱,然後執行爬蟲程式。

  4. 建立並執行 AWS Glue ETL 任務。

    導覽至任務區段,並建立 ETL 任務,使用 Data Catalog 從 Aurora PostgreSQL 相容資料庫存取和查詢資料。根據您的需求選擇任務類型。在 ETL 任務指令碼中,執行任何必要的轉換或處理,並指定已處理資料的目標位置。目標位置可以是 Amazon S3、Amazon Redshift 或其他 Aurora PostgreSQL 相容資料庫。

如需詳細說明,請參閱 AWS Glue 文件