本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Aurora PostgreSQL 相容與 的整合 AWS Glue
AWS Glue 是一種全受管的擷取、轉換和載入 (ETL) 服務,用於準備和載入資料以進行分析。您可以 AWS Glue 整合任何資料處理和分析工作流程的 Amazon Aurora PostgreSQL 相容版本。
AWS Glue 使用案例和高階步驟
與 整合 Aurora PostgreSQL 相容, AWS Glue 支援下列使用案例:
-
資料倉儲和分析 ‒ 使用 AWS Glue 與 Aurora PostgreSQL 相容 的整合來建置資料倉儲和分析解決方案。 AWS Glue 可以從 Aurora PostgreSQL 相容資料庫擷取資料,並根據您的需求進行轉換。然後, AWS Glue 可以將轉換的資料載入資料倉儲,例如 Amazon Redshift 或 Amazon Athena,以進行進階分析和報告。
-
資料湖建立 ‒ 用來從 Aurora PostgreSQL 相容 AWS Glue 擷取資料,並將其載入存放在 Amazon S3 中的資料湖。然後,您可以將此資料湖用於各種用途,例如機器學習、資料探勘或饋送其他分析系統。
-
ETL 管道 ‒ 使用無 AWS Glue 伺服器 ETL 服務來建置強大的資料管道。您可以從 Aurora PostgreSQL 相容擷取資料,並使用 Apache Spark 或 PySpark 執行複雜的轉換。您可以將處理的資料載入 Amazon S3 或 Amazon Redshift 等目標,也可以 將其載入回 Aurora PostgreSQL 相容。
-
資料編目和中繼資料管理 ‒ AWS Glue Data Catalog 用於從 Aurora PostgreSQL 相容資料庫和資料表自動編目和編目中繼資料。 AWS 服務 例如 Amazon Athena 和 Amazon Redshift Spectrum,可以使用此集中式中繼資料儲存庫來查詢和分析資料。
-
機器學習的資料準備 – AWS Glue 用於從與機器學習 (ML) 工作負載相容的 Aurora PostgreSQL 準備資料。處理的資料可以載入 Amazon SageMaker AI 或其他 ML 服務,以訓練和部署模型。
-
資料遷移和複寫 ‒ 雖然 AWS Database Migration Service (AWS DMS) 是資料庫遷移的主要服務,但您也可以使用 AWS Glue。將資料從 Aurora PostgreSQL 相容遷移或複寫到其他資料存放區,例如 Amazon S3、Amazon Redshift 或其他資料庫引擎。
您的組織可以使用 AWS 資料整合和分析服務的力量,以及 Aurora PostgreSQL 相容的可擴展性、效能和相容性。透過這些使用案例,您可以建置強大的資料管道、執行複雜的資料轉換,並與其他 整合 AWS 服務 ,以進行進階分析和報告。
若要將 Aurora PostgreSQL 相容與 整合 AWS Glue,請使用下列高階步驟:
-
登入 AWS 管理主控台,導覽至 AWS Glue 主控台,然後建立 AWS Glue Data Catalog。
Data Catalog 是中央儲存庫,可存放資料來源的中繼資料,包括 Aurora PostgreSQL 相容資料庫和資料表。
-
建立 AWS Glue 連線。
導覽至連線頁面,然後建立 AWS Glue 連線。選取 Aurora PostgreSQL 相容做為連線類型,並提供 Aurora PostgreSQL 相容叢集端點、資料庫名稱,以及資料庫使用者名稱和密碼。
-
編目 Aurora PostgreSQL 相容資料來源。
導覽至爬蟲程式區段,並建立設定為使用您建立之連線的爬蟲程式。指定您要編目並包含在資料目錄中的資料庫和資料表名稱,然後執行爬蟲程式。
-
建立並執行 AWS Glue ETL 任務。
導覽至任務區段,並建立 ETL 任務,使用 Data Catalog 從 Aurora PostgreSQL 相容資料庫存取和查詢資料。根據您的需求選擇任務類型。在 ETL 任務指令碼中,執行任何必要的轉換或處理,並指定已處理資料的目標位置。目標位置可以是 Amazon S3、Amazon Redshift 或其他 Aurora PostgreSQL 相容資料庫。
如需詳細說明,請參閱 AWS Glue 文件。