與 Aurora 零ETL集成工作與 Amazon Redshift - Amazon Aurora

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Aurora 零ETL集成工作與 Amazon Redshift

A RDS urora 與亞馬 Amazon Redshift 進行零ETL整合,可在來自 Aurora 的 PB 級交易資料上使用 Amazon Redshift 實現近乎即時的分析和機器學習 (ML)。這是一個完全受管的解決方案,可在 Amazon Redshift 將交易資料寫入資料叢集之後,才能在 Amazon Redshift 中使用。擷取、轉換load (ETL) 是將來自多個來源的資料合併為大型中央資料倉儲的程序。

零ETL整合可讓您資料叢集中的資料以近乎即時的速度在 Amazon Redshift 中使用。資料存放在 Amazon Redshift 之後,您可以使用 Amazon Redshift 的內建功能 (例如機器學習、具體化檢視、資料共用、聯合存取多個資料存放區和資料湖的聯合存取,以及與 Amazon、Amazon SageMaker 和其他整合) 來強化您的分析、機器學習和 AI 工作負載 QuickSight AWS 服務.

若要建立零ETL整合,請將資料叢集指定為來源,並將 Amazon Redshift 資料倉儲指定為目標。整合會將來源資料庫中的資料複寫到目標資料倉儲。

下圖說明此功能。

零ETL整合

整合會監控資料管道的運作狀態,並在可能的情況下從問題中復原。您可以從多個集建立整合到單一 Amazon Redshift 命名空間,以便跨多個應用程式衍生見解。

如需零ETL整合定價的相關資訊,請參閱 Amazon Aurora 定價Amazon Redshift 定價

優勢

Aurora 零ETL集成與 Amazon Redshift 具有以下好處:

  • 協助您從多個資料來源衍生整體洞見。

  • 無需建置和維護執行擷取、轉換和 load (ETL) 作業的複雜資料管線。零ETL整合可透過為您佈建和管理管道,消除建置和管理管道所帶來的挑戰。

  • 減少操作負擔和成本,讓您專注於改善應用程式。

  • 讓您利用 Amazon Redshift 的分析和機器學習功能,從交易和其他資料衍生洞察,以有效地回應關鍵、時間敏感的事件。

重要概念

當您開始使用零ETL整合時,請考慮下列概念:

整合

全受管資料管道,可自動將交易資料和結構描述從資料叢集複寫到 Amazon Redshift 資料倉儲。

來源 DB 叢集

從中複製資料的資料 Aurora 資料庫叢集對於 Aurora MySQL,您可以指定使用佈建的資料庫執行個體的資料庫叢集,或 Aurora Serverless v2 資料庫執行個體做為來源。對於 Aurora Postgre SQL 預覽,您只能指定使用已佈建資料庫執行個體的叢集。

目標資料倉儲

將資料複寫至其中的 Amazon Redshift 資料倉儲。資料倉儲有兩種類型:佈建的叢集資料倉儲和無伺服器資料倉儲。佈建的叢集資料倉儲是稱為節點的運算資源集合,這些節點會組織成稱為叢集的群組。無伺服器資料倉儲由存放運算資源的工作群組,以及為資料庫物件和使用者提供空間的命名空間所組成。這兩個資料倉儲都會執行 Amazon Redshift 引擎,並包含一或多個資料庫。

多個來源叢集可以寫入相同的目標。

如需詳細資訊,請參閱《Amazon Redshift 開發人員指南》中的資料倉儲系統架構

限制

以下限制適用於與 Amazon Redshift 的 Aurora 零ETL整合。

一般限制

  • 來源資料資料庫叢集必須與目標 Amazon Redshift 資料倉儲位於相同的區域。

  • 如果叢集或其任何執行個體具有現有整合,則無法重新命名該叢集。

  • 您無法在相同的來源和目標資料庫之間建立多個整合。

  • 您無法刪除具有現有整合的叢集。您必須先刪除所有相關聯的整合。

  • 如果您的叢集是藍/綠部署的來源,則藍色和綠色環境在切換期間不能有現有的零ETL整合。您必須先刪除整合再進行轉換,然後重新建立該整合。

  • 資料庫叢集必須至少包含一個資料庫執行個體,才能成為整合的來源。

  • 如果來源叢集是 Aurora 全域資料庫中的主要資料庫叢集,且容錯移轉到其中一個次要叢集,則整合會變成非作用中。您必須刪除並重新建立整合。

  • 您無法為正在主動建立另一個整合的來源資料庫建立整合。

  • 當您一開始建立整合時或當資料表重新同步時,從來源植入目標的資料可能需要 20 到 25 分鐘或更長時間,取決於來源資料庫的大小。此延遲可能會導致複本延遲增加。

  • 不支援某些資料類型。如需詳細資訊,請參閱Aurora 和 Amazon Redshift 資料庫之間的資料類型差異

  • 不支援 XA 交易。

  • 物件識別符 (包括資料庫名稱、資料表名稱、資料欄名稱等) 只能包含英數字元、數字、$ 和 _ (底線)。

  • 系統資料表、臨時資料表和檢視不會複寫到 Amazon Redshift。

的SQL限制

  • 您的來源資料庫叢集必須執行支援版本的 Aurora MySQL. 如需支援的版本的清單,請參閱支援與 Amazon Redshift 進行零ETL整合的區域和 Aurora 資料庫引擎

  • 零ETL集成依賴於我的SQL二進制日誌記錄(binlog)來捕獲正在進行的數據更改。請勿使用 binlog 型資料篩選,因為這可能會導致來源和目標資料庫之間的資料不一致。

  • 只有設定為使用 InnoDB 儲存引擎的資料庫才支援零ETL整合。

  • 不支援具有預先定義資料表更新的外部索引鍵參照。具體而言,ON DELETE和動作不支援和ON UPDATESET DEFAULT則。CASCADE SET NULL嘗試建立或更新對另一個資料表具有這類參考的資料表,會將該資料表置於失敗狀態。

  • ALTER TABLE分割區操作會導致您的表格重新同步,以便將資料從 Aurora 重新載入到 Amazon Redshift。資料表將無法在重新同步處理時進行查詢。如需詳細資訊,請參閱我的一個或多個 Amazon Redshift 資料表需要重新同步

Aurora 郵政SQL預覽限制

重要

預覽已結束:Aurora Postgre SQL 零ETL整合與 Amazon Redshift 的預覽已結束。我們感謝您的參與和反饋。敬請期待有關此功能可用性和增強功能的進一步更新。

  • 您的來源資料庫叢集必須執行 Aurora SQL (與 Postgre SQL 15.4 和零 Sup ETL port 相容)。

  • 您SQL只能在 us-east-2 國東部 (俄亥俄州) 的 Amazon RDS 資料庫預覽環境中建立和管理 Aurora Postgre 的零ETL整合 AWS 區域。 您可以使用預覽環境來測試 Postgre SQL 資料庫引擎軟體的 Beta 版、候選發行版和早期生產版本。

  • 您只能使SQL用 AWS Management Console。 你不能使用 AWS Command Line Interface (AWS CLI)RDSAPI,Amazon 或任何 AWS SDKs.

  • 建立來源資料庫叢集時,您選擇的參數群組必須已設定必要的資料庫叢集參數值。之後您無法建立新的參數群組,然後將其與叢集產生關聯。如需必要參數的清單,請參閱步驟 1:建立自訂資料庫叢集參數群組。

  • 您無法在建立整合之後修改整合。如果您需要變更某些設定,則必須刪除並重新建立整合。

  • 目前,作為整合來源的 Aurora Postgre 資料SQL庫叢集不會執行邏輯複寫資料的記憶體回收。

  • 在來源 Aurora Postgre 資料庫叢集內建立的所有資料SQL庫都必須使用 UTF -8 編碼。

  • 與 Aurora Postgre 零ETL集成SQL不支持以下內容:

    • Aurora Serverless v2 數據庫實例。來源資料庫叢集必須使用佈建的資料庫執行個體

    • 擴充功能建立的自訂資料類型或資料類型。

    • 來源資料庫叢集上的子交易。

    • 重新命名來源資料庫叢集中的結構描述或資料庫。

    • 從資料庫叢集快照還原,或使用 Aurora 複製建立來源資料庫叢集。如果要將現有資料引入預覽叢集,則必須使用pg_dumppg_restore公用程式。

    • 在來源資料庫叢集的寫入器執行個體上建立邏輯複寫插槽。

    • 需要超大屬性儲存技術 () 的大型欄位值。TOAST

    • ALTER TABLE磁碟分割作業。這些作業可能會導致資料表重新同步處理,並最終進入狀態。Failed如果資料表失敗,則必須卸除並重新建立資料表。

Amazon Redshift 限制

如需與零ETL整合相關的 Amazon Redshift 限制清單,請參閱 Amazon Redshift 管理指南中的考量事項

配額

您的帳戶具有下列與 Aurora 與 Amazon Redshift 零ETL整合相關的配額。除非另有說明,否則每個配額都是根據區域而定。

名稱 預設 描述
整合 100 集成的總數在一個 AWS 帳戶.
每個目標資料倉儲的整合 50 將資料傳送至單一目標 Amazon Redshift 資料倉儲的整合數目。
每個來源叢集的整合 為我的 AuroraSQL, 1 為 Aurora 後 SQL 從單一來源資料庫叢集傳送資料的整合數目。

此外,Amazon Redshift 會對每個資料庫執行個體或叢集節點中允許的資料表數目設定某些限制。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配額和限制

支援地區

Aurora 零-與 Amazon Redshift 集ETL成可在一個子集成 AWS 區域。 如需支援的區域清單,請參閱。