與 Amazon RDS 零ETL集成工作與 Amazon Redshift - Amazon Relational Database Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon RDS 零ETL集成工作與 Amazon Redshift

Amazon 這是一個完全受管的解決方案,可在 Amazon Redshift 將交易資料寫入資料RDS庫 Aurora 資料庫之後,才能在 Amazon Redshift 中使用。擷取、轉換load (ETL) 是將來自多個來源的資料合併為大型中央資料倉儲的程序。

零ETL整合可讓您資料RDS庫 Aurora 資料庫中的資料以近乎即時的速度在 Amazon Redshift 中使用。資料存放在 Amazon Redshift 之後,您可以使用 Amazon Redshift 的內建功能 (例如機器學習、具體化檢視、資料共用、聯合存取多個資料存放區和資料湖的聯合存取,以及與 Amazon、Amazon SageMaker 和其他整合) 來強化您的分析、機器學習和 AI 工作負載 QuickSight AWS 服務.

若要建立零ETL整合,請將資料RDS庫 Aurora 資料庫指定為來源,並將 Amazon Redshift 資料倉儲指定為目標。整合會將來源資料庫中的資料複寫到目標資料倉儲。

下圖說明此功能。

零ETL整合

整合會監控資料管道的運作狀態,並在可能的情況下從問題中復原。您可以從多個RDS資料庫 Aurora 資料庫集建立整合到單一 Amazon Redshift 命名空間,以便跨多個應用程式衍生見解。

優勢

RDS 零ETL集成與 Amazon Redshift 具有以下好處:

  • 協助您從多個資料來源衍生整體洞見。

  • 無需建置和維護執行擷取、轉換和 load (ETL) 作業的複雜資料管線。零ETL整合可透過為您佈建和管理管道,消除建置和管理管道所帶來的挑戰。

  • 減少操作負擔和成本,讓您專注於改善應用程式。

  • 讓您利用 Amazon Redshift 的分析和機器學習功能,從交易和其他資料衍生洞察,以有效地回應關鍵、時間敏感的事件。

重要概念

當您開始使用零ETL整合時,請考慮下列概念:

整合

全受管資料管道,可自動將交易資料和結構描述從資料RDS庫 Aurora 資料庫複寫到 Amazon Redshift 資料倉儲。

來源資料庫

從中複製資料的資料RDS庫您可以指定單一可用區或異地同步備份資料庫執行個體或異地同步備份資料庫叢集。

目標資料倉儲

將資料複寫至其中的 Amazon Redshift 資料倉儲。資料倉儲有兩種類型:佈建的叢集資料倉儲和無伺服器資料倉儲。佈建的叢集資料倉儲是稱為節點的運算資源集合,這些節點會組織成稱為叢集的群組。無伺服器資料倉儲由存放運算資源的工作群組,以及為資料庫物件和使用者提供空間的命名空間所組成。這兩個資料倉儲都會執行 Amazon Redshift 引擎,並包含一或多個資料庫。

多個來源資料庫資料庫可以寫入相同的目標。

如需詳細資訊,請參閱《Amazon Redshift 開發人員指南》中的資料倉儲系統架構

限制

以下限制適用於與 Amazon Redshift 的 RDS 零ETL整合。

一般限制

  • 來源資料必須與目標 Amazon Redshift 資料倉儲位於相同的區域。

  • 如果資料庫資料庫個體具有現有整合,則無法重新命名該叢集。

  • 您無法在相同的來源和目標資料庫之間建立多個整合。

  • 您無法刪除具有現有整合的資料庫資料庫。您必須先刪除所有相關聯的整合。

  • 如果停止來源資料資料,則在您恢復資料庫集之前,最後幾個交易可能不會複製到目標資料倉儲。

  • 如果來源資料庫已停止,則無法刪除整合。

  • 如果您的資料庫是藍/綠部署的來源,則藍色和綠色環境在切換期間不能有現有的零ETL整合。您必須先刪除整合再進行轉換,然後重新建立該整合。

  • 您無法為正在主動建立另一個整合的來源資料庫建立整合。

  • 當您一開始建立整合時或當資料表重新同步時,從來源植入目標的資料可能需要 20 到 25 分鐘或更長時間,取決於來源資料庫的大小。此延遲可能會導致複本延遲增加。

  • 不支援某些資料類型。如需詳細資訊,請參閱RDS之間的資料類型差異

  • 不支援 XA 交易。

  • 物件識別符 (包括資料庫名稱、資料表名稱、資料欄名稱等) 只能包含英數字元、數字、$ 和 _ (底線)。

  • 系統資料表、臨時資料表和檢視不會複寫到 Amazon Redshift。

RDS我的 SQL Aurora 我限制

  • 您的來源資料庫必須執行支援RDS的 MySQL. 如需支援的版本的清單,請參閱支援的區域和資料庫引擎,可與 Amazon 紅移進行RDS零ETL整合

  • 零ETL集成依賴於我的SQL二進制日誌記錄(binlog)來捕獲正在進行的數據更改。請勿使用 binlog 型資料篩選,因為這可能會導致來源和目標資料庫之間的資料不一致。

  • 只有設定為使用 InnoDB 儲存引擎的資料庫才支援零ETL整合。

  • 不支援具有預先定義資料表更新的外部索引鍵參照。具體而言,ON DELETE和動作不支援和ON UPDATESET DEFAULT則。CASCADE SET NULL嘗試建立或更新對另一個資料表具有這類參考的資料表,會將該資料表置於失敗狀態。

  • ALTER TABLE分割區操作會導致您的表格重新同步,以便將資料從 RDS 重新載入到 Amazon Redshift。資料表將無法在重新同步處理時進行查詢。如需詳細資訊,請參閱我的一個或多個 Amazon Redshift 資料表需要重新同步

Amazon Redshift 限制

如需與零ETL整合相關的 Amazon Redshift 限制清單,請參閱 Amazon Redshift 管理指南中的考量事項

配額

您的帳戶具有下列與 RDS 與 Amazon Redshift 零ETL整合相關的配額。除非另有說明,否則每個配額都是根據區域而定。

名稱 預設 描述
整合 100 集成的總數在一個 AWS 帳戶.
每個目標資料倉儲的整合 50 將資料傳送至單一目標 Amazon Redshift 資料倉儲的整合數目。
每個來源執行個體的整合 5 從單一來源資料庫執行個體資料庫傳送資料的整合數目。

此外,Amazon Redshift 會對每個資料庫執行個體或叢集節點中允許的資料表數目設定某些限制。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配額和限制

支援地區

RDS 零-與 Amazon Redshift 集ETL成可在一個子集成 AWS 區域。 如需支援的區域清單,請參閱支援的區域和資料庫引擎,可與 Amazon 紅移進行RDS零ETL整合