本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
與 Amazon Redshift 的 Amazon RDS 零 ETL 整合可在來自 RDS 的 PB 級交易資料上使用 Amazon Redshift 啟用近乎即時的分析和機器學習 (ML)。它是完全受管的解決方案,可在將交易資料寫入 RDS 資料庫 後,在 Amazon Redshift 中提供。擷取、轉換和載入 (ETL) 是將來自多個來源的資料合併到大型中央資料倉儲的程序。
零 ETL 整合可讓 RDS 資料庫中的資料 近乎即時地在 Amazon Redshift 中提供。資料在 Amazon Redshift 中後,您可以使用 Amazon Redshift 的內建功能來驅動分析、ML 和 AI 工作負載,例如機器學習、具體化視觀表、資料共用、對多個資料存放區和資料湖的聯合存取,以及與 Amazon SageMaker AI、Amazon QuickSight 等的整合 AWS 服務。
若要建立零 ETL 整合,您可以將 RDS 資料庫為來源,並將 Amazon Redshift 資料倉儲指定為目標。整合會將來源資料庫中的資料複寫到目標資料倉儲。
下圖說明此功能。

整合會監控資料管道的運作狀態,並在可能的情況下從問題中復原。您可以從多個 RDS 資料庫建立整合到單一 Amazon Redshift 命名空間,讓您能夠跨多個應用程式衍生洞見。
主題
優勢
與 Amazon Redshift 的 RDS 零 ETL 整合具有下列主要優勢:
-
協助您從多個資料來源衍生整體洞見。
-
無需建置和維護執行擷取、轉換和載入 (ETL) 操作的複雜資料管道。Zero-ETL 整合會透過為您佈建和管理管道,免除建置和管理這些管道所帶來的挑戰。
-
減少操作負擔和成本,讓您專注於改善應用程式。
-
可讓您利用 Amazon Redshift 的分析和 ML 功能,從交易和其他資料中衍生洞見,以有效回應關鍵且時間敏感的事件。
重要概念
當您開始使用零 ETL 整合時,請考慮下列概念:
- 整合
-
全受管資料管道,可自動將交易資料和結構描述從 RDS 資料庫至 Amazon Redshift 資料倉儲。
- 來源資料庫
-
RDS 資料庫複寫資料來源的 。您可以指定單一可用區域或多可用區域資料庫執行個體,或多可用區域資料庫叢集。
- 目標資料倉儲
-
將資料複寫至其中的 Amazon Redshift 資料倉儲。資料倉儲有兩種類型:佈建的叢集資料倉儲和無伺服器資料倉儲。佈建的叢集資料倉儲是稱為節點的運算資源集合,這些節點會組織成稱為叢集的群組。無伺服器資料倉儲由存放運算資源的工作群組,以及為資料庫物件和使用者提供空間的命名空間所組成。這兩個資料倉儲都會執行 Amazon Redshift 引擎,並包含一或多個資料庫。
多個來源資料庫可以寫入相同的目標。
如需詳細資訊,請參閱《Amazon Redshift 開發人員指南》中的資料倉儲系統架構。
限制
以下限制適用於與 Amazon Redshift 的 RDS 零 ETL 整合。
一般限制
-
來源資料庫必須與目標 Amazon Redshift 資料倉儲位於相同的區域。
-
如果資料庫具有現有的整合,則無法重新命名該叢集。
-
您無法在相同來源和目標資料庫之間建立多個整合。
-
您無法刪除具有現有整合的資料庫。您必須先刪除所有相關聯的整合。
-
如果您停止來源資料庫,在您繼續資料庫之前,最後幾個交易可能不會複寫到目標資料倉儲。
-
如果來源資料庫已停止,則無法刪除整合。
-
如果您的資料庫是藍/綠部署的來源,藍和綠環境在切換期間無法擁有現有的零 ETL 整合。您必須先刪除整合再進行轉換,然後重新建立該整合。
-
您無法為正在積極建立另一個整合的來源資料庫建立整合。
-
當您一開始建立整合時或當資料表重新同步時,從來源植入目標的資料可能需要 20 到 25 分鐘或更長時間,取決於來源資料庫的大小。此延遲可能會導致複本延遲增加。
-
不支援某些資料類型。如需詳細資訊,請參閱RDS 與 Amazon Redshift 資料庫之間的資料類型差異。
-
系統資料表、暫存資料表和檢視不會複寫至 Amazon Redshift。
RDS for MySQL 限制
-
您的來源資料庫必須執行支援的 RDS for MySQL 版本。如需支援的版本的清單,請參閱Amazon 與 Amazon Redshift 的RDS零ETL整合支援的 區域和資料庫引擎。
-
零 ETL 整合依賴 MySQL 二進位記錄 (binlog),來擷取持續的資料變更。請勿使用 binlog 型資料篩選,因為這可能會導致來源和目標資料庫之間的資料不一致。
-
僅針對設定為使用 InnoDB 儲存體引擎的資料庫支援零 ETL 整合。
-
不支援具有預先定義資料表更新的外部金鑰參考。具體而言,
CASCADE
、ON DELETE
和SET DEFAULT
動作不支援SET NULL
和ON UPDATE
規則。嘗試建立或更新對另一個資料表具有這類參考的資料表,會將該資料表置於失敗狀態。 -
ALTER TABLE
分割區操作會導致資料表重新同步,以便將資料從 RDS 重新載入 Amazon Redshift。資料表在重新同步時將無法進行查詢。如需詳細資訊,請參閱我的一個或多個 Amazon Redshift 資料表需要重新同步。
Amazon Redshift 限制
如需與零 ETL 整合相關的 Amazon Redshift 限制清單,請參閱《Amazon Redshift 管理指南》中的將零 ETL 整合與 Amazon Redshift 搭配使用時的考量事項。
配額
您的帳戶具有與 Amazon Redshift 的 RDS 零 ETL 整合相關的下列配額。除非另有說明,否則每個配額都是根據區域而定。
名稱 | 預設 | 描述 |
---|---|---|
整合 | 100 | AWS 帳戶內的整合總數。 |
每個目標資料倉儲的整合 | 50 | 將資料傳送至單一目標 Amazon Redshift 資料倉儲的整合數目。 |
每個來源執行個體的整合 | 5 | 從單一來源資料庫執行個體傳送資料的整合數目。 |
此外,Amazon Redshift 會對每個資料庫執行個體或叢集節點中允許的資料表數目設定某些限制。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配額和限制。
支援地區
RDS Aurora與 Amazon Redshift 的零 ETL 整合可在 的子集中使用 AWS 區域。如需支援的區域的清單,請參閱 Amazon 與 Amazon Redshift 的RDS零ETL整合支援的 區域和資料庫引擎。