使用與 Amazon Redshift 的 Amazon RDS 零 ETL 整合 (預覽) - Amazon Relational Database Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用與 Amazon Redshift 的 Amazon RDS 零 ETL 整合 (預覽)

這是與 Amazon Redshift 的 Amazon RDS 零 ETL 整合 (預覽版本) 的發行前版本文件。文件和功能會隨時變更。我們建議僅在測試環境中使用此功能,不要在生產環境中使用。如需預覽版條款和條件,請參閱 AWS 服務條款中的 Beta 版和預覽版

與 Amazon Redshift 的 Amazon RDS 零 ETL 整合可在來自 RDS 的 PB 級交易資料上使用 Amazon Redshift 啟用近乎即時的分析和機器學習 (ML)。這是一個全受管的解決方案,可讓交易資料寫入 RDS 資料庫 Aurora 資料庫後,在 Amazon Redshift 中使用。擷取、轉換入 (ETL) 是將來自多個來源的資料合併為大型中央資料倉儲的程序。

零 ETL 整合可讓 RDS 資料庫 Aurora 資料庫中的資料以近乎即時的速度在 Amazon Redshift 中使用。資料存放在 Amazon Redshift 之後,您可以使用 Amazon Redshift 的內建功能 (例如機器學習、具體化檢視、資料共用、聯合存取多個資料存放區和資料湖的聯合存取,以及與 Amazon、Amazon SageMaker 等整合),為您的分析、機器學習和 AI 工作負載提供支援。 QuickSight AWS 服務

若要建立零 ETL 整合,請將 RDS 資料庫 Aurora 資料庫指定為來源,並將 Amazon Redshift 資料倉儲指定為目標。整合會將來源資料庫中的資料複寫到目標資料倉儲。

下圖說明此功能。

零 ETL 整合

整合會監控資料管道的運作狀態,並在可能的情況下從問題中復原。您可以從多個 RDS 資料庫 Aurora 資料庫集建立整合到單一 Amazon Redshift 命名空間,以便跨多個應用程式獲得洞見。

優勢

與 Amazon Redshift 的 RDS 零 ETL 整合具有下列主要優勢:

  • 協助您從多個資料來源衍生整體洞見。

  • 無需建置和維護執行擷取、轉換和載入 (ETL) 操作的複雜資料管道。Zero-ETL 整合會透過為您佈建和管理管道,免除建置和管理這些管道所帶來的挑戰。

  • 減少操作負擔和成本,讓您專注於改善應用程式。

  • 讓您利用 Amazon Redshift 的分析和機器學習功能,從交易和其他資料衍生洞察,以有效地回應關鍵、時間敏感的事件。

重要概念

當您開始使用零 ETL 整合時,請考慮下列概念:

整合

一種全受管資料管道,可自動將交易資料和結構描述從 RDS 資料庫 複寫到 Amazon Redshift 資料倉儲。

來源資料庫

從中複製資料的 RDS 資料庫您可以指定單一可用區或異地同步備份資料庫執行個體。

目標資料倉儲

將資料複寫至其中的 Amazon Redshift 資料倉儲。資料倉儲有兩種類型:佈建的叢集資料倉儲和無伺服器資料倉儲。佈建的叢集資料倉儲是稱為節點的運算資源集合,這些節點會組織成稱為叢集的群組。無伺服器資料倉儲由存放運算資源的工作群組,以及為資料庫物件和使用者提供空間的命名空間所組成。這兩個資料倉儲都會執行 Amazon Redshift 引擎,並包含一或多個資料庫。

多個來源資料庫資料庫可以寫入相同的目標。

如需詳細資訊,請參閱《Amazon Redshift 開發人員指南》中的資料倉儲系統架構

預覽限制

以下限制適用於與 Amazon Redshift 的 RDS 零 ETL 整合。

一般限制

  • 來源資料必須與目標 Amazon Redshift 資料倉儲位於相同的區域。

  • 如果資料庫資料庫個體具有現有整合,則無法重新命名該叢集。

  • 您無法刪除具有現有整合功能的資料庫資料庫。您必須先刪除所有相關聯的整合。

  • 如果停止來源資料資料,則在您恢復資料庫集之前,最後幾個交易可能不會複製到目標資料倉儲。

  • 如果來源資料庫已停止,則無法刪除整合。

  • Amazon RDS 僅支援單一可用區和異地同步備份資料庫執行個體部署做為整合來源。它目前不支援異地同步備份資料庫叢集。

  • 零 ETL 整合目前不支援資料篩選。

  • 如果您的資料庫是藍/綠部署的來源,則在切換期間,藍色和綠色環境就無法擁有現有的 Zero-ETL 整合。您必須先刪除整合再進行轉換,然後重新建立該整合。

  • 您無法為正在主動建立另一個整合的來源資料庫建立整合。

  • 當您一開始建立整合時或當資料表重新同步時,從來源植入目標的資料可能需要 20 到 25 分鐘或更長時間,取決於來源資料庫的大小。此延遲可能會導致複本延遲增加。

  • 不支援某些資料類型。如需詳細資訊,請參閱 RDS 與 Amazon Redshift 資料庫之間的資料類型差異

  • 不支援具有預先定義資料表更新的外部索引鍵參照。具體而言,ON DELETE和動作不支援和ON UPDATESET DEFAULT則。CASCADE SET NULL嘗試建立或更新對另一個資料表具有這類參考的資料表,會將該資料表置於失敗狀態。

  • ALTER TABLE分割區操作會導致您的資料表重新同步,以便將資料從 RDS 重新載入到 Amazon Redshift。資料表將無法在重新同步處理時進行查詢。如需詳細資訊,請參閱 我的一個或多個 Amazon Redshift 資料表需要重新同步

  • 不支援 XA 交易。

  • 物件識別符 (包括資料庫名稱、資料表名稱、資料欄名稱等) 只能包含英數字元、數字、$ 和 _ (底線)。

RDS for MySQL 限制

  • 您的來源資料庫必須執行適用於 MySQL 的 RDS 版本 8.0.32 或更高版本。

  • 零 ETL 整合依賴 MySQL 二進位記錄 (binlog),來擷取持續的資料變更。請勿使用 binlog 型資料篩選,因為這可能會導致來源和目標資料庫之間的資料不一致。

  • RDS for MySQL 系統資料表、暫時資料表和檢視不會複寫到 Amazon Redshift。

  • 僅針對設定為使用 InnoDB 儲存體引擎的資料庫支援零 ETL 整合。

  • 來源資料庫叢集無法使用憑證授權單位 (CA) 來設定rds-ca-ecc384-g1

Amazon Redshift 限制

如需與零 ETL 整合相關的 Amazon Redshift 限制清單,請參閱 Amazon Red shift 管理指南中的考量事項

配額

您的帳戶具有與 Amazon Redshift 的 RDS 零 ETL 整合相關的下列配額。除非另有說明,否則每個配額都是根據區域而定。

名稱 預設 描述
整合 100 AWS 帳戶內的整合總數。
每個目標資料倉儲的整合 50 將資料傳送至單一目標 Amazon Redshift 資料倉儲的整合數目。
每個來源執行個體的整合 1 從單一來源資料庫執行個體資料庫傳送資料的整合數目。

此外,Amazon Redshift 會對每個資料庫執行個體或叢集節點中允許的資料表數目設定某些限制。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配額和限制

支援地區

RDS 零 ETL 與 Amazon Redshift 集成在一個子集成中提供。 AWS 區域如需支援的區域的清單,請參閱 支援的區域和資料庫引擎,適用於 Amazon RDS 零 ETL 與 Amazon Redshift 整合