本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設計和實作以資料為中心的現代架構使用案例的最佳實務
帕特里卡, Amazon Web Services () AWS
2023 年 5 月 (文件歷史記錄)
企業越來越多地偏離 Organizations 應用程式為中心的架構,以採用以資料為中心的架構,在這些架構中,IT 基礎架構、應用程式開發,甚至是商務程序都是 在以資料為中心的架構中,資料是 IT 核心資產,您可以設計 IT 系統和程序來最佳化資料。
本指南提供針對您的使用案例設計現代化以資料為中心的建構的最佳實務。您可以使用這些最佳做法,將資料管線和支援該管道的資料工程作業現代化。本指南也提供資料管線中資料生命週期的概觀。透過了解此生命週期,您可以建立資料最佳化的資料管線。
您可以使用本指南克服許多組織在為資料管道設計以資料為中心的架構時所面臨的下列挑戰:
厭惡存儲相同數據集的多個版本-頻繁處理數據多次並不罕見,但這種方法有其局限性。事實上,避免多次處理資料通常較少的資源密集,而且更具成本效益。本指南向您展示了採用不同方法的好處,該方法著重於在多個階段存儲已處理的數據。
不願擁抱資料湖 — 要對資料湖周圍的行銷宣告進行排序可能很困難,而且要確定您的組織是否具備將資料湖納入 IT 系統和程序所需的技能和資源,也可能具有挑戰性。本指南可協助您瞭解資料湖如何在以資料為中心的架構中成為有用的元件。
僱用足夠的數據工程師 — 市場趨勢表明,即使數據科學家沒有正確的數據工程技能,也有望在許多組織中執行數據工程任務。這種技能差距可能會對您的time-to-market計劃產生影響。本指南可協助您進一步瞭解哪些資料工程技能對於設計以資料為中心的架構至關重要。
缺乏使用 AWS 服務進行水平處理的知識 — 水平或分散式處理可讓叢集 parallel 處理資料區塊,方法是將任務對應到多個節點並收集結果,然後再以透明方式傳送給使用者。走向水平處理的移動代表了資料檢視和處理方式的轉變。這種轉變不僅會影響應用程式邏輯或應用程式本身,也會影響組織處理資料的方式。例如,水平處理會影響集中儲存、工作分配和模組化。水平處理也有利於更大的數據塊進行讀寫操作。本指南說明水平處理如何適用於您的資料管線。