翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
最新のデータ中心アーキテクチャのユースケースを設計および実装するためのベストプラクティス
Apoorva Patrikar、Amazon Web Services()AWS
2023 年 5 月 (ドキュメント履歴)
Organizations はますますアプリケーション中心のアーキテクチャから、ITインフラストラクチャ、アプリケーション開発、さらにはビジネスプロセスがデータ要件に基づいて設計されているデータ中心のアーキテクチャを採用するようになっています。データ中心のアーキテクチャでは、データは中核となるIT資産であり、データを最適化するITシステムとプロセスを設計します。
このガイドでは、ユースケースに合わせて最新のデータ中心アーキテクチャを設計するためのベストプラクティスを紹介します。これらのベストプラクティスを利用して、データパイプラインとそのパイプラインをサポートするデータエンジニアリング業務を最新化できます。このガイドでは、データパイプライン内のデータのライフサイクルの概要も説明します。このライフサイクルを理解することで、データを最適化するデータパイプラインを構築できます。
このガイドを参考に、データパイプラインのデータ中心アーキテクチャを設計する際に多くの組織が直面する次の課題を克服できます。
同じデータセットの複数のバージョンを保存することへの嫌悪感 — 頻繁にデータを複数回処理することは珍しくありませんが、この方法には限界があります。実際、多くの場合、データを複数回処理しないほうが、リソースをあまり消費せず、費用対効果も高くなります。このガイドでは、処理されたデータを複数の段階で保存することに重点を置いた別のアプローチを取ることの利点を説明します。
データレイクを受け入れることに消極的 — データレイクに関するマーケティング上の主張を整理するのが難しい場合があり、また、組織にデータレイクをITシステムやプロセスに組み込むために必要なスキルとリソースがあるかどうかを判断するのも難しい場合があります。このガイドは、データレイクがデータ中心のアーキテクチャにおいてどのように有用なコンポーネントになり得るかを理解するのに役立ちます。
十分な数のデータエンジニアの採用 — 市場動向によると、データサイエンティストは適切なデータエンジニアリングスキルを持っていなくても、多くの組織でデータエンジニアリングのタスクを実行することが期待されています。このスキルギャップは、time-to-market計画に影響を与える可能性があります。このガイドは、データ中心のアーキテクチャを設計するためにどのようなデータエンジニアリングスキルが不可欠であるかをよりよく理解するのに役立ちます。
水平処理に AWS サービスを使用する方法に関する知識の欠如 — 水平処理または分散処理では、クラスターはタスクを複数のノードにマッピングし、結果を収集してからユーザーに透過的に送信することで、大量のデータをparallel して処理できます。水平処理への移行は、データの表示方法と処理方法の変化を表しています。この変化は、アプリケーションロジックやアプリケーション自体だけでなく、組織がデータを扱う方法にも影響を及ぼします。たとえば、水平処理は集中ストレージ、タスク分散、およびモジュール化に影響します。また、水平処理では、読み取り/書き込み操作用のデータのチャンクが大きい方が有利です。このガイドでは、水平処理がデータパイプラインでどのように機能するかを説明します。