推奨データレイヤー - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推奨データレイヤー

個人を特定できない情報 (PII) データなど、機密性の低いデータを扱う場合は、のデータレイクに少なくとも 3 つの異なるデータレイヤーを使用することをお勧めしますAWS クラウド。

ただし、データの複雑さやユースケースによっては、追加のレイヤーが必要になる場合があります。たとえば、機密データ (PII データなど) を扱う場合は、追加の Amazon Simple Storage Service (Amazon S3) バケットをlanding zone として使用し、ローデータレイヤーに移動する前にデータをマスクすることをおすすめします。詳細については、このガイドの 機密データの受け渡し セクションを参照してください。

各データレイヤーには個別の S3 バケットが必要です。次の表は、推奨データレイヤーを示しています。

データレイヤー名 説明 ライフサイクルポリシー戦略の例
未加工

未処理の未処理データを含み、データがデータレイクに取り込まれるレイヤーです。

可能であれば、元のファイル形式を維持し、S3 バケットのバージョン管理を有効にしてください。

1 年後、ファイルを Amazon S3 低頻度アクセス (IA) ストレージクラスに移動します。Amazon S3 IA で 2 年間使用した後、それらを Amazon S3 グレイシャーにアーカイブします
ステージ

使用に最適化された処理済みの中間データが含まれます (CSV から Apache Parquet に変換された未処理ファイルまたはデータ変換など)。

AWS Glueジョブは未処理レイヤーからファイルを読み取り、データを検証します。その後、AWS Glueジョブはデータを Apache Parquet 形式のファイルに保存し、AWS Glueメタデータはデータカタログのテーブルに保存されます。

データは、一定期間経過後、または組織の要件に従って削除できます。

一部のデータ派生要素 (元の JSON 形式の Apache Avro 変換など) は、短時間 (たとえば 90 日後) にデータレイクから削除できます。

分析 特定のユースケースの集計データを、すぐに使用できる形式 (Apache Parquet など) で格納します。 データは Amazon S3 IA に移動して、一定期間経過後、または組織の要件に従って削除できます。
注記

推奨されるライフサイクルポリシー戦略はすべて、組織のニーズ、規制要件、クエリパターン、およびコストに関する考慮事項に照らして評価する必要があります。