オフラインストア
オフラインストアは、1 秒以内に取得する必要がない場合の履歴データに使用されます。通常、データ探索、モデルトレーニング、バッチ推論に使用されます。
特徴量グループでオンラインストアとオフラインストアの両方を有効にすると、トレーニングとデータ提供の間の不一致を避けるため、両方のストアが同期されます。現在、InMemory
ストレージタイプが有効になっているオンラインストア特徴量グループは、オフラインストアの対応する特徴量グループをサポートしていないことに注意してください (オンラインからオフラインへのレプリケーションはできません)。Amazon SageMaker 特徴量ストアでの ML モデル配信の詳細については、「オンラインストア」を参照してください。
オフラインストアには以下の TableFormat
のオプションがあります。オフラインストアのコンテンツについては、「Amazon SageMaker API リファレンス」の「OfflineStoreConfig
」を参照してください。
Glue テーブル形式
Glue
形式 (デフォルト) は AWS Glue の標準的な Hive タイプのテーブル形式です。AWS Glue を使用して、複数のソースからのデータを検出、準備、移動、統合できます。また、ジョブの作成、実行、ビジネスワークフローの実装のための生産性向上に役立つツールやデータ運用ツールも追加されています。AWS Glue の詳細については、「AWS Glue とは」をご参照ください。
Iceberg テーブル形式
Iceberg
形式 (推奨) は、非常に大きな分析テーブル用のオープンテーブル形式です。Iceberg
では、パーティション内の小さなデータファイルを少数の大きなファイルに圧縮できるため、クエリが大幅に速くなります。この圧縮操作は同時に実行され、特徴量グループでの進行中の読み取り/書き込み操作には影響しません。Iceberg テーブルの最適化の詳細については、「Amazon Athena ユーザーガイド」と「AWS Lake Formation ユーザーガイド」を参照してください。
Iceberg
は大量のファイルコレクションをテーブルで管理して最新の分析データレイク操作をサポートします。新しい特徴量グループを作成するときに Iceberg
オプションを選択すると、Amazon SageMaker Feature Store は Parquet ファイル形式を使用して Iceberg
テーブルを作成し、テーブルを AWS Glue Data Catalog に登録します。Iceberg
テーブル形式の詳細については、「Apache Iceberg テーブルの使用」を参照してください。
重要
Iceberg
テーブル形式の特徴量グループでは、イベント時刻の値として String
を指定する必要があることに注意してください。他のタイプを指定すると、特徴量グループを正常に作成できません。