本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
当不需要亚秒级检索时,使用离线存储来存储历史数据。它通常用于数据探索、模型训练和批量推理。
为特征组同时启用在线和离线存储时,两个存储会同步,以避免训练数据和提供数据之间存在差异。请注意,启用了 InMemory
存储类型的在线存储特征组目前不支持离线存储中的相应特征组(不支持在线到离线复制)。有关在 Amazon Feature Store SageMaker 中提供机器学习模型的更多信息,请参阅在线存储。
离线存储包含以下 TableFormat
选项。有关线下商店内容的信息,请参阅 Amazon SageMaker API 参考OfflineStoreConfig
中的。
Glue 表格式
Glue
格式(默认)是 AWS Glue的标准 Hive 类型表格式。使用 AWS Glue,您可以发现、准备、移动和整合来自多个来源的数据。它还包括用于编写、运行任务和实施业务工作流程的额外生产力和数据操作工具。有关的更多信息 AWS Glue,请参阅什么是 AWS Glue? 。
Iceberg 表格式
Iceberg
格式(建议)是适用于超大型分析表的开放表格式。使用 Iceberg
可以将分区中的小数据文件压缩成较少的大文件,从而显著加快查询速度。此压缩操作是并发的,不会影响特征组上正在进行的读取和写入操作。有关优化 Iceberg 表格的更多信息,请参阅 Amazon Athena 和 AWS Lake Formation 用户指南。
Iceberg
以表的形式管理大量文件并支持现代分析数据湖操作。如果您在创建新功能组时选择该Iceberg
选项,Amazon SageMaker Feature Store 将使用 Parquet 文件格式创建Iceberg
表格,并将这些表注册到中 AWS Glue Data Catalog。有关 Iceberg
表格格式的更多信息,请参阅使用 Apache Iceberg 表格。
重要
请注意,对于 Iceberg
表格式的特征组,您必须指定 String
作为事件时间的特征类型。如果指定任何其他类型,则无法成功创建特征组。