Almacenamiento sin conexión
El almacenamiento sin conexión se utiliza para los datos históricos cuando no es necesario recuperarlos en menos de un segundo. Por lo general, se usa para la exploración de datos, el entrenamiento de modelos y la inferencia por lotes.
Al habilitar los almacenamiento sin conexión y en línea para su grupo de características, ambos se sincronizan para evitar discrepancias entre los datos de entrenamiento y los de entrega. Tenga en cuenta que, actualmente, un grupo de características del almacenamiento en línea con el tipo de almacenamiento InMemory
habilitado no admite el grupo de características correspondiente en el almacenamiento sin conexión (no se puede replicar de en línea a sin conexión). Para obtener más información sobre el servicio de modelos de ML en el Almacén de características de Amazon SageMaker, consulte Almacenamiento en línea.
El almacenamiento sin conexión contiene las siguientes opciones de TableFormat
. Para obtener más información sobre el contenido del almacenamiento sin conexión, consulte OfflineStoreConfig
en la Referencia de la API de Amazon SageMaker.
Formato de tabla de Glue
El formato de Glue
(predeterminado) es un formato de tabla de tipo Hive estándar para AWS Glue. Con AWS Glue, puede detectar, preparar, mover e integrar datos de varios orígenes. También incluye herramientas adicionales de productividad y operaciones de datos para la creación, la ejecución de trabajos y la implementación de flujos de trabajo empresariales. Para obtener más información acerca de AWS Glue, consulte ¿Qué es AWS Glue?
Formato de tabla de Iceberg
El formato de Iceberg
(recomendado) es un formato de tabla abierto para tablas analíticas muy grandes. Con Iceberg
, puede compactar los archivos de datos pequeños en un menor número de archivos grandes en la partición, lo que se traduce en consultas considerablemente más rápidas. Esta operación de compactación es simultánea y no afecta a las operaciones de lectura y escritura en curso en el grupo de características. Para obtener más información sobre la optimización de las tablas de Iceberg, consulte las guías del usuario de Amazon Athena y AWS Lake Formation.
Iceberg
administra grandes colecciones de archivos como tablas y es compatible con las modernas operaciones analíticas de lago de datos. Si elige la opción Iceberg
al crear nuevos grupos de características, el almacén de características de Amazon SageMaker creará las tablas de Iceberg
en formato de archivo Parquet y registra las tablas con el AWS Glue Data Catalog. Para obtener más información sobre los formatos de tabla de Iceberg
, consulte Uso de tablas de Apache Iceberg.
importante
Tenga en cuenta que, en el caso de los grupo de características en formato de tabla de Iceberg
, debe especificar String
como el tipo de característica para la hora del evento. Si especifica cualquier otro tipo, no podrá crear el grupo de características correctamente.