Armazenamento offline
O armazenamento offline é usado para dados históricos quando a recuperação em menos de um segundo não é necessária. Geralmente é usado para exploração de dados, treinamento de modelos e inferência em lote.
Quando você habilita os armazenamentos on-line e offline para seu grupo de atributos, os dois armazenamentos são sincronizados para evitar discrepâncias entre os dados de treinamento e de fornecimento. Observe que um grupo de atributos do armazenamento on-line com o tipo de armazenamento InMemory
habilitado atualmente não oferece apoio a um grupo de atributos correspondente no armazenamento offline (sem replicação online para offline). Para obter mais informações sobre o fornecimento de modelos de ML no Amazon SageMaker Feature Store, consulte Armazenamento on-line.
O armazenamento offline contém as seguintes opções de TableFormat
: Para obter informações sobre o conteúdo do armazenamento offline, consulte OfflineStoreConfig
na referência da API do Amazon SageMaker.
Formato de tabela do Glue
O formato do Glue
(padrão) é um formato de tabela padrão do tipo Hive para AWS Glue. Com o AWS Glue, você pode descobrir, preparar, mover e integrar dados de várias origens. Também inclui outras ferramentas de produtividade e operações de dados para criação, execução de trabalhos e implementação de fluxos de trabalho de negócios. Para obter mais informações sobre o AWS Glue, consulte O que é AWS Glue?
Formato de tabela do Iceberg
O formato Iceberg
(recomendado) é um formato de tabela aberta para tabelas analíticas muito grandes. Com o Iceberg
, você pode compactar os pequenos arquivos de dados em menos arquivos grandes na partição, resultando em consultas significativamente mais rápidas. Essa operação de compactação é simultânea e não afeta as operações contínuas de leitura e gravação no grupo de atributos. Para obter mais informações sobre optimização de tabelas do Iceberg, consulte o Guia do usuário do Amazon Athena e o Guia do usuário do AWS Lake Formation.
O Iceberg
gerencia grandes coleções de arquivos como tabelas e oferece apoio a operações analíticas modernas de data lake. Se você escolher a opção Iceberg
ao criar novos grupos de atributos, o Amazon SageMaker Feature Store criará as tabelas Iceberg
usando o formato de arquivo Parquet e registrará as tabelas com o AWS Glue Data Catalog. Para obter mais informações sobre formatos de tabela Iceberg
, consulte Usar tabelas do Apache Iceberg.
Importante
Observe que, para grupos de atributos no formato de tabela Iceberg
, você deve especificar String
como o tipo do atributo do horário do evento. Se você especificar qualquer outro tipo, não poderá criar o grupo de atributos com êxito.