Armazenamento offline - Amazon SageMaker

Armazenamento offline

O armazenamento offline é usado para dados históricos quando a recuperação em menos de um segundo não é necessária. Geralmente é usado para exploração de dados, treinamento de modelos e inferência em lote.

Quando você habilita os armazenamentos on-line e offline para seu grupo de atributos, os dois armazenamentos são sincronizados para evitar discrepâncias entre os dados de treinamento e de fornecimento. Observe que um grupo de atributos do armazenamento on-line com o tipo de armazenamento InMemory habilitado atualmente não oferece apoio a um grupo de atributos correspondente no armazenamento offline (sem replicação online para offline). Para obter mais informações sobre o fornecimento de modelos de ML no Amazon SageMaker Feature Store, consulte Armazenamento on-line.

O armazenamento offline contém as seguintes opções de TableFormat: Para obter informações sobre o conteúdo do armazenamento offline, consulte OfflineStoreConfig na referência da API do Amazon SageMaker.

Formato de tabela do Glue

O formato do Glue (padrão) é um formato de tabela padrão do tipo Hive para AWS Glue. Com o AWS Glue, você pode descobrir, preparar, mover e integrar dados de várias origens. Também inclui outras ferramentas de produtividade e operações de dados para criação, execução de trabalhos e implementação de fluxos de trabalho de negócios. Para obter mais informações sobre o AWS Glue, consulte O que é AWS Glue?

Formato de tabela do Iceberg

O formato Iceberg (recomendado) é um formato de tabela aberta para tabelas analíticas muito grandes. Com o Iceberg, você pode compactar os pequenos arquivos de dados em menos arquivos grandes na partição, resultando em consultas significativamente mais rápidas. Essa operação de compactação é simultânea e não afeta as operações contínuas de leitura e gravação no grupo de atributos. Para obter mais informações sobre optimização de tabelas do Iceberg, consulte o Guia do usuário do Amazon Athena e o Guia do usuário do AWS Lake Formation.

O Iceberg gerencia grandes coleções de arquivos como tabelas e oferece apoio a operações analíticas modernas de data lake. Se você escolher a opção Iceberg ao criar novos grupos de atributos, o Amazon SageMaker Feature Store criará as tabelas Iceberg usando o formato de arquivo Parquet e registrará as tabelas com o AWS Glue Data Catalog. Para obter mais informações sobre formatos de tabela Iceberg, consulte Usar tabelas do Apache Iceberg.

Importante

Observe que, para grupos de atributos no formato de tabela Iceberg, você deve especificar String como o tipo do atributo do horário do evento. Se você especificar qualquer outro tipo, não poderá criar o grupo de atributos com êxito.