As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Conceitos do Feature Store
Listamos termos comuns usados na Amazon SageMaker Feature Store, seguidos por exemplos de diagramas para visualizar alguns conceitos:
-
Feature Store: camada de gerenciamento de dados e armazenamento para atributos de machine learning (ML). Serve como a única fonte confiável para armazenar, recuperar, remover, rastrear, compartilhar, descobrir e controlar o acesso aos atributos. No diagrama de exemplo a seguir, o Feature Store é um armazenamento para seus grupos de atributos, que contém seus dados de ML e fornece serviços adicionais.
-
Armazenamento on-line: armazenamento de baixa latência e alta disponibilidade para um grupo de atributos que permite a pesquisa de registros em tempo real. A loja online permite acesso rápido ao registro mais recente por meio do
GetRecord
API. -
Armazenamento off-line: armazena dados históricos em seu bucket do Amazon S3. O armazenamento off-line é usado quando leituras de baixa latência (menos de um segundo) não são necessárias. Por exemplo, o armazenamento off-line pode ser usado quando você deseja armazenar e oferecer atributos para exploração, treinamento de modelos e inferência em lote.
-
Grupo de atributos: principal recurso do Feature Store que contém os dados e metadados usados para treinamento ou previsão com um modelo de ML. Um grupo de atributos é um agrupamento lógico de atributos usados para descrever registros. No diagrama de exemplo a seguir, um grupo de atributos contém seus dados de ML.
-
Atributo: uma propriedade que é usada como uma das entradas para treinar ou prever usando seu modelo de ML. Na Feature Store, API um recurso é um atributo de um registro. No diagrama de exemplo a seguir, um grupo de atributos descreve uma coluna em sua tabela de dados de ML.
-
Definição de atributo: consiste em um nome e um dos tipos de dados: integral, string ou fracionário. Um grupo de atributos contém uma lista de definições de atributos. Para obter mais informações sobre tipos de dados do Feature Store, consulte Tipos de dados.
-
Registro: coleção de valores para atributos para um único identificador de registro. Uma combinação de valores de identificador de registro e horário do evento identifica exclusivamente um registro dentro de um grupo de atributos. No diagrama de exemplo a seguir, um registro é uma linha em sua tabela de dados de ML.
-
Nome do identificador do registro: o nome do identificador do registro é o nome do atributo que identifica os registros. Ele deve se referir a um dos nomes de um atributo definido nas definições de atributo do grupo de atributos. Cada grupo de atributos é definido com um nome do identificador de registro.
-
Horário do evento: carimbo de data/hora que você fornece correspondente à data em que o evento de registro ocorreu. Todos os registros no grupo de atributos devem ter um horário de evento correspondente. O armazenamento on-line contém apenas o registro correspondente ao horário do evento mais recente, enquanto o armazenamento off-line contém todos os registros históricos. Para obter mais informações sobre os formatos de horário do evento, consulte Tipos de dados.
-
Ingestão: adição de novos registros a um grupo de atributos. A ingestão geralmente é obtida por meio do
PutRecord
API.
Diagrama de visão geral dos conceitos
O diagrama de exemplo a seguir conceitua alguns conceitos do Feature Store:
O Feature Store contém seus grupos de atributos e um grupo de atributos contém seus dados de ML. No diagrama de exemplo, o grupo de atributos original contém uma tabela de dados com três atributos (cada um descrevendo uma coluna) e dois registros (linhas).
-
A definição de um atributo descreve o nome do atributo e o tipo de dados dos valores do atributo associados aos registros.
-
Um registro contém os valores do atributo e é identificado exclusivamente por seu identificador de registro e deve incluir o horário do evento.
Diagramas de ingestão
A ingestão é a ação de adicionar um registro ou registros a um grupo de atributos existente. As lojas on-line e off-line são atualizadas de forma diferente para diferentes casos de uso de armazenamento.
Exemplo de ingestão no armazenamento on-line
A loja online funciona como uma pesquisa em tempo real dos registros e mantém apenas a maioria dos up-to-date registros. Depois que um registro é inserido em uma loja virtual existente, a loja virtual atualizada só manterá o registro com a hora mais recente do evento.
No diagrama de exemplo a seguir, a loja virtual original contém uma tabela de dados de ML com um registro. Um registro é ingerido com o mesmo nome de identificador do registro original, e o registro ingerido tem um horário de evento anterior ao registro original. Como a loja virtual atualizada só mantém o registro com a hora do evento mais recente, a loja virtual atualizada contém o registro original.
Exemplo de ingestão no armazenamento offline
O armazenamento off-line atua como uma consulta histórica dos registros e mantém todos os registros. Depois que um novo registro for ingerido em um armazenamento off-line existente, o armazenamento off-line atualizado manterá o novo registro.
No diagrama de exemplo a seguir, a loja offline original contém uma tabela de dados de ML com um registro. Um registro é ingerido com o mesmo nome de identificador do registro original, e o registro ingerido tem um horário de evento anterior ao registro original. Como a loja off-line atualizada mantém todos os registros, a loja off-line atualizada contém os dois registros.