Concetti di base sul Feature Store - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Concetti di base sul Feature Store

Elenchiamo i termini più comuni utilizzati in Amazon SageMaker Feature Store, seguiti da diagrammi di esempio per visualizzare alcuni concetti:

  • Feature Store: livello di archiviazione e gestione dei dati per le funzionalità di machine learning (ML). Funge da unica fonte di dati per archiviare, recuperare, rimuovere, tracciare, condividere, individuare e controllare l'accesso alle funzionalità. Nel seguente diagramma esemplificativo, il Feature Store è un archivio per i gruppi di funzionalità, che contiene i dati ML e fornisce servizi aggiuntivi.

  • Archivio online: archivio a bassa latenza e alta disponibilità per un gruppo di funzionalità che consente la ricerca in tempo reale dei record. Il negozio online consente un rapido accesso al record più recente tramite. GetRecord API

  • Archivio offline: archivia i dati storici nel bucket Amazon S3. L’archivio offline viene utilizzato quando non sono necessarie letture a bassa latenza (inferiore al secondo). Ad esempio, l’archivio offline può essere utilizzato quando si desidera archiviare e fornire funzionalità per l'esplorazione, l'addestramento dei modelli e l'inferenza in batch.

  • Gruppo di funzionalità: la risorsa principale di Feature Store, che contiene i dati e i metadati utilizzati per l'addestramento o la previsione con un modello ML. Un gruppo di funzionalità è un raggruppamento logico di funzionalità utilizzato per descrivere i record. Nel seguente diagramma esemplificativo, un gruppo di funzionalità contiene i dati ML.

  • Funzionalità: proprietà che viene utilizzata come input per addestrare o prevedere utilizzando il modello ML. Nel Feature Store API una funzionalità è un attributo di un record. Nel seguente diagramma esemplificativo, una funzionalità descrive una colonna nella tabella di dati ML.

  • Definizione della funzionalità: è costituita da un nome e da un tipo di dati (integrale, stringa o frazionario). Un gruppo di funzionalità contiene un elenco di definizioni di funzionalità. Per ulteriori informazioni sui tipi di dati del Feature Store, consulta Tipi di dati.

  • Record: raccolta di valori per le funzionalità per un singolo identificativo di record. Una combinazione di valori identificativi del record e del tempo dell'evento identifica in modo univoco un record all'interno di un gruppo di funzionalità. Nel seguente diagramma esemplificativo, un record è una riga nella tabella di dati ML.

  • Nome identificativo del record: il nome identificativo del record è il nome della funzionalità che identifica i record. Deve fare riferimento a uno dei nomi di una funzionalità definita nelle definizioni del gruppo di funzionalità. Ogni gruppo di funzionalità è definito con un nome identificativo del record.

  • Ora dell'evento: marca temporale fornita, corrispondente al momento in cui si è verificato l'evento di registrazione. A tutti i record di un gruppo di funzionalità deve corrispondere l'ora dell'evento. L’archivio online contiene solo il record corrispondente all'ora dell'ultimo evento, mentre quello offline contiene tutti i record storici. Per ulteriori informazioni sui formati dell’ora dell’evento, consulta Tipi di dati.

  • Inserimento: aggiunta di nuovi record a un gruppo di funzionalità. L'ingestione viene in genere ottenuta tramite. PutRecord API

Diagramma riassuntivo dei concetti di base

Il seguente diagramma esemplificativo delinea i concetti di base del Feature Store:

An example representation of a feature group using an example table as reference.

Il Feature Store contiene gruppi di funzionalità, mentre un gruppo di funzionalità contiene dati ML. Nel diagramma esemplificativo, il gruppo di funzionalità originale contiene una tabella di dati con tre funzionalità (ognuna delle quali descrive una colonna) e due record (righe).

  • La definizione di una funzionalità descrive il nome della stessa e il tipo di dati dei valori della funzionalità associati ai record.

  • Un record contiene i valori delle funzionalità, è identificato in modo univoco dal relativo identificativo di record e deve includere l'ora dell'evento.

Diagrammi di inserimento

L'inserimento è l'operazione di aggiunta di uno o più record a un gruppo di funzionalità esistente. I negozi online e offline vengono aggiornati in modo diverso a seconda dei diversi casi d'uso dello storage.

Esempio di inserimento nell'archivio online

Il negozio online funge da ricerca in tempo reale dei record e conserva solo la maggior parte dei up-to-date record. Una volta che un record viene inserito in un negozio online esistente, il negozio online aggiornato conserverà il record solo con l'ora dell'ultimo evento.

Nel diagramma di esempio seguente, il negozio online originale contiene una tabella di dati ML con un record. Un record viene importato con lo stesso nome identificativo del record originale e il record importato ha un orario di evento precedente a quello del record originale. Poiché il negozio online aggiornato registra solo l'ora dell'ultimo evento, il negozio online aggiornato contiene il record originale.

An example showing how records are ingested in the online store.

Esempio di inserimento nell'archivio offline

L’archivio offline serve per la ricerca storica dei record e conserva tutti i record. Dopo l'inserimento di un nuovo record in un archivio offline esistente, l’archivio offline aggiornato conserverà il nuovo record.

Nel diagramma di esempio seguente, il negozio offline originale contiene una tabella di dati ML con un record. Un record viene importato con lo stesso nome identificativo del record originale e il record importato ha un orario dell'evento precedente al record originale. Poiché l'archivio offline aggiornato conserva tutti i record, l'archivio offline aggiornato contiene entrambi i record.

An example showing how records are ingested in the offline store.