Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Usa Feature Store con SDK per Python (Boto3)
Il gruppo di funzionalità è la principale risorsa del Feature Store che contiene i dati e i metadati di machine learning (ML) archiviati in Amazon SageMaker Feature Store. Un gruppo di funzionalità è un raggruppamento logico di funzionalità e record. La definizione di un gruppo di funzionalità è composta da una configurazione per il relativo archivio online e offline e da un elenco di definizioni di funzionalità utilizzate per descrivere i valori dei record. Le definizioni delle funzionalità devono includere un nome identificativo del record e un nome dell'ora dell'evento. Per ulteriori informazioni sui concetti di base relativi ai Feature Store, consulta Concetti di base sul Feature Store.
Prima di utilizzare un Feature Store, in genere si carica il set di dati, si eseguono conversioni e si configurano le funzionalità per l'inserimento. Questo processo presenta numerose varianti e dipende in larga misura dai dati. Il codice di esempio nei seguenti argomenti si riferisce rispettivamente ai notebook di esempio Introduzione al Feature Store
Feature Store supporta i seguenti tipi di funzionalità:String
, Fractional
(valore in virgola mobile IEEE a 64 bit) e Integral
(Int64 - valore integrale firmato a 64 bit). Il valore predefinito è impostato su String
. Ciò significa che, se una colonna nel set di dati non appartiene al tipo di funzionalità float
o long
, per impostazione predefinita è String
nel Feature Store.
Puoi utilizzare uno schema per descrivere le colonne e i tipi di dati. Lo schema viene trasmesso in FeatureDefinitions
, un parametro obbligatorio per FeatureGroup
. Puoi usare SDK for Python (Boto3), che ha il rilevamento automatico del tipo di dati quando usi la funzione. load_feature_definitions
Il comportamento predefinito quando viene aggiunto un nuovo record di funzionalità con un ID record già esistente è il seguente. Nell'archivio offline, il nuovo record verrà aggiunto. Nell'archivio online, se l'ora dell'evento del nuovo record è inferiore all'ora dell'evento esistente, non accadrà nulla; tuttavia, se l'ora dell'evento del nuovo record è superiore o uguale all'ora dell'evento esistente, il record verrà sovrascritto.
Quando viene creato un nuovo gruppo di funzionalità, è possibile scegliere uno dei seguenti formati di tabella:
-
AWS Glue (Impostazione predefinita)
-
Apache Iceberg
L'acquisizione di dati, specialmente durante lo streaming, può comportare il deposito di un gran numero di file di piccole dimensioni nell'archivio offline. Ciò può influire negativamente sulle prestazioni delle query a causa del maggior numero di operazioni sui file richieste. Per evitare potenziali problemi di prestazioni, utilizza il formato di tabella Apache Iceberg quando crei nuovi gruppi di funzionalità. Con Iceberg è possibile comprimere i file di dati di piccole dimensioni in un numero inferiore di file di grandi dimensioni in fase di partizione, ottenendo query significativamente più veloci. Questa operazione di compressione è simultanea e non influisce sulle operazioni di lettura e scrittura in corso sul gruppo di funzionalità. Se scegli l'opzione Iceberg durante la creazione di nuovi gruppi di funzionalità, Amazon SageMaker Feature Store creerà le tabelle Iceberg utilizzando il formato di file Parquet e registrerà le tabelle con. AWS Glue Data Catalog
Importante
Tieni presente che, per i gruppi di funzionalità in formato tabulare Iceberg, devi specificare String
come valore per l'ora dell'evento. Se specifichi un altro tipo, non potrai creare correttamente il gruppo di funzionalità.
Di seguito si riportano alcune risorse gestite dal Feature Store disponibili.