Utilizzo di Feature Store con SDK per Python (Boto3)

Il gruppo di funzionalità è la principale risorsa del Feature Store che contiene i dati e i metadati di machine learning (ML) archiviati in Amazon SageMaker Feature Store. Un gruppo di funzionalità è un raggruppamento logico di funzionalità e record. La definizione di un gruppo di funzionalità è composta da una configurazione per il relativo archivio online e offline e da un elenco di definizioni di funzionalità utilizzate per descrivere i valori dei record. Le definizioni delle funzionalità devono includere un nome identificativo del record e un nome dell'ora dell'evento. Per ulteriori informazioni sui concetti di base relativi ai Feature Store, consulta Concetti di base sul Feature Store.

Prima di utilizzare un Feature Store, in genere si carica il set di dati, si eseguono conversioni e si configurano le funzionalità per l'inserimento. Questo processo presenta numerose varianti e dipende in larga misura dai dati. Il codice di esempio nei seguenti argomenti si riferisce rispettivamente ai notebook di esempio Introduzione al Feature Store e Fraud Detection with Amazon SageMaker Feature Store. Entrambi utilizzano AWS SDK per Python (Boto3). Per ulteriori esempi e risorse sull’archivio delle caratteristiche, consulta Risorse SageMaker di Amazon Feature Store.

Feature Store supporta i seguenti tipi di funzionalità: String, Fractional (valore in virgola mobile IEEE a 64 bit) e Integral (Int64 - valore integrale firmato a 64 bit). Il valore predefinito è impostato su String. Ciò significa che, se una colonna nel set di dati non appartiene al tipo di funzionalità float o long, per impostazione predefinita è String nel Feature Store.

Puoi utilizzare uno schema per descrivere le colonne e i tipi di dati. Lo schema viene trasmesso in FeatureDefinitions, un parametro obbligatorio per FeatureGroup. Puoi utilizzare SDK per Python (Boto3), che rileva automaticamente il tipo di dati quando usi la funzione load_feature_definitions .

Il comportamento predefinito quando viene aggiunto un nuovo record di funzionalità con un ID record già esistente è il seguente. Nell'archivio offline, il nuovo record verrà aggiunto. Nell'archivio online, se l'ora dell'evento del nuovo record è inferiore all'ora dell'evento esistente, non accadrà nulla; tuttavia, se l'ora dell'evento del nuovo record è superiore o uguale all'ora dell'evento esistente, il record verrà sovrascritto.

Quando viene creato un nuovo gruppo di funzionalità, è possibile scegliere uno dei seguenti formati di tabella:

AWS Glue (Impostazione predefinita)
Apache Iceberg

L'acquisizione di dati, specialmente durante lo streaming, può comportare il deposito di un gran numero di file di piccole dimensioni nell'archivio offline. Ciò può influire negativamente sulle prestazioni delle query a causa del maggior numero di operazioni sui file richieste. Per evitare potenziali problemi di prestazioni, utilizza il formato di tabella Apache Iceberg quando crei nuovi gruppi di funzionalità. Con Iceberg è possibile comprimere i file di dati di piccole dimensioni in un numero inferiore di file di grandi dimensioni in fase di partizione, ottenendo query significativamente più veloci. Questa operazione di compressione è simultanea e non influisce sulle operazioni di lettura e scrittura in corso sul gruppo di funzionalità. Se scegli l'opzione Iceberg durante la creazione di nuovi gruppi di funzionalità, Amazon SageMaker Feature Store creerà le tabelle Iceberg utilizzando il formato di file Parquet e registrerà le tabelle con. AWS Glue Data Catalog

Importante

Tieni presente che, per i gruppi di funzionalità in formato tabulare Iceberg, devi specificare String come valore per l'ora dell'evento. Se specifichi un altro tipo, non potrai creare correttamente il gruppo di funzionalità.

Di seguito si riportano alcune risorse gestite dal Feature Store disponibili.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Aggiunta di policy al ruolo IAM

Introduzione al notebook di esempio Feature Store