Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Fonti e inserimento di dati
I record vengono aggiunti ai gruppi di funzionalità tramite inserimento. A seconda del caso d'uso desiderato, i record acquisiti possono essere conservati o meno all'interno del gruppo di funzionalità. Ciò dipende dalla configurazione di archiviazione, se il gruppo di funzionalità utilizza l'archivio offline o online. L'archivio offline viene utilizzato come database storico, in genere utilizzato per l'esplorazione dei dati, l'addestramento dei modelli di machine learning (ML) e l'inferenza in batch. L'archivio online viene utilizzato per la ricerca in tempo reale dei record, in genere utilizzato per l’utilizzo di modelli di ML. Per ulteriori informazioni sui concetti e sull'inserimento di dati nel Feature Store, consulta Concetti di base sul Feature Store.
Esistono diversi modi per portare i tuoi dati in Amazon SageMaker Feature Store. Feature Store offre un'unica API chiamata per l'inserimento dei dati, chiamata PutRecord
che consente di importare dati in batch o da fonti di streaming. Puoi usare Amazon SageMaker Data Wrangler per progettare le funzionalità e poi inserirle nel Feature Store. Puoi anche usare Amazon EMR per l'inserimento di dati in batch tramite un connettore Spark.
Nei seguenti argomenti verranno discusse le differenze tra
Argomenti
Inserimento di dati in streaming
Puoi utilizzare fonti di streaming come Kafka o Kinesis come fonte di dati, da cui vengono estratti i record, e inviare direttamente i record all'archivio online per l’addestramento, l'inferenza o la creazione di funzionalità. I record possono essere inseriti nel tuo gruppo di funzionalità utilizzando la chiamata sincrona. PutRecord
API Poiché si tratta di una API chiamata sincrona, consente di inviare piccoli batch di aggiornamenti in una singola chiamata. API Ciò consente di mantenere sempre aggiornati i valori delle funzionalità e di pubblicarli non appena viene rilevato un aggiornamento. Queste sono anche chiamate funzionalità di streaming.
Data Wrangler con Feature Store
Data Wrangler è una funzionalità di Studio Classic che fornisce una end-to-end soluzione per importare, preparare, trasformare, personalizzare e analizzare i dati. Data Wrangler consente di progettare le tue funzionalità e di inserirle nei gruppi di funzionalità del tuo archivio online o offline.
Le seguenti istruzioni esportano un notebook Jupyter che contiene tutto il codice sorgente necessario per creare un gruppo di funzionalità del Feature Store che aggiunge le funzionalità di Data Wrangler a un negozio online o offline.
Le istruzioni per esportare il flusso di dati di Data Wrangler su Feature Store sulla console variano a seconda che l'esperienza sia abilitata o predefinita. Amazon SageMaker Studio Amazon SageMaker Studio Classic
-
Apri la console Studio seguendo le istruzioni riportate in. Avvia Amazon SageMaker Studio
-
Scegli Dati dal pannello di sinistra per espandere l'elenco a discesa.
-
Dall'elenco a discesa, scegli Data Wrangler.
-
Se hai già un'istanza di Amazon SageMaker Canvas in esecuzione, scegli Open Canvas.
Se non hai un'istanza di SageMaker Canvas in esecuzione, scegli Esegui in Canvas.
-
Sulla console SageMaker Canvas, scegli Data Wrangler nel riquadro di navigazione a sinistra.
-
Scegli Flussi di dati per visualizzare i flussi di dati.
-
Scegli + per espandere l'elenco a discesa.
-
Scegli Esporta flusso di dati per espandere l'elenco a discesa.
-
Scegli Salva su SageMaker Feature Store (tramite JupyterLab Notebook).
-
In Esporta flusso di dati come notebook, scegli una delle seguenti opzioni:
-
Scaricate una copia locale per scaricare il flusso di dati sul computer locale.
-
Esporta in una posizione S3 per scaricare il flusso di dati in una posizione Amazon Simple Storage Service e inserisci la posizione Amazon S3 o scegli Browse per trovare la tua posizione Amazon S3.
-
-
Scegli Export (Esporta).
Dopo aver creato il gruppo di funzionalità, puoi anche selezionare e unire i dati di più gruppi di funzionalità per creare nuove funzionalità modificate a livello tecnico in Data Wrangler ed esportare il set di dati in un bucket Amazon S3.
Per ulteriori informazioni su come esportare su Feature Store, consulta Esportazione su SageMaker AI Feature Store.