Panoramica dell'utilizzo della funzionalità Neptune ML - Amazon Neptune

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Panoramica dell'utilizzo della funzionalità Neptune ML

La funzionalità Neptune ML di Amazon Neptune offre un flusso di lavoro semplificato per sfruttare i modelli di machine learning all'interno di un database grafico. Il processo prevede diversi passaggi chiave: esportazione dei dati da Neptune CSV in formato, preelaborazione dei dati per prepararli all'addestramento del modello, addestramento del modello di apprendimento automatico tramite SageMaker Amazon, creazione di un endpoint di inferenza per fornire previsioni e quindi interrogare il modello direttamente dalle query Gremlin. L'ambiente di lavoro Neptune fornisce comodi comandi di linea e di magia cellulare per aiutare a gestire e automatizzare questi passaggi. Integrando le funzionalità di machine learning direttamente nel database dei grafici, Neptune ML consente agli utenti di ricavare informazioni preziose e fare previsioni utilizzando i ricchi dati relazionali archiviati nel grafico di Neptune.

Avvio del flusso di lavoro per l'utilizzo di Neptune ML

Per iniziare a usare la funzionalità Neptune ML in Amazon Neptune sono in genere necessari i cinque passaggi seguenti:

Diagramma del flusso di lavoro di Neptune ML
  1. Esportazione e configurazione dei dati: la fase di esportazione dei dati utilizza il servizio Neptune-Export o lo strumento a riga di neptune-export comando per esportare i dati da Neptune in Amazon Simple Storage Service (Amazon S3) in forma. CSV Contemporaneamente viene generato automaticamente un file di configurazione denominato training-data-configuration.json, che specifica come è possibile caricare i dati esportati in un grafo addestrabile.

  2. Pre-elaborazione dei dati: in questo passaggio, il set di dati esportato viene pre-elaborato utilizzando le tecniche standard per prepararlo all'addestramento del modello. È possibile eseguire la normalizzazione delle funzionalità per i dati numerici e codificare le funzionalità del testo con word2vec. Al termine di questa fase, viene generato un grafico DGL (libreria Deep Graph) dal set di dati esportato per la fase di addestramento del modello da utilizzare.

    Questo passaggio viene implementato utilizzando un processo di SageMaker elaborazione nel tuo account e i dati risultanti vengono archiviati in una posizione Amazon S3 che hai specificato.

  3. Addestramento del modello: il passaggio di addestramento del modello addestra il modello di machine learning che verrà utilizzato per le previsioni.

    L'addestramento del modello viene svolto in due fasi:

    • La prima fase utilizza un processo di SageMaker elaborazione per generare un set di configurazione della strategia di addestramento del modello che specifica il tipo di modello e gli intervalli di iperparametri del modello che verranno utilizzati per l'addestramento del modello.

    • La seconda fase utilizza quindi un processo di ottimizzazione SageMaker del modello per provare diverse configurazioni di iperparametri e selezionare il processo di formazione che ha prodotto il modello con le migliori prestazioni. Il processo di ottimizzazione esegue un numero prestabilito di prove del processo di addestramento del modello sui dati elaborati. Al termine di questa fase, i parametri del modello addestrato del miglior processo di addestramento vengono utilizzati per generare gli artefatti del modello per l'inferenza.

  4. Crea un endpoint di inferenza in Amazon SageMaker: l'endpoint di inferenza è un'istanza di SageMaker endpoint che viene lanciata con gli artefatti del modello prodotti dal miglior processo di formazione. Ogni modello è legato a un singolo endpoint. L'endpoint può accettare le richieste in entrata dal database a grafo e restituire le previsioni del modello per gli input nelle richieste. Dopo aver creato l'endpoint, questo rimane attivo finché non viene eliminato.

  5. Esecuzione di query sul modello di machine learning con Gremlin: puoi utilizzare le estensioni del linguaggio di query Gremlin per eseguire query sulle previsioni dall'endpoint di inferenza.

Nota

Neptune Workbench contiene un comando magic di riga e un comando magic di cella che ti permettono di risparmiare molto tempo nella gestione di questi passaggi, ad esempio: