Origini dati personalizzate

Modalità Focus

Origini dati personalizzate - Amazon SageMaker AI

In questa pagina descriveremo come creare una classe di origine dati personalizzata e mostreremo alcuni esempi di utilizzo. Con le sorgenti dati personalizzate, puoi utilizzare l' SageMaker AI SDK for Python ( APIs Boto3) fornito nello stesso modo in cui utilizzi le sorgenti dati fornite da Amazon Feature Store. SageMaker

Per utilizzare un'origine dati personalizzata per trasformare e inserire dati in un gruppo di funzionalità utilizzando l'elaborazione delle funzionalità, dovrai estendere la classe PySparkDataSource con i seguenti membri e funzioni della classe.

data_source_name (str): un nome arbitrario per l'origine dati. Ad esempio, Amazon Redshift, Snowflake o un ARN di Glue Catalog.
data_source_unique_id(str): un identificatore univoco che si riferisce alla risorsa specifica a cui si accede. Ad esempio, nome della tabella, ARN della tabella DDB, prefisso Amazon S3. Tutti gli utilizzi dello stesso data_source_unique_id nelle origini dati personalizzate verranno associati alla stessa origine dati nella visualizzazione della derivazione. La derivazione include informazioni sul codice di esecuzione di un flusso di lavoro di elaborazione delle funzionalità, sulle origini dati utilizzate e su come vengono inserite nel gruppo di funzionalità o nella funzionalità. Per informazioni sulla visualizzazione della derivazione di un gruppo di funzionalità in Studio, consulta. Visualizza la discendenza dalla console
read_data(func): un metodo usato per connettersi con il processore di funzionalità. Restituisce un dataframe Spark. Per alcuni esempi, consulta Esempi di origini dati personalizzate.

Entrambi data_source_name e data_source_unique_id vengono utilizzati per identificare in modo univoco l'entità di derivazione. Di seguito è riportato un esempio di una classe di origine dati personalizzata denominata CustomDataSource.


from sagemaker.feature_store.feature_processor import PySparkDataSource
from pyspark.sql import DataFrame

class CustomDataSource(PySparkDataSource):
    
    data_source_name = "custom-data-source-name"
    data_source_unique_id = "custom-data-source-id"
    
    def read_data(self, parameter, spark) -> DataFrame:
        your own code here to read data into a Spark dataframe
        return dataframe

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Origini dati per SDK del Processore di funzionalità

Esempi di origini dati personalizzate

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Origini dati personalizzate

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?