Origini dati personalizzate - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Origini dati personalizzate

In questa pagina descriveremo come creare una classe di origine dati personalizzata e mostreremo alcuni esempi di utilizzo. Con le fonti di dati personalizzate, puoi utilizzare l' SageMaker AI SDK for Python (Boto3) fornita nello stesso modo APIs in cui utilizzi le fonti di dati fornite da Amazon SageMaker Feature Store.

Per utilizzare un'origine dati personalizzata per trasformare e inserire dati in un gruppo di funzionalità utilizzando l'elaborazione delle funzionalità, dovrai estendere la classe PySparkDataSource con i seguenti membri e funzioni della classe.

  • data_source_name (str): un nome arbitrario per l'origine dati. Ad esempio, Amazon Redshift, Snowflake o Glue Catalog. ARN

  • data_source_unique_id(str): un identificatore univoco che si riferisce alla risorsa specifica a cui si accede. Ad esempio, nome della tabella, DDB tabellaARN, prefisso Amazon S3. Tutti gli utilizzi dello stesso data_source_unique_id nelle origini dati personalizzate verranno associati alla stessa origine dati nella visualizzazione della derivazione. La derivazione include informazioni sul codice di esecuzione di un flusso di lavoro di elaborazione delle funzionalità, sulle origini dati utilizzate e su come vengono inserite nel gruppo di funzionalità o nella funzionalità. Per informazioni sulla visualizzazione della discendenza di un gruppo di funzionalità in Studio, consulta. Visualizza la discendenza dalla console

  • read_data(func): un metodo usato per connettersi con il processore di funzionalità. Restituisce un dataframe Spark. Per alcuni esempi, consulta Esempi di origini dati personalizzate.

Entrambi data_source_name e data_source_unique_id vengono utilizzati per identificare in modo univoco l'entità di derivazione. Di seguito è riportato un esempio di una classe di origine dati personalizzata denominata CustomDataSource.

from sagemaker.feature_store.feature_processor import PySparkDataSource from pyspark.sql import DataFrame class CustomDataSource(PySparkDataSource): data_source_name = "custom-data-source-name" data_source_unique_id = "custom-data-source-id" def read_data(self, parameter, spark) -> DataFrame: your own code here to read data into a Spark dataframe return dataframe