Benutzerdefinierte Datenquellen

Fokusmodus

Benutzerdefinierte Datenquellen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Auf dieser Seite beschreiben wir, wie Sie eine benutzerdefinierte Datenquellenklasse erstellen, und zeigen einige Anwendungsbeispiele. Mit benutzerdefinierten Datenquellen können Sie das APIs bereitgestellte SageMaker AI SDK for Python (Boto3) genauso verwenden, als würden Sie von Amazon SageMaker Feature Store bereitgestellte Datenquellen verwenden.

Um eine benutzerdefinierte Datenquelle zu verwenden, um Daten mithilfe von Feature Processing zu transformieren und in eine Feature-Gruppe aufzunehmen, müssen Sie die Klasse um die folgenden PySparkDataSource Klassenmitglieder und Funktionen erweitern.

data_source_name(str): ein beliebiger Name für die Datenquelle. Zum Beispiel Amazon Redshift, Snowflake oder ein Glue Catalog ARN.
data_source_unique_id(str): eine eindeutige Kennung, die sich auf die spezifische Ressource bezieht, auf die zugegriffen wird. Zum Beispiel Tabellenname, DDB-Tabellen-ARN, Amazon-S3-Präfix. Jede Verwendung derselben Daten data_source_unique_id in benutzerdefinierten Datenquellen wird derselben Datenquelle in der Lineage-Ansicht zugeordnet. Die Herkunft umfasst Informationen über den Ausführungscode eines Workflows zur Feature-Verarbeitung, welche Datenquellen verwendet wurden und wie sie in die Feature-Gruppe oder das Feature aufgenommen wurden. Informationen zum Anzeigen der Herkunft einer Feature-Gruppe in Studio finden Sie unter. Die Herkunft von der Konsole aus anzeigen
read_data(func): Eine Methode, die verwendet wird, um eine Verbindung mit dem Feature-Prozessor herzustellen. Gibt einen Spark-Datenrahmen zurück. Beispiele finden Sie unter Beispiele für benutzerdefinierte Datenquellen.

Beide data_source_name und data_source_unique_id werden verwendet, um Ihre Abstammungsentität eindeutig zu identifizieren. Im Folgenden finden Sie ein Beispiel für eine benutzerdefinierte Datenquellenklasse mit dem Namen CustomDataSource.


from sagemaker.feature_store.feature_processor import PySparkDataSource
from pyspark.sql import DataFrame

class CustomDataSource(PySparkDataSource):
    
    data_source_name = "custom-data-source-name"
    data_source_unique_id = "custom-data-source-id"
    
    def read_data(self, parameter, spark) -> DataFrame:
        your own code here to read data into a Spark dataframe
        return dataframe