Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Benutzerdefinierte Datenquellen

Fokusmodus
Benutzerdefinierte Datenquellen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Auf dieser Seite beschreiben wir, wie Sie eine benutzerdefinierte Datenquellenklasse erstellen, und zeigen einige Anwendungsbeispiele. Mit benutzerdefinierten Datenquellen können Sie das APIs bereitgestellte SageMaker AI SDK for Python (Boto3) genauso verwenden, als würden Sie von Amazon SageMaker Feature Store bereitgestellte Datenquellen verwenden.

Um eine benutzerdefinierte Datenquelle zu verwenden, um Daten mithilfe von Feature Processing zu transformieren und in eine Feature-Gruppe aufzunehmen, müssen Sie die Klasse um die folgenden PySparkDataSource Klassenmitglieder und Funktionen erweitern.

  • data_source_name(str): ein beliebiger Name für die Datenquelle. Zum Beispiel Amazon Redshift, Snowflake oder ein Glue Catalog ARN.

  • data_source_unique_id(str): eine eindeutige Kennung, die sich auf die spezifische Ressource bezieht, auf die zugegriffen wird. Zum Beispiel Tabellenname, DDB-Tabellen-ARN, Amazon-S3-Präfix. Jede Verwendung derselben Daten data_source_unique_id in benutzerdefinierten Datenquellen wird derselben Datenquelle in der Lineage-Ansicht zugeordnet. Die Herkunft umfasst Informationen über den Ausführungscode eines Workflows zur Feature-Verarbeitung, welche Datenquellen verwendet wurden und wie sie in die Feature-Gruppe oder das Feature aufgenommen wurden. Informationen zum Anzeigen der Herkunft einer Feature-Gruppe in Studio finden Sie unter. Die Herkunft von der Konsole aus anzeigen

  • read_data(func): Eine Methode, die verwendet wird, um eine Verbindung mit dem Feature-Prozessor herzustellen. Gibt einen Spark-Datenrahmen zurück. Beispiele finden Sie unter Beispiele für benutzerdefinierte Datenquellen.

Beide data_source_name und data_source_unique_id werden verwendet, um Ihre Abstammungsentität eindeutig zu identifizieren. Im Folgenden finden Sie ein Beispiel für eine benutzerdefinierte Datenquellenklasse mit dem Namen CustomDataSource.

from sagemaker.feature_store.feature_processor import PySparkDataSource from pyspark.sql import DataFrame class CustomDataSource(PySparkDataSource): data_source_name = "custom-data-source-name" data_source_unique_id = "custom-data-source-id" def read_data(self, parameter, spark) -> DataFrame: your own code here to read data into a Spark dataframe return dataframe
DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.