自訂資料來源

焦點模式

自訂資料來源 - Amazon SageMaker AI

在此頁面上，我們將描述如何建立自訂資料來源類別，並顯示一些使用範例。透過自訂資料來源，您可以使用適用於 Python (Boto3) 的 SageMaker AI SDK 提供的 APIs，就像您使用 Amazon SageMaker Feature Store 提供的資料來源一樣。

若要使用自訂資料來源來使用特徵處理將資料轉換並擷取至特徵群組，您需要使用以下類別成員和函式來擴充 PySparkDataSource 類別。

data_source_name (字串)：資料來源的任意名稱。例如，Amazon Redshift，Snowflake，或 Glue 目錄 ARN。
data_source_unique_id (str)：一個唯一識別碼，指被存取的特定資源。例如，資料表名稱，DDB 資料表 ARN，Amazon S3 字首。自訂資料來源中的所有相同 data_source_unique_id 的用法都會與歷程檢視中的相同資料來源相關聯。歷程包含有關特徵處理工作流程的執行程式碼、使用的資料來源以及如何將其擷取特徵群組或特徵的資訊。如需在 Studio 中檢視特徵群組歷程的相關資訊，請參閱從主控台檢視歷程。
read_data (函式)：用於使用特徵處理器連接的方法。返回 Spark 資料框架。如需範例，請參閱自訂資料來源範例。

data_source_name 和 data_source_unique_id 都可用來唯一識別碼歷程實體。以下是名為 CustomDataSource 的自訂資料來源類別的範例。


from sagemaker.feature_store.feature_processor import PySparkDataSource
from pyspark.sql import DataFrame

class CustomDataSource(PySparkDataSource):
    
    data_source_name = "custom-data-source-name"
    data_source_unique_id = "custom-data-source-id"
    
    def read_data(self, parameter, spark) -> DataFrame:
        your own code here to read data into a Spark dataframe
        return dataframe

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

特徵處理器 SDK 資料來源

自訂資料來源範例

下一個主題：

自訂資料來源範例

上一個主題：

特徵處理器 SDK 資料來源

需要協助？

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定

自訂資料來源

下一個主題：

上一個主題：

需要協助？

Related resources

此頁面是否有幫助？

Related resources