Fontes de dados personalizadas

Nesta página, descreveremos como criar uma classe de fonte de dados personalizada e mostraremos alguns exemplos de uso. Com fontes de dados personalizadas, você pode usar o SageMaker SDK for Python (Boto3) fornecido APIs da mesma forma como se estivesse usando fontes de dados fornecidas pela Amazon SageMaker Feature Store.

Para usar uma fonte de dados personalizada para transformar e ingerir dados em um grupo de atributos usando o Processamento de atributos, você precisará estender a classe PySparkDataSource com os seguintes membros e funções da classe.

data_source_name (str): um nome arbitrário para a fonte de dados. Por exemplo, Amazon Redshift, Snowflake ou Glue Catalog. ARN
data_source_unique_id (str): um identificador exclusivo que se refere ao recurso específico que está sendo acessado. Por exemplo, nome da tabela, DDB tabelaARN, prefixo do Amazon S3. Todo o uso do mesmo data_source_unique_id em fontes de dados personalizadas será associado à mesma fonte de dados na visualização de linhagem. A linhagem inclui informações sobre o código de execução de um fluxo de trabalho de processamento de atributos, quais fontes de dados foram usadas e como elas são ingeridas no grupo de atributos ou no atributo. Para obter informações sobre a visualização da linhagem de um grupo de recursos no Studio, consulteVeja a linhagem no console.
read_data (func): um método usado para se conectar ao processador de atributos. Retorna um estrutura de dados do Spark. Para obter exemplos, consulte Exemplos de fontes de dados personalizadas.

Ambos data_source_name data_source_unique_id são usados para identificar de forma exclusiva sua entidade de linhagem. Veja a seguir um exemplo de uma classe de fonte de dados personalizada chamada CustomDataSource.


from sagemaker.feature_store.feature_processor import PySparkDataSource
from pyspark.sql import DataFrame

class CustomDataSource(PySparkDataSource):
    
    data_source_name = "custom-data-source-name"
    data_source_unique_id = "custom-data-source-id"
    
    def read_data(self, parameter, spark) -> DataFrame:
        your own code here to read data into a Spark dataframe
        return dataframe

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Fontes de SDK dados do Feature Processor

Exemplos de fontes de dados personalizadas