As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Fontes de dados personalizadas
Nesta página, descreveremos como criar uma classe de fonte de dados personalizada e mostraremos alguns exemplos de uso. Com fontes de dados personalizadas, você pode usar o SageMaker SDK for Python (Boto3) fornecido APIs da mesma forma como se estivesse usando fontes de dados fornecidas pela Amazon SageMaker Feature Store.
Para usar uma fonte de dados personalizada para transformar e ingerir dados em um grupo de atributos usando o Processamento de atributos, você precisará estender a classe PySparkDataSource
com os seguintes membros e funções da classe.
-
data_source_name
(str): um nome arbitrário para a fonte de dados. Por exemplo, Amazon Redshift, Snowflake ou Glue Catalog. ARN -
data_source_unique_id
(str): um identificador exclusivo que se refere ao recurso específico que está sendo acessado. Por exemplo, nome da tabela, DDB tabelaARN, prefixo do Amazon S3. Todo o uso do mesmodata_source_unique_id
em fontes de dados personalizadas será associado à mesma fonte de dados na visualização de linhagem. A linhagem inclui informações sobre o código de execução de um fluxo de trabalho de processamento de atributos, quais fontes de dados foram usadas e como elas são ingeridas no grupo de atributos ou no atributo. Para obter informações sobre a visualização da linhagem de um grupo de recursos no Studio, consulteVeja a linhagem no console. -
read_data
(func): um método usado para se conectar ao processador de atributos. Retorna um estrutura de dados do Spark. Para obter exemplos, consulte Exemplos de fontes de dados personalizadas.
Ambos data_source_name
data_source_unique_id
são usados para identificar de forma exclusiva sua entidade de linhagem. Veja a seguir um exemplo de uma classe de fonte de dados personalizada chamada CustomDataSource
.
from sagemaker.feature_store.feature_processor import PySparkDataSource from pyspark.sql import DataFrame class CustomDataSource(PySparkDataSource): data_source_name = "
custom-data-source-name
" data_source_unique_id = "custom-data-source-id
" def read_data(self, parameter, spark) -> DataFrame:your own code here to read data into a Spark dataframe
return dataframe