Configure seu pipeline

É recomendável usar o arquivo de configuração do SageMaker AI para definir os padrões do pipeline. Para obter informações sobre o arquivo de configuração do SageMaker AI, consulte Como configurar e usar padrões com o SDK do Python SageMaker . Qualquer configuração adicionada ao arquivo de configuração se aplica a todas as etapas do pipeline. Se você quiser substituir as opções de alguma etapa, forneça novos valores nos argumentos do decorador @step. O tópico a seguir descreve como configurar um arquivo de configuração.

A configuração do decorador @step no arquivo de configuração é idêntica à configuração do decorador @remote. Para configurar o ARN da função do pipeline e as tags do pipeline no arquivo de configuração, use a seção Pipeline mostrada no seguinte trecho:


SchemaVersion: '1.0'
SageMaker:
  Pipeline:
    RoleArn: 'arn:aws:iam::555555555555:role/IMRole'
    Tags:
    - Key: 'tag_key'
      Value: 'tag_value'

Para a maioria dos padrões que você pode definir no arquivo de configuração, você também pode substituir passando novos valores para o decorador @step. Por exemplo, é possível substituir o tipo de instância definido no arquivo de configuração da etapa de pré-processamento, conforme mostrado no seguinte exemplo:


@step(instance_type="ml.m5.large")
def preprocess(raw_data):
    df = pandas.read_csv(raw_data)
    ...
    return procesed_dataframe

Alguns argumentos não fazem parte da lista de parâmetros do @step decorador. Eles só podem ser configurados para todo o pipeline por meio do arquivo de configuração do SageMaker AI. Eles estão listados a seguir:

sagemaker_session(sagemaker.session.Session): A sessão de SageMaker IA subjacente à qual a SageMaker IA delega chamadas de serviço. Se não for especificado, uma sessão será criada usando a seguinte configuração padrão:
```
SageMaker:
  PythonSDK:
    Modules:
      Session:
        DefaultS3Bucket: 'default_s3_bucket'
        DefaultS3ObjectKeyPrefix: 'key_prefix'
```
custom_file_filter (CustomFileFilter): um objeto CustomFileFilter que especifica os diretórios e arquivos locais a serem incluídos na etapa do pipeline. Se não for especificado, esse valor terá o padrão None. Para custom_file_filter entrar em vigor, você deve definir IncludeLocalWorkdir como True. O exemplo a seguir mostra uma configuração que ignora todos os arquivos do caderno e os arquivos e diretórios chamados data.
```
SchemaVersion: '1.0'
SageMaker:
  PythonSDK:
    Modules:
      RemoteFunction:
        IncludeLocalWorkDir: true
        CustomFileFilter: 
          IgnoreNamePatterns: # files or directories to ignore
          - "*.ipynb" # all notebook files
          - "data" # folder or file named "data"
```
Para obter mais detalhes sobre como usar IncludeLocalWorkdir com CustomFileFilter, consulte Como usar o código modular com o decorador @remote.
s3_root_uri (str): a pasta raiz do Amazon S3 para a qual a SageMaker IA carrega os arquivos de código e os dados. Se não for especificado, o bucket de SageMaker IA padrão será usado.
s3_kms_key (str): a chave usada para criptografar os dados de entrada e saída. Você só pode configurar esse argumento no arquivo de configuração do SageMaker AI e o argumento se aplica a todas as etapas definidas no pipeline. Se não especificado, o valor padrão é None. Veja o seguinte trecho para ver um exemplo de configuração de chave do KMS do S3:
```
SchemaVersion: '1.0'
SageMaker:
  PythonSDK:
    Modules:
      RemoteFunction:
        S3KmsKeyId: 's3kmskeyid'
        S3RootUri: 's3://amzn-s3-demo-bucket/my-project
```

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Execute um pipeline

Práticas recomendadas