Estrutura e execução do pipeline
Estrutura do pipeline
Uma instância do Amazon SageMaker Pipelines é composta por um name
, parameters
e steps
. Os nomes dos pipelines devem ser exclusivos dentro de um par (account, region)
. Todos os parâmetros usados nas definições de etapas devem ser definidos no pipeline. As etapas do pipeline listadas determinam automaticamente sua ordem de execução de acordo com as dependências de dados de umas com as outras. O serviço do Pipelines resolve as relações entre as etapas no DAG de dependência de dados para criar uma série de etapas que a execução conclui. Veja a seguir um exemplo de uma estrutura de pipeline:
from sagemaker.workflow.pipeline import Pipeline pipeline_name = f"AbalonePipeline" pipeline = Pipeline( name=pipeline_name, parameters=[ processing_instance_type, processing_instance_count, training_instance_type, model_approval_status, input_data, batch_data, ], steps=[step_process, step_train, step_eval, step_cond], )
Execução de pipeline usando configuração de paralelismo
Por padrão, um pipeline executa todas as etapas disponíveis para execução paralela. Você pode controlar esse comportamento usando a propriedade ParallelismConfiguration
ao criar ou atualizar um pipeline, bem como ao iniciar ou tentar a execução de um pipeline novamente.
As configurações de paralelismo são aplicadas por execução. Por exemplo, se duas execuções forem iniciadas, cada uma poderá executar no máximo 50 etapas simultaneamente, totalizando 100 etapas em execução simultânea. Além disso, as ParallelismConfiguration
s especificadas ao iniciar, tentar novamente ou atualizar uma execução têm precedência sobre as configurações de paralelismo definidas no pipeline.
exemplo Criar uma execução de pipeline com ParallelismConfiguration
pipeline = Pipeline( name="
myPipeline
", steps=[step_process, step_train] ) pipeline.create(role, parallelism_config={"MaxParallelExecutionSteps": 50})