Crie um cronograma para processar automaticamente novos dados - Amazon SageMaker

Crie um cronograma para processar automaticamente novos dados

nota

A seção a seguir se aplica somente às tarefas de processamento do SageMaker. Se você usou as configurações padrão do Canvas ou o EMR com tecnologia sem servidor para criar um trabalho remoto para aplicar transformações em seu conjunto de dados completo, esta seção não se aplica.

Se você estiver processando dados periodicamente, poderá criar um cronograma para executar o trabalho de processamento automaticamente. Por exemplo, você pode criar uma programação que execute um trabalho de processamento automaticamente quando você obtiver novos dados. Para obter mais informações sobre o processamento de trabalhos, consulte Exportar para o Amazon S3..

Ao criar um trabalho, você deve especificar um perfil do IAM que tenha permissões para criar o trabalho. Você pode usar a política AmazonSageMakerCanvasDataRepFullAccess para adicionar permissões.

Adicione a seguinte política de confiança à função para permitir que a EventBridge a assuma:

{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
Importante

Quando você cria uma agenda, o Data Wrangler cria uma no eventRule EventBridge. Você incorre em cobranças pelas regras de eventos que você cria e pelas instâncias usadas para executar o trabalho de processamento.

Para obter informações sobre preços do EventBridge, consulte Preços do Amazon EventBridge. Para obter informações sobre os preços dos trabalhos de processamento, consulte os preços do Amazon SageMaker.

É possível criar uma programação usando um dos seguintes métodos:

  • Expressões CRON

    nota

    O Data Wrangler não é compatível com as seguintes expressões:

    • LW#

    • Abreviações para dias

    • Abreviações para meses

  • Expressões RATE

  • Recorrente: defina um intervalo de hora em hora ou diário para executar o trabalho.

  • Horário específico: defina dias e horários específicos para executar o trabalho.

As seções a seguir fornecem procedimentos sobre o agendamento de trabalhos ao preencher as configurações do trabalho de processamento do SageMaker ao exportar seus dados para o Amazon S3. Todas as instruções a seguir começam na seção Agendamentos associados das configurações da tarefa de processamento do SageMaker.

CRON

Use o procedimento a seguir para criar uma agenda com uma expressão CRON.

  1. No painel lateral Exportar para o Amazon S3, verifique se você desativou a opção Configuração automática de tarefas e selecionou a opção Processamento do SageMaker.

  2. Nas configurações da tarefa de Processamento do SageMaker, abra a seção Associar programações e escolha Criar programação.

  3. A caixa de diálogo Criar um novo perfil é aberta. Em Nome do agendamento, especifique o nome do agendamento.

  4. Em Frequência de execução, escolha CRON.

  5. Para cada um dos campos Minutos, Horas, Dias do mês, Mês e Dia da semana, insira valores de expressão CRON válidos.

  6. Escolha Criar.

  7. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  8. Escolha uma das seguintes opções:

    • Agende e execute agora: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: o trabalho só é executado nas programações que você especificar.

  9. Escolha Exportar depois de preencher o restante das configurações do trabalho de exportação.

RATE

Use o procedimento a seguir para criar uma programação com uma expressão RATE.

  1. No painel lateral Exportar para o Amazon S3, verifique se você desativou a opção Configuração automática de tarefas e selecionou a opção Processamento do SageMaker.

  2. Nas configurações da tarefa de Processamento do SageMaker, abra a seção Associar programações e escolha Criar programação.

  3. A caixa de diálogo Criar um novo perfil é aberta. Em Nome do agendamento, especifique o nome do agendamento.

  4. Em Frequência de execução, escolha Taxa.

  5. Em Valor, especifique um valor inteiro.

  6. Em Unidade, selecione uma das seguintes opções:

    • Minutos

    • Horas

    • Dias

  7. Escolha Criar.

  8. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  9. Escolha uma das seguintes opções:

    • Agende e execute agora: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: o trabalho só é executado nas programações que você especificar.

  10. Escolha Exportar depois de preencher o restante das configurações do trabalho de exportação.

Recurring

Use o procedimento a seguir para criar um cronograma que execute um trabalho de forma recorrente.

  1. No painel lateral Exportar para o Amazon S3, verifique se você desativou a opção Configuração automática de tarefas e selecionou a opção Processamento do SageMaker.

  2. Nas configurações da tarefa de Processamento do SageMaker, abra a seção Associar programações e escolha Criar programação.

  3. A caixa de diálogo Criar um novo perfil é aberta. Em Nome do agendamento, especifique o nome do agendamento.

  4. Em Frequência de execução, escolha Recorrente.

  5. Para Cada x horas, especifique a frequência horária com que o trabalho é executado durante o dia. Os valores válidos são números inteiros no intervalo inclusivo de 1 e 23.

  6. Para Em dias, escolha uma das seguintes opções:

    • Todos os dias

    • Finais de semana

    • Dias da semana

    • Selecionar dias

    1. (Opcional) Se você selecionou Selecionar dias, escolha os dias da semana para executar o trabalho.

    nota

    A programação é reiniciada todos os dias. Se você agendar um trabalho para ser executado a cada cinco horas, ele será executado nos seguintes horários do dia:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  7. Escolha Criar.

  8. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  9. Escolha uma das seguintes opções:

    • Agende e execute agora: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: o trabalho só é executado nas programações que você especificar.

  10. Escolha Exportar depois de preencher o restante das configurações do trabalho de exportação.

Specific time

Use o procedimento a seguir para criar uma programação que execute um trabalho em horários específicos.

  1. No painel lateral Exportar para o Amazon S3, verifique se você desativou a opção Configuração automática de tarefas e selecionou a opção Processamento do SageMaker.

  2. Nas configurações da tarefa de Processamento do SageMaker, abra a seção Associar programações e escolha Criar programação.

  3. A caixa de diálogo Criar um novo perfil é aberta. Em Nome do agendamento, especifique o nome do agendamento.

  4. Em Frequência de execução, escolha Hora de início.

  5. Em Hora de início, insira uma hora no formato UTC (por exemplo, 09:00). O horário de início é padronizado para o fuso horário em que você está localizado.

  6. Para Em dias, escolha uma das seguintes opções:

    • Todos os dias

    • Finais de semana

    • Dias da semana

    • Selecionar dias

    1. (Opcional) Se você selecionou Selecionar dias, escolha os dias da semana para executar o trabalho.

  7. Escolha Criar.

  8. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  9. Escolha uma das seguintes opções:

    • Agende e execute agora: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: o trabalho só é executado nas programações que você especificar.

  10. Escolha Exportar depois de preencher o restante das configurações do trabalho de exportação.

Você pode usar o SageMaker AWS Management Console para ver os trabalhos que estão programados para execução. Seus trabalhos de processamento são executados dentro do Pipelines. Cada trabalho de processamento tem seu próprio pipeline. Ele é executado como uma etapa de processamento dentro do pipeline. Você pode ver as agendas que você criou em um funil. Para obter informações sobre como visualizar um pipeline, consulte Visualizar os detalhes de um pipeline.

Use o procedimento a seguir para visualizar os trabalhos que você programou.

Para obter os trabalhos que você programou, faça o seguinte:

  1. Abra o Amazon SageMaker Studio Classic.

  2. Abra o Pipelines

  3. Veja os pipelines dos trabalhos que você criou.

    O pipeline que executa o trabalho usa o nome do trabalho como prefixo. Por exemplo, se você criou um trabalho chamado housing-data-feature-enginnering, o nome do pipeline é canvas-data-prep-housing-data-feature-engineering.

  4. Escolha o pipeline que contém seu trabalho.

  5. Visualize o status dos pipelines. Pipelines com status de Bem-sucedido executaram o trabalho de processamento com êxito.

Para interromper a execução do trabalho de processamento, faça o seguinte:

Para interromper a execução de um trabalho de processamento, exclua a regra de evento que especifica a programação. A exclusão de uma regra de evento interrompe a execução de todos os trabalhos associados à programação. Para obter informações sobre a exclusão de uma regra, consulte Como desativar ou excluir uma regra do Amazon EventBridge.

Você também pode interromper e excluir os pipelines associados aos agendamentos. Para obter informações sobre como interromper um pipeline, consulte StopPipelineExecution. Para obter mais informações sobre exclusão de um pipeline, consulte DeletePipeline.