API do programador do crawler - AWS Glue

API do programador do crawler

A API Crawler scheduler descreve os tipos de dados de crawler do AWS Glue, juntamente com a API para criar, excluir, atualizar e listar crawlers.

Tipos de dados

Estrutura Schedule

Um objeto de programação que usa uma instrução cron para programar um evento.

Campos
  • ScheduleExpression – String UTF-8.

    Uma expressão cron usada para especificar a programação (consulte Programações baseadas em hora para tarefas e crawlers. Por exemplo, para executar algo todos os dias às 12h15 UTC, especifique: cron(15 12 * * ? *).

  • State – String UTF-8 (valores válidos: SCHEDULED | NOT_SCHEDULED | TRANSITIONING).

    O estado da programação.

Operações

Ação UpdateCrawlerSchedule (Python: update_crawler_schedule)

Atualiza a programação de um crawler usando uma expressão cron.

Solicitação
  • CrawlerNameObrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome do crawler cuja programação será atualizada.

  • Schedule – String UTF-8.

    A expressão cron atualizada usada para especificar a programação (consulte Programações baseadas em hora para tarefas e crawlers). Por exemplo, para executar algo todos os dias às 12h15 UTC, especifique: cron(15 12 * * ? *).

Resposta
  • Nenhum parâmetro de resposta.

Erros
  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • SchedulerTransitioningException

  • OperationTimeoutException

Ação StartCrawlerSchedule (Python: start_crawler_schedule)

Altera o estado da programação do crawler especificado para SCHEDULED, a menos que ele já esteja em execução ou o estado da programação já seja SCHEDULED.

Solicitação
  • CrawlerNameObrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.

    Nome do crawler a ser programado.

Resposta
  • Nenhum parâmetro de resposta.

Erros
  • EntityNotFoundException

  • SchedulerRunningException

  • SchedulerTransitioningException

  • NoScheduleException

  • OperationTimeoutException

Ação StopCrawlerSchedule (Python: stop_crawler_schedule)

Define o estado da programação do crawler especificado para NOT_SCHEDULED, mas não o interrompe se já estiver em execução.

Solicitação
  • CrawlerNameObrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.

    Nome do crawler cujo estado da programação será definido.

Resposta
  • Nenhum parâmetro de resposta.

Erros
  • EntityNotFoundException

  • SchedulerNotRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException