Controle o fluxo de objetos de dados enviados aos trabalhadores - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Controle o fluxo de objetos de dados enviados aos trabalhadores

Dependendo do tipo de trabalho de rotulagem que você criar, o Amazon SageMaker Ground Truth envia objetos de dados aos trabalhadores em lotes ou em streaming. Você pode controlar o fluxo dos objetos de dados para os trabalhadores das seguintes maneiras:

  • Para os dois tipos de trabalhos de rotulagem, você pode usar o MaxConcurrentTaskCount para controlar o número total de objetos de dados disponíveis para todos os trabalhadores em um determinado momento em que o trabalho de rotulagem está em execução.

  • Para trabalhos de etiquetagem de streaming, você pode controlar o fluxo de objetos de dados para os trabalhadores monitorando e controlando o número de objetos de dados enviados para a Amazon SQS associados ao seu trabalho de etiquetagem.

Use as seguintes seções para saber mais sobre essas opções.

Use MaxConcurrentTaskCount para controlar o fluxo de objetos de dados

MaxConcurrentTaskCountdefine o número máximo de objetos de dados disponíveis ao mesmo tempo na fila de tarefas do portal do trabalhador. Se você usar o console, esse parâmetro será definido como 1.000. Se você usarCreateLabelingJob, você pode definir esse parâmetro para qualquer número inteiro entre 1 e 5.000, inclusive.

Use o exemplo a seguir para entender melhor como o número de entradas em seu arquivo de manifestoNumberOfHumanWorkersPerDataObject, o e o MaxConcurrentTaskCount definem quais tarefas os trabalhadores veem em sua fila de tarefas na interface do usuário do portal do trabalhador.

  1. Você tem um arquivo de manifesto de entrada com 600 entradas.

  2. Para cada entrada em seu arquivo de manifesto de entrada, você pode usar NumberOfHumanWorkersPerDataObject para definir o número de trabalhadores humanos que rotularão uma entrada do seu arquivo de manifesto de entrada. Neste exemplo, você define NumberOfHumanWorkersPerDataObject igual a 3. Isso criará 3 tarefas diferentes para cada entrada no arquivo de manifesto de entrada. Além disso, para ser marcado como rotulado com sucesso, pelo menos 3 trabalhadores diferentes devem rotular o objeto. Isso cria um total de 1.800 tarefas (600 x 3) a serem concluídas pelos trabalhadores.

  3. Você deseja que os trabalhadores vejam apenas 100 tarefas por vez em sua fila na interface do usuário do portal do trabalhador. Para fazer isso, você define MaxConcurrentTaskCount igual a 100. Em seguida, o Ground Truth preencherá a fila de tarefas do portal do trabalhador com 100 tarefas por trabalhador.

  4. O que acontece a seguir depende do tipo de tarefa de rotulagem que você está criando e se é uma tarefa de rotulagem de streaming.

    • Trabalho de rotulagem de streaming: desde que o número total de objetos disponíveis para os trabalhadores seja igual aMaxConcurrentTaskCount, todos os objetos restantes do conjunto de dados em seu arquivo de manifesto de entrada e que você envia em tempo real usando a Amazon SNS são colocados em uma SQS fila da Amazon. Quando o número total de objetos disponíveis para os trabalhadores fica abaixo de MaxConcurrentTaskCount menosNumberOfHumanWorkersPerDataObject, um novo objeto de dados da fila é usado para criar NumberOfHumanWorkersPerDataObject -tasks, que são enviadas aos trabalhadores em tempo real.

    • Trabalho de rotulagem sem streaming: à medida que os trabalhadores terminam de rotular um conjunto de objetos, até MaxConcurrentTaskCountvezes o número NumberOfHumanWorkersPerDataObject de novas tarefas será enviado aos trabalhadores . Esse processo é repetido até que todos os objetos de dados no arquivo manifesto de entrada sejam rotulados.

Use SQS a Amazon para controlar o fluxo de objetos de dados para trabalhos de rotulagem de streaming

Quando você cria um trabalho de rotulagem de streaming, uma SQS fila da Amazon é criada automaticamente em sua conta. Os objetos de dados só são adicionados à SQS fila da Amazon quando o número total de objetos enviados aos trabalhadores está acimaMaxConcurrentTaskCount. Caso contrário, os objetos são enviados diretamente aos trabalhadores.

Você pode usar essa fila para gerenciar o fluxo de objetos de dados para a tarefa de etiquetagem. Para saber mais, consulte Gerencie solicitações de etiquetagem com uma SQS fila da Amazon.