Encadeamento de trabalhos de rotulagem - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Encadeamento de trabalhos de rotulagem

O Amazon SageMaker Ground Truth pode reutilizar conjuntos de dados de trabalhos anteriores de duas maneiras: clonagem e encadeamento.

A clonagem copia a configuração de um trabalho de rotulagem anterior e permite que você faça alterações adicionais antes de configurá-lo para execução.

O encadeamento usa não somente a configuração do trabalho anterior, mas também os resultados. Isso permite que você continue um trabalho incompleto e adicione rótulos ou objetos de dados a um trabalho concluído. O encadeamento é uma operação mais complexa.

Para o processamento de dados:

  • A clonagem usa o manifesto de entrada do trabalho anterior, com modificações opcionais, como o manifesto de entrada do novo trabalho.

  • O Encadeamento usa o manifesto de saída do trabalho anterior como o manifesto de entrada do novo trabalho.

O encadeamento é útil quando é necessário:

  • Continuar um trabalho de rotulagem que foi interrompido manualmente.

  • Continue um trabalho de rotulagem que teve uma falha no meio dele, depois de corrigir os problemas.

  • Alternar para a rotulagem de dados automatizada após rotular manualmente parte de um trabalho (ou vice-versa).

  • Adicionar mais objetos de dados a um trabalho concluído e iniciar o trabalho a partir de então.

  • Adicionar outra anotação a uma tarefa concluída. Por exemplo, você tem uma coleção de frases marcadas para o tópico e, em seguida, deseja executar o conjunto novamente, categorizando-as pelo público-alvo implícito do tópico.

No Amazon SageMaker Ground Truth, você pode configurar um trabalho de etiquetagem em cadeia com o console ou o. API

Termo-chave: nome do atributo de rótulo

O nome do atributo label (LabelAttributeNamenoAPI) é uma string usada como chave para o par de valores-chave formado com o rótulo que um trabalhador atribui ao objeto de dados.

As regras a seguir se aplicam ao nome do atributo de rótulo:

  • Ele não pode terminar com -metadata.

  • Os nomes source e source-ref são reservados e não podem ser usados.

  • Para trabalhos de rotulagem de segmentação semântica,, ele deve terminar com -ref. Para todos os outros trabalhos de rotulagem, ele não pode terminar com -ref. Se você usar o console para criar o trabalho, o Amazon SageMaker Ground Truth anexará automaticamente -ref a todos os nomes de atributos do rótulo, exceto os trabalhos de segmentação semântica.

  • Para um trabalho de rotulagem encadeada, se você estiver usando o mesmo nome de atributo do rótulo do trabalho de origem e configurar o trabalho encadeado para usar a rotulagem automática, então, se ele estiver no modo de rotulagem automática em algum momento, o Ground Truth usará o modelo do trabalho de origem.

Em um manifesto de saída, o nome do atributo de rótulo é semelhante ao seguinte:

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

Se você estiver criando um trabalho no console e não definir explicitamente o valor do nome de atributo do rótulo, o Ground Truth usará o nome do trabalho como o nome de atributo do rótulo do trabalho.

Iniciar um trabalho encadeado (Console)

Selecione um trabalho de rotulagem interrompido, com falha ou concluído na lista de seus trabalhos existentes. Isso habilita o menu Ações.

No menu Ações, escolha Cadeia.

Painel de visão geral do trabalho

No painel Job overview (Visão geral do trabalho), um novo Job name (Nome do trabalho) é definido com base no título do trabalho a partir do qual você está encadeando este. Você pode alterá-lo.

Você também pode especificar um nome do atributo de rótulo diferente do nome do trabalho de rotulagem.

Se você estiver encadeando um trabalho concluído, o nome do atributo de rótulo usará o nome do novo trabalho que você está configurando. Para alterar o nome, marque a caixa de seleção.

Se você estiver encadeando um trabalho interrompido ou com falha, o nome do atributo de rótulo será usado para o nome do trabalho a partir do qual você está encadeando. É fácil ver e editar o valor porque a caixa de seleção de nome fica marcada.

Considerações sobre nomenclatura de atributo de rótulo
  • O padrão usa o nome de atributo do rótulo que o Ground Truth seleciona. Todos os objetos de dados sem dados conectados a esse nome do atributo de rótulo são rotulados.

  • Usar um nome do atributo de rótulo não presente no manifesto faz com que a tarefa processe todos os objetos no conjunto de dados.

O local do conjunto de dados de entrada, nesse caso, é selecionado automaticamente como o manifesto de saída do trabalho encadeado. O campo de entrada não fica disponível, portanto você não pode alterá-lo.

Adição de objetos de dados a um trabalho de rotulagem

Você não pode especificar um arquivo de manifesto alternativo Edite manualmente o manifesto de saída do trabalho anterior para adicionar novos itens antes de iniciar um trabalho encadeado. O Amazon S3 URI ajuda você a localizar onde você está armazenando o manifesto em seu bucket do Amazon S3. Faça o download do arquivo manifesto ali, edite-o localmente no seu computador e, em seguida, faça o upload da nova versão para substituí-lo. Certifique-se de não estar introduzindo erros durante a edição. Recomendamos que você use o JSON linter para verificar seuJSON. Muitos editores de texto populares têm plug-ins de IDEs linter disponíveis.

Comece um trabalho em cadeia () API

O procedimento é quase o mesmo que configurar um novo trabalho de rotulagem com CreateLabelingJob, exceto por duas diferenças principais:

  • Local do manifesto: em vez de usar seu manifesto original do trabalho anterior, o valor do ManifestS3Uri in the DataSource deve apontar para o Amazon S3 URI do manifesto de saída do trabalho de rotulagem anterior.

  • Nome do atributo de rótulo: Aqui, definir o valor LabelAttributeName correto é importante. Essa é a parte fundamental de um par de valor-chave em que os dados de rotulagem são o valor. Exemplo de casos de uso incluem:

    • Adicionar rótulos novos ou mais específicos a um trabalho concluído — defina um novo nome de atributo do rótulo.

    • Rotular os itens não rotulados de um trabalho anterior — use o nome de atributo do rótulo do trabalho anterior.

Usar um conjunto de dados parcialmente rotulado

Você pode obter alguns benefícios de encadeamento se usar um manifesto aumentado que já tenha sido parcialmente rotulado. Marque a caixa de seleção Label attribute name (Nome do atributo de rótulo) e defina o nome para que corresponda ao nome em seu manifesto.

Se você estiver usando oAPI, as instruções são as mesmas para iniciar um trabalho em cadeia. No entanto, certifique-se de carregar o manifesto em um bucket do Amazon S3 e usá-lo em vez de usar o manifesto de saída de um trabalho anterior.

O valor do Nome de atributo do rótulo no manifesto deve estar de acordo com as considerações de nomenclatura discutidas acima.