Consolidação de anotações - Amazon SageMaker

Consolidação de anotações

Uma anotação é o resultado da tarefa de rotulagem de um único operador. A consolidação de anotações combina as anotações de dois ou mais operadores em um único rótulo para seus objetos de dados. Um rótulo, que é atribuído a cada objeto no conjunto de dados, é uma estimativa probabilística do que o rótulo verdadeiro deva ser. Cada objeto no conjunto de dados geralmente tem várias anotações, mas somente um rótulo ou um conjunto de rótulos.

Você pode decidir quantos operadores devem anotar cada objeto no seu conjunto de dados. Mais operadores podem aumentar a precisão dos rótulos, mas também aumentam o custo de rotulagem. Para saber mais sobre os preços do Ground Truth, consulte os preços do Amazon SageMaker Ground Truth.

Se você usar o console do Amazon SageMaker para criar um trabalho de rotulagem, os seguintes valores serão os padrões para o número de operadores que podem anotar objetos:

  • Classificação de texto: três operadores

  • Classificação de imagens: três operadores

  • Caixas delimitadoras: cinco operadores

  • Segmentação semântica: três operadores

  • Reconhecimento de entidade nomeada: três operadores

Ao usar a operação CreateLabelingJob, você define o número de operadores que devem anotar cada objeto de dados usando o parâmetro NumberOfHumanWorkersPerDataObject. É possível substituir o número padrão de operadores que rotulam um objeto de dados usando o console ou a operação CreateLabelingJob.

O Ground Truth fornece uma função de consolidação de anotações para cada uma das tarefas de rotulagem predefinidas: caixa delimitadora, classificação de imagem, reconhecimento de entidade de nome, segmentação semântica e classificação de texto. Estas são as funções:

  • A consolidação de anotações em várias classes para classificação de texto e imagem usa uma variante da abordagem de Maximização de expectativa para anotações. Ela estima parâmetros para cada operador e usa a inferência bayesiana para estimar a classe real com base nas anotações de classe de operadores individuais.

  • A anotação de caixa delimitadora consolida caixas delimitadoras de vários operadores. Essa função encontra as caixas mais semelhantes de diferentes operadores com base no índice de Jaccard, ou na interseção sobre união, das caixas e calcula a média delas.

  • A consolidação de anotações de segmentação semântica trata cada pixel em uma única imagem como uma classificação de várias classes. Essa função trata as anotações de pixel dos operadores como "votos", com mais informações dos pixels adjacentes incorporados, aplicando uma função de suavização à imagem.

  • As seleções de texto de clusters de reconhecimento de entidade nomeada por similaridade de Jaccard e calcula os limites de seleção com base no modo ou na média, caso o modo não esteja claro. O rótulo é resolvido para o rótulo de entidade mais atribuído no cluster, quebrando os vínculos por seleção aleatória.

É possível usar outros algoritmos para consolidar anotações. Para ter mais informações, consulte Criação da função de consolidação de anotações.