Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Consolidamento delle annotazioni
Una annotazione è il risultato dell'attività di etichettatura di un singolo worker. Il consolidamento delle annotazioni combina le annotazioni di due o più worker in una singola etichetta per gli oggetti dati. Un'etichetta, che viene assegnata a ciascun oggetto nel set di dati, è una stima probabilistica di quel che dovrebbe essere l'etichetta vera. Ogni oggetto nel set di dati in genere dispone di più annotazioni, ma di una sola etichetta o di un solo set di etichette.
Puoi decidere quanti worker annotano ogni oggetto nel set di dati. L’uso di un numero maggiore di worker può aumentare la precisione delle etichette, ma aumenta anche il costo dell'etichettatura. Per ulteriori informazioni sui prezzi di Ground Truth, consulta i prezzi di Amazon SageMaker Ground Truth
Se utilizzi la SageMaker console Amazon per creare un processo di etichettatura, le seguenti sono le impostazioni predefinite per il numero di lavoratori che possono annotare gli oggetti:
-
Classificazione del testo: 3 worker
-
Classificazione delle immagini: 3 worker
-
Riquadri di delimitazione: 5 worker
-
Segmentazione semantica: 3 worker
-
Riconoscimento delle entità denominate: 3 worker
Quando utilizzi l'operazione CreateLabelingJob
, devi impostare il numero di worker che devono annotare ogni oggetto dati utilizzando il parametro NumberOfHumanWorkersPerDataObject
. Puoi sovrascrivere il numero predefinito di worker che annotano un oggetto dati utilizzando la console o l'operazione CreateLabelingJob
.
Ground Truth fornisce una funzione di consolidamento delle annotazioni per ciascuna delle attività di etichettatura predefinite: riquadro di delimitazione, classificazione delle immagini, riconoscimento delle entità denominate, segmentazione semantica e classificazione del testo. Le funzioni sono le seguenti:
-
Il consolidamento delle annotazioni multiclasse per la classificazione delle immagini e del testo utilizza una variante dell'approccio di massimizzazione dell'aspettativa (EM, Expectation Maximization)
alle annotazioni. Stima i parametri per ogni worker e utilizza l'inferenza bayesiana per stimare la vera classe in base alle annotazioni classe di singoli worker. -
L'annotazione riquadro di delimitazione consolida i riquadri di delimitazione da più worker. Individua i riquadri più simili da worker diversi in base all'indice di Jaccard
, o intersezione sopra unione, dei riquadri e ne calcola la media. -
Il consolidamento delle annotazioni di segmentazione semantica tratta ogni pixel in una singola immagine come una classificazione multiclasse. Considera le annotazioni pixel dei worker come "voti", con informazioni aggiuntive provenienti dai pixel circostanti incorporati applicando una funzione di sfumatura all'immagine.
-
Seleziona il testo dei cluster del riconoscimento delle entità denominate in base alla somiglianza di Jaccard e calcola i limiti di selezione in base alla modalità o alla mediana, se la modalità non è chiara. L'etichetta si risolve nell'etichetta di entità più assegnata nel cluster, interrompendo i vincoli per selezione casuale.
Puoi utilizzare altri algoritmi per consolidare le annotazioni. Per informazioni, consultare Creazione di funzioni di consolidamento delle annotazioni.