Concatenazione di processi di etichettatura - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Concatenazione di processi di etichettatura

Amazon SageMaker Ground Truth può riutilizzare i set di dati di lavori precedenti in due modi: clonazione e concatenamento.

La modalità clonazione copia la configurazione di un processo di etichettatura precedente e consente di apportare ulteriori modifiche, prima di impostarla per l'esecuzione.

La modalità concatenazione utilizza non solo la configurazione del processo precedente, ma anche i risultati. Questo consente di proseguire un processo non completato e di aggiungere etichette o oggetti dati a un processo completato. La concatenazione è un'operazione più complessa.

Per l’elaborazione dei dati:

  • La clonazione utilizza il manifest di input del processo precedente, con modifiche facoltative, come manifest di input del nuovo processo.

  • La concatenazione usa il manifest di output del processo precedente come manifest di input del nuovo processo.

La concatenazione è utile quando è necessario:

  • Proseguire un processo di etichettatura che è stato interrotto manualmente.

  • Continuare un processo di etichettatura che non è riuscito a metà processo, dopo aver risolto i problemi.

  • Passare all'etichettatura dei dati automatica dopo avere etichettato manualmente una parte di un processo (o viceversa).

  • Aggiungere altri più oggetti dati a un processo completato e avviare il processo da quel punto.

  • Aggiungere un'altra annotazione a un processo completato. Se ad esempio hai una raccolta di frasi etichettate per argomento e vuoi eseguire di nuovo il set, classificandole in base al pubblico implicito dell'argomento.

In Amazon SageMaker Ground Truth puoi configurare un processo di etichettatura concatenato con la console o il. API

Termine chiave: nome attributo dell’etichetta

Il nome dell'attributo label (LabelAttributeNameinAPI) è una stringa utilizzata come chiave per la coppia chiave-valore formata con l'etichetta che un lavoratore assegna all'oggetto dati.

Per il nome attributo dell’etichetta si applicano le seguenti regole:

  • Tale nome non può terminare con -metadata.

  • I nomi source e source-ref sono riservati e non possono essere utilizzati.

  • Per i processi di etichettatura di segmentazione semantica, deve finire con -ref. Per tutti gli altri processi di etichettatura, non può finire con -ref. Se utilizzi la console per creare il lavoro, Amazon SageMaker Ground Truth aggiunge automaticamente -ref a tutti i nomi degli attributi delle etichette ad eccezione dei lavori di segmentazione semantica.

  • Per un processo di etichettatura concatenato, se usi lo stesso nome attributo dell’etichetta del processo originario e configuri il processo concatenato per l'utilizzo dell'etichettatura automatica, se a un certo punto è stata usata la modalità di etichettatura automatica, Ground Truth utilizza il modello del processo originario.

In un manifest di output, il nome attributo dell’etichetta appare simile al seguente.

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

Se crei un processo nella console, Ground Truth usa il nome del processo come nome attributo dell’etichetta per il processo, se non imposti esplicitamente un altro valore.

Avvio di un processo concatenato (Console)

Seleziona un processo di etichettatura arrestato, non riuscito o completato nell'elenco dei processi esistenti. Viene abilitato il menu Azioni.

Nel menu Azioni scegli Copia.

Riquadro panoramica dei processi

Nel riquadro Panoramica dei processi viene impostato un nuovo Nome del processo in base al titolo del processo da cui si concatena quello corrente. Puoi modificarlo.

Puoi anche specificare un nome dell'attributo etichetta diverso dal nome del processo di etichettatura.

Se esegui la concatenazione da un processo completato, il nome dell'attributo etichetta utilizza il nome del nuovo processo che stai configurando. Per cambiare il nome, seleziona la casella di controllo.

Se esegui la concatenazione da un processo arrestato o non riuscito, il nome dell'attributo etichetta utilizza il nome del processo di origine della concatenazione. Il valore può essere visualizzato e modificato facilmente perché la casella di controllo relativa al nome è selezionata.

Considerazioni relative al nome attributo dell’etichetta
  • Per impostazione predefinita viene utilizzato il nome attributo etichetta selezionato da Ground Truth. Tutti gli oggetti dati senza dati connessi a tale nome attributo etichetta vengono etichettati.

  • Quando si usa un nome attributo etichetta non presente nel manifest, il processo elabora tutti gli oggetti nel set di dati.

La posizione del set di dati di input in questo caso viene selezionata automaticamente come manifest di output del processo concatenato. Il campo di input non è disponibile, quindi non è modificabile.

Aggiunta di oggetti dati a un processo di etichettatura

Non è possibile specificare un file manifest alternativo. Modifica manualmente il manifest di output del processo precedente per aggiungere nuovi elementi prima di avviare un processo concatenato. Amazon S3 ti URI aiuta a localizzare dove stai archiviando il manifesto nel tuo bucket Amazon S3. Scarica il file manifest da lì, modificalo in locale nel tuo computer, quindi carica la nuova versione per sostituirlo. Assicurati di non introdurre errori durante la modifica. Ti consigliamo di utilizzare JSON linter per controllare il tuo. JSON Sono disponibili molti editor di testo popolari e IDEs plugin linter.

Avvia un Job concatenato () API

La procedura è quasi uguale alla configurazione di un nuovo processo di etichettatura mediante CreateLabelingJob, ma vi sono due importanti differenze.

  • Posizione del manifesto: anziché utilizzare il manifesto originale del processo precedente, il valore di ManifestS3Uri in the DataSource dovrebbe puntare ad Amazon S3 URI del manifesto di output del processo di etichettatura precedente.

  • Nome attributo dell’etichetta: qui è importante impostare il valore LabelAttributeName corretto. Si tratta della chiave nella coppia chiave-valore in cui i dati di etichettatura sono il valore. Ecco alcuni esempi di casi d'uso:

    • Aggiunta di etichette nuove o più specifiche per un processo completato: imposta un nuovo nome dell'attributo etichetta.

    • Etichettatura di elementi non etichettati da un processo precedente: usa il nome dell'attributo etichetta del processo precedente.

Utilizzo di set di dati parzialmente etichettati

Puoi ottenere alcuni vantaggi di concatenazione se utilizzi un manifest aumentato che è già stato parzialmente etichettato. Seleziona la casella di controllo Nome attributo dell’etichetta e imposta il nome in modo che corrisponda al nome nel manifest.

Se utilizzi ilAPI, le istruzioni sono le stesse di quelle per iniziare un lavoro concatenato. Devi però caricare il tuo manifest in un bucket Amazon S3 e utilizzarlo, invece di utilizzare il manifest di output di un processo precedente.

Il valore Nome attributo dell’etichetta nel manifest deve rispettare i requisiti di denominazione illustrati sopra.