Addestramento dell'etichettatura dei dati utilizzando esseri umani con Amazon SageMaker Ground Truth - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Addestramento dell'etichettatura dei dati utilizzando esseri umani con Amazon SageMaker Ground Truth

Per addestrare un modello di machine learning, è necessario un set di dati etichettato di grandi dimensioni e di alta qualità. Ground Truth ti aiuta a creare set di dati di addestramento di alta qualità per i tuoi modelli di machine learning. Con Ground Truth, puoi utilizzare worker di Amazon Mechanical Turk, di un'azienda fornitrice di tua scelta o una forza lavoro interna, privata insieme a tecniche di machine learning per consentire la creazione di un set di dati etichettato. Puoi utilizzare l'output del set di dati etichettato di Ground Truth per eseguire l’addestramento dei tuoi modelli. Puoi anche utilizzare l'output come set di dati di addestramento per un SageMaker modello Amazon.

A seconda dell'applicazione ML in uso, è possibile scegliere tra uno dei tipi di attività Ground Truth integrate per consentire ai worker di generare tipi specifici di etichette per i dati. È inoltre possibile creare un flusso di lavoro di etichettatura personalizzato per fornire un'interfaccia utente e strumenti personalizzati ai worker che etichettano i dati. Per ulteriori informazioni sui tipi di attività Ground Truth integrati, consulta Tipi di attività incorporati. Per informazioni su come creare un flusso di lavoro di etichettatura personalizzato, consulta Flussi di lavoro di etichettatura personalizzati.

Per automatizzare l'etichettatura del set di dati di addestramento, puoi opzionalmente utilizzare etichettatura dei dati automatica, un processo Ground Truth che utilizza tecniche di machine learning per decidere quali dati devono essere etichettati dagli umani. L'etichettatura dei dati automatica può ridurre il tempo di etichettatura e l'impegno manuale richiesto. Per ulteriori informazioni, consulta Automatizza l'etichettatura dei dati. Per creare un flusso di lavoro di etichettatura personalizzato, consulta Flussi di lavoro di etichettatura personalizzati.

Utilizza strumenti precompilati o personalizzati per assegnare le attività di etichettatura per il set di dati di addestramento. Un modello di interfaccia utente di etichettatura è una pagina Web utilizzata da Ground Truth per presentare le attività e le istruzioni ai worker. La SageMaker console fornisce modelli integrati per l'etichettatura dei dati. Puoi utilizzare questi modelli per iniziare oppure creare attività e istruzioni personalizzate utilizzando i nostri componenti HTML 2.0. Per ulteriori informazioni, consulta Flussi di lavoro di etichettatura personalizzati.

Utilizzo della forza lavoro preferita per etichettare il set di dati. Puoi scegliere la forza lavoro tra:

  • La forza lavoro di Amazon Mechanical Turk composta da oltre 500.000 appaltatori indipendenti in tutto il mondo.

  • Una forza lavoro privata creata dai dipendenti o dagli appaltatori per la gestione dei dati all'interno dell'organizzazione.

  • Una società fornitrice che puoi trovare in the Marketplace AWS specializzata in servizi di etichettatura dei dati.

Per ulteriori informazioni, consulta Forza lavoro.

Archiviazione di set di dati in bucket Amazon S3. I bucket contengono: i dati da etichettare, un file manifest di input utilizzato da Ground Truth per leggere i file di dati e un file manifest di output. Il file di output contiene i risultati del processo di etichettatura. Per ulteriori informazioni, consulta Usa dati di input e output.

Gli eventi dei tuoi lavori di etichettatura vengono visualizzati in Amazon CloudWatch sotto il /aws/sagemaker/LabelingJobs gruppo. CloudWatch utilizza il nome del processo di etichettatura come nome per il flusso di log.

Utilizzi Ground Truth per la prima volta?

Se utilizzi Ground Truth per la prima volta, ti consigliamo di eseguire quanto segue:

  1. Leggi Guida introduttiva: crea un lavoro di etichettatura dei riquadri delimitatori con Ground Truth: questa sezione guida attraverso la configurazione del tuo primo processo di etichettatura Ground Truth.

  2. Esplora altri argomenti: in base alle tue esigenze, procedi nel seguente modo:

    • Esplora i tipi di attività predefiniti: utilizza i tipi di attività predefiniti per semplificare il processo di creazione di un processo di etichettatura. Per ulteriori informazioni sui tipi di attività Ground Truth integrati, consulta Tipi di attività incorporati.

    • Gestione della forza lavoro di etichettatura: crea nuovi team di lavoro e gestisci la forza lavoro esistente. Per ulteriori informazioni, consulta Forza lavoro.

    • Scopri i processi di etichettatura in streaming: crea un processo di etichettatura in streaming e invia nuovi oggetti del set di dati ai worker in tempo reale utilizzando un processo di etichettatura in esecuzione perpetua. I processi ricevono continuamente nuovi oggetti dati da etichettare finché il processo di etichettatura è attivo e gli vengono inviati nuovi oggetti. Per ulteriori informazioni, consulta Lavori di etichettatura in streaming Ground Truth.

  3. Per ulteriori informazioni sulle operazioni disponibili per automatizzare le operazioni di Ground Truth, consulta il API riferimento al SageMaker servizio.