Controlla il flusso di oggetti di dati inviati ai worker - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Controlla il flusso di oggetti di dati inviati ai worker

A seconda del tipo di lavoro di etichettatura creato, Amazon SageMaker Ground Truth invia oggetti di dati ai lavoratori in batch o in streaming. Puoi controllare il flusso di oggetti dati verso i worker nei modi seguenti:

  • Per entrambi i tipi di processo di etichettatura, puoi utilizzare MaxConcurrentTaskCount per controllare il numero totale di oggetti di dati disponibili per tutti i worker in un determinato momento in cui il processo di etichettatura è in esecuzione.

  • Per i lavori di etichettatura in streaming, puoi controllare il flusso di oggetti di dati verso i lavoratori monitorando e controllando il numero di oggetti dati inviati ad Amazon SQS associati al tuo lavoro di etichettatura.

Utilizza le seguenti sezioni per avere ulteriori informazioni su queste opzioni. Per ulteriori informazioni sui processi di etichettatura in streaming, consulta Processi di etichettatura in streaming Ground Truth.

Utilizzalo MaxConcurrentTaskCount per controllare il flusso di oggetti di dati

MaxConcurrentTaskCount definisce il numero massimo di oggetti di dati che possono essere etichettati contemporaneamente dai worker umani. Se utilizzi la console, questo parametro è impostato su 1.000. Se utilizzi CreateLabelingJob, puoi impostare questo parametro su qualsiasi numero intero compreso tra 1 e 1.000, inclusi.

Quando avvii un processo di etichettatura utilizzando un file manifesto di input, Ground Truth esegue le seguenti operazioni:

  1. Per ogni oggetto di dati elencato nel file manifesto di input, vengono create una o più attività, a seconda del valore specificato per NumberOfHumanWorkersPerDataObject. Ad esempio, se imposti su 3 il numero di worker per oggetto di dati, verranno create 3 attività per ogni oggetto del set di dati. Per essere contrassegnato come etichettato correttamente, almeno un worker deve etichettare l'oggetto. In alternativa, le attività possono scadere o essere rifiutate.

  2. Se utilizzi la forza lavoro di Mechanical Turk, Ground Truth invia prima un batch di 10 oggetti del set di dati ai worker. e lo utilizza per configurare il processo di etichettatura e accertarsi che il processo sia configurato correttamente.

  3. Successivamente, Ground Truth invia un numero MaxConcurrentTaskCount di oggetti del set di dati ai worker. Ad esempio, se hai 2.000 oggetti di dati di input nel file manifesto di input e hai impostato il numero di worker per oggetto dati su 3 e impostato MaxConcurrentTaskCount su 900, i primi 900 oggetti dati nel manifesto di input vengono inviati ai worker, corrispondenti a 2.700 attività (900 x 3). Questo è il primo set completo di oggetti inviato ai worker.

  4. Quello che succede dopo varia a seconda del tipo di processo di etichettatura creato. Questo passaggio presuppone che uno o più oggetti del set di dati nel file manifesto di input o inviati utilizzando un'origine dati di SNS input Amazon (in un processo di etichettatura in streaming) non siano stati inclusi nel set inviato ai lavoratori nella fase 3.

    • Processo di etichettatura in streaming: purché il numero totale di oggetti disponibili per i lavoratori sia pari aMaxConcurrentTaskCount, tutti gli oggetti del set di dati rimanenti nel file manifest di input e che invii in tempo reale tramite Amazon SNS vengono inseriti in una coda AmazonSQS. Quando il numero totale di oggetti disponibili per i worker scende al di sotto di MaxConcurrentTaskCount meno NumberOfHumanWorkersPerDataObject, viene utilizzato un nuovo oggetto di dati dalla coda per creare attività NumberOfHumanWorkersPerDataObject, che vengono inviate ai worker in tempo reale.

    • Processo di etichettatura non in streaming: man mano che i worker terminano di etichettare un set di oggetti, ai worker verranno inviate fino a MaxConcurrentTaskCount volte NumberOfHumanWorkersPerDataObject il numero massimo di nuove attività. Questo processo viene ripetuto fino a quando tutti gli oggetti di dati nel file manifesto di input non vengono etichettati.

Usa Amazon SQS per controllare il flusso di oggetti di dati verso i lavori di etichettatura in streaming

Quando crei un processo di etichettatura in streaming, viene creata automaticamente una SQS coda Amazon nel tuo account. Gli oggetti dati vengono aggiunti alla SQS coda Amazon solo quando il numero totale di oggetti inviati ai lavoratori è superioreMaxConcurrentTaskCount. In caso contrario, gli oggetti vengono inviati direttamente ai worker.

Puoi utilizzare questa coda per gestire il flusso di oggetti di dati verso il processo di etichettatura. Per ulteriori informazioni, consulta Gestisci le richieste di etichettatura con Amazon SQS Queue .