Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creazione di un processo di etichettatura (API)
Per creare un processo di etichettatura utilizzando l' SageMaker API Amazon, si utilizza l'CreateLabelingJob
operazione. Per istruzioni specifiche sulla creazione di un job di etichettatura per un tipo di task predefinito, vedere la pagina relativa al tipo di task. Per informazioni su come creare un processo di etichettatura in streaming, che è un processo di etichettatura che viene eseguito continuamente, vedere Creazione di un processo di etichettatura in streaming
Per utilizzare l’operazione CreateLabelingJob
, è necessario quanto segue:
-
Un modello di attività lavoratore (
UiTemplateS3Uri
) o un ARN dell'interfaccia utente dell'attività umana (HumanTaskUiArn
) in Amazon S3.-
Per i processi con nuvole di punti 3D, i processi di rilevamento e tracciamento di oggetti video e i processi NER, utilizza l'ARN elencato in
HumanTaskUiArn
base al tipo di attività. -
Se si utilizza un tipo di attività incorporato diverso dalle attività cloud di punti 3D, è possibile aggiungere le istruzioni di lavoro a uno dei modelli predefiniti e salvare il modello (utilizzando un'estensione.html o .liquid) nel bucket S3. Trova i modelli di pre-compilazione nella pagina del tipo di task.
-
Se si utilizza un flusso di lavoro di etichettatura personalizzato, è possibile creare un modello personalizzato e salvarlo nel bucket S3. Per informazioni su come creare un modello di lavoro personalizzato, consulta Modello di attività di lavoro personalizzato. Per gli elementi HTML personalizzati che è possibile utilizzare per personalizzare il modello, consulta Riferimento per gli elementi Crowd HTML. Per un archivio di modelli dimostrativi per una varietà di attività di etichettatura, consulta Amazon SageMaker Ground Truth Sample Task UI
.
-
-
Un file manifest di input che specifica i dati di input in Amazon S3. Specifica la posizione del file manifest di input in
ManifestS3Uri
. Per informazioni sulla creazione di un file manifest di input, consulta Dati di input. Se crei un lavoro di etichettatura in streaming, questo è facoltativo. Per informazioni su come creare un processo di etichettatura in streaming, consulta Creazione di un processo di etichettatura in streaming. -
Un bucket Amazon S3 per memorizzare i dati di output. Specificate questo bucket e, facoltativamente, un prefisso in
S3OutputPath
. -
Un file di configurazione della categoria di etichetta. Il nome di ciascuna categoria di etichette deve essere univoco. Specificare la posizione di questo file in Amazon S3 utilizzando il parametro
LabelCategoryConfigS3Uri
. Il formato e le categorie di etichette per questo file dipendono dal tipo di attività utilizzata:-
Per la classificazione delle immagini e del testo (etichetta singola e multipla) devi specificare almeno due categorie di etichette. Per tutti gli altri tipi di attività, il numero minimo di categorie di etichette richieste è una.
-
Per le attività di riconoscimento di entità denominate, è necessario fornire istruzioni ai lavoratori in questo file. Per informazioni dettagliate e un esempio, consulta Fornisci le istruzioni per il worker in un file di configurazione della categoria di etichette.
-
Per il tipo di attività cloud di punti 3D e fotogrammi video, utilizzare il formato in File di configurazione della categoria di etichettatura con riferimento alla categoria dell'etichetta e agli attributi del frame.
-
Per tutti gli altri tipi di attività incorporati e attività personalizzate, il file di configurazione delle categorie di etichette deve essere un file JSON nel formato seguente. Identificare le etichette che si desidera utilizzare sostituendo
label_1
,label_2
,...
elabel_n
con le categorie di etichette.{ "document-version": "2018-11-28" "labels": [ {"label": "
label_1
"}, {"label": "label_2
"}, ... {"label": "label_n
"} ] }
-
-
Un ruolo AWS Identity and Access Management (IAM) con la policy IAM AmazonSageMakerGroundTruthExecution
gestita allegata e con autorizzazioni per accedere ai bucket S3. Specificare questo ruolo in RoleArn
. Per ulteriori informazioni su questa policy, vedere Usa le policy IAM gestite con Ground Truth. Se sono necessarie autorizzazioni più granulari, consulta Assegna IAM le autorizzazioni per utilizzare Ground Truth.Se il nome del bucket di input o di output non contiene
sagemaker
, è possibile allegare un criterio simile al seguente al ruolo passato all'operazioneCreateLabelingJob
.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::
my_input_bucket
/*" ] }, { "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::my_output_bucket
/*" ] } ] } -
Una funzione AWS Lambda di pre-annotazione e post-annotazione (o consolidamento annotazioni) Amazon Resource Name (ARN) per elaborare i dati di input e output.
-
Le funzioni Lambda sono predefinite in ogni AWS regione per i tipi di attività predefiniti. Per trovare l'ARN Lambda di pre-annotazione per la tua regione, consulta. PreHumanTaskLambdaArn Per trovare l'ARN Lambda di consolidamento delle annotazioni per la tua regione, consulta. AnnotationConsolidationLambdaArn
-
Per i flussi di lavoro di etichettatura personalizzati, è necessario fornire un ARN Lamda post-annotazione e pre-annotazione personalizzato. Per informazioni su come creare queste funzioni Lambda, vedere Elaborazione con AWS Lambda.
-
-
Un ARN del team di lavoro specificato dall'utente in
WorkteamArn
. Riceverai un ARN per il team di lavoro quando ti iscrivi alla forza lavoro di un fornitore o crei un team di lavoro privato. Se state creando un lavoro di etichettatura per un tipo di attività con frame video o nuvola di punti, non potete utilizzare la forza lavoro. Amazon Mechanical Turk Per tutti gli altri tipi di attività, per utilizzare la forza lavoro Mechanical Turk, usa il seguente ARN.
Sostituiscilo con la AWS regione che stai utilizzando per creare il lavoro di etichettatura.region
arn:aws:sagemaker:
region
:394669845002:workteam/public-crowd/defaultSe utilizzi la forza lavoro Amazon Mechanical Turk, usa il parametro
ContentClassifiers
inDataAttributes
diInputConfig
per dichiarare che i tuoi contenuti sono privi di informazioni personali e di contenuti per adulti.Ground Truth e richiede che i dati di input siano privi di informazioni di identificazione personale (PII) quando utilizzi la forza lavoro Mechanical Turk. Se utilizzi Mechanical Turk e non specifichi che i dati di input sono privi di informazioni personali utilizzando il flag
FreeOfPersonallyIdentifiableInformation
, il processo di etichettatura avrà esito negativo. Usa ilFreeOfAdultContent
flag per dichiarare che i tuoi dati di input sono privi di contenuti per adulti. SageMaker può limitare il numero di dipendenti di Amazon Mechanical Turk che possono visualizzare la tua attività se contiene contenuti per adulti.Per ulteriori informazioni sui team di lavoro e sulle forze lavoro, consulta Forza lavoro.
-
Se utilizzi la forza lavoro di Mechanical Turk, devi specificare il prezzo che pagherai ai lavoratori per l'esecuzione di una singola attività in
PublicWorkforceTaskPrice
. -
Per configurare l'attività, è necessario fornire una descrizione e un titolo dell'attività utilizzando
TaskDescription
eTaskTitle
rispettivamente. Facoltativamente, puoi fornire limiti di tempo che controllano il tempo a disposizione dei lavoratori per lavorare su una singola attività (TaskTimeLimitInSeconds
) e per quanto tempo le attività rimangono nel portale dei lavoratori, disponibile per i lavoratori (TaskAvailabilityLifetimeInSeconds
). -
(Facoltativo) Per alcuni tipi di task, è possibile assegnare a più lavoratori un'etichetta a singola immagine dati (inserendo un numero maggiore di uno per il parametro
NumberOfHumanWorkersPerDataObject
). Per ulteriori informazioni sul consolidamento delle annotazioni, consulta Consolidamento delle annotazioni. -
(Facoltativo) Per creare un processo automatico di etichettatura dei dati, specifica uno degli ARN elencati in. LabelingJobAlgorithmSpecificationArn
LabelingJobAlgorithmsConfig
Questo ARN identifica l'algoritmo utilizzato nel processo di etichettatura automatica dei dati. Il tipo di attività associato a questo ARN deve corrispondere al tipo di attività diPreHumanTaskLambdaArn
eAnnotationConsolidationLambdaArn
specificat. L'etichettatura automatica dei dati è supportata per i seguenti tipi di attività: classificazione delle immagini, riquadro di selezione, segmentazione semantica e classificazione del testo. Il numero minimo di oggetti consentiti per l'etichettatura automatizzata dei dati è di 1.250, e consigliamo vivamente di fornire un minimo di 5.000 oggetti. Per ulteriori informazioni sui lavori di etichettatura automatizzata dei dati, consulta Automatizza l'etichettatura dei dati. -
(Facoltativo) Puoi fornire
StoppingConditions
che fa in modo che il processo di etichettatura si interrompa se viene soddisfatta una delle condizioni. Puoi utilizzare le condizioni di interruzione per controllare il costo del lavoro di etichettatura.
Esempi
Gli esempi di codice seguenti mostrano come creare un processo di etichettatura utilizzando CreateLabelingJob
. Per ulteriori esempi, ti consigliamo di utilizzare uno dei notebook Jupyter Ground Truth Labeling Jobs nella sezione Esempi di un'istanza di notebook. SageMaker SageMaker Per imparare a usare un esempio di notebook tratto dagli Esempi, consulta. SageMaker Accedi a taccuini di esempio Puoi anche vedere questi taccuini di esempio GitHub nel repository Examples. SageMaker
Per ulteriori informazioni su questa operazione, consulta CreateLabelingJob. Per informazioni su come utilizzare altri SDK specifici della lingua, vai su Consulta anche nell'argomento CreateLabelingJobs
.