Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Inserisci i file manifest
Ogni riga di un file manifest di input è una voce contenente un oggetto, o un riferimento a un oggetto, da etichettare. Una voce può contenere anche etichette relative a processi precedenti e, per alcuni tipi di attività, informazioni aggiuntive.
I dati di input e il file manifest devono essere archiviati in Amazon Simple Storage Service (Amazon S3). Ciascuno ha requisiti specifici di storage e accesso, come segue:
-
Il bucket Amazon S3 che contiene i dati di input deve trovarsi nella stessa AWS regione in cui è in esecuzione Amazon Ground Truth SageMaker . Devi consentire ad Amazon SageMaker AI di accedere ai dati archiviati nel bucket Amazon S3 in modo che possa leggerli. Per ulteriori informazioni sui bucket S3 Amazon, consulta Working with Amazon S3 buckets.
-
Il file manifesto deve trovarsi nella stessa AWS regione dei file di dati, ma non deve trovarsi nella stessa posizione dei file di dati. Può essere archiviato in qualsiasi bucket Amazon S3 accessibile al ruolo AWS Identity and Access Management (IAM) assegnato a Ground Truth al momento della creazione del processo di etichettatura.
Nota
I tipi di attività con nuvola di punti 3D e frame video hanno requisiti e attributi manifest di input diversi.
Per i tipi di attività nuvola di punti 3D, fai riferimento a Inserisci file manifesto per i lavori di etichettatura 3D Point Cloud.
Per i tipi di attività frame video, fai riferimento a Creazione di un file manifesto di input di fotogrammi video.
Il manifesto è un file con codifica UTF -8 in cui ogni riga è un oggetto completo e valido. JSON Ogni riga è delimitata da un'interruzione di riga standard, \n o \r\n. Poiché ogni riga deve essere un JSON oggetto valido, non è possibile avere caratteri di interruzione di riga senza escape. Per ulteriori informazioni sul formato dei dati, consulta LineeJSON.
Ogni JSON oggetto nel file manifesto non può contenere più di 100.000 caratteri. Nessun singolo attributo all'interno di un oggetto può includere più di 20.000 caratteri. I nomi degli attributi non possono iniziare il segno del dollaro $
.
Ogni JSON oggetto nel file manifesto deve contenere una delle seguenti chiavi: source-ref
osource
. I valori delle chiavi sono interpretati come segue:
-
source-ref
: l'origine dell'oggetto è l'oggetto Amazon S3 specificato nel valore. Utilizza questo valore quando l'oggetto è un oggetto binario, ad esempio un'immagine. -
source
: l'origine dell'oggetto è il valore. Utilizza questo valore quando l'oggetto è un valore di testo.
Di seguito è riportato un esempio di un file manifest per file archiviati in un bucket S3 Amazon:
{"source-ref": "
S3 bucket location 1
"} {"source-ref": "S3 bucket location 2
"} ... {"source-ref": "S3 bucket location n
"}
Utilizza la chiave source-ref
dei file immagine per i processi di riquadro di delimitazione, classificazione delle immagini (a etichetta singola e multipla), segmentazione semantica e dei video clip per l'etichettatura della classificazione video. Anche i processi di etichettatura 3D con nuvole di punti e frame video utilizzano la chiave source-ref
, ma questi processi di etichettatura richiedono informazioni aggiuntive nel file manifest di input. Per ulteriori informazioni, consulta Dati di input nuvola di punti 3D e Dati di input di fotogrammi video.
Di seguito è riportato un esempio di un file manifest con dati di input archiviati nel manifest:
{"source": "
Lorem ipsum dolor sit amet
"} {"source": "consectetur adipiscing elit
"} ... {"source": "mollit anim id est laborum
"}
Utilizzo della chiave source
per i processi di classificazione del testo con etichetta singola e multietichetta e riconoscimento entità denominate.
Puoi includere altre coppie chiave-valore nel file manifest. Queste coppie vengono passate al file di output invariate. Ciò è utile quando desideri passare informazioni tra applicazioni. Per ulteriori informazioni, consulta Etichettatura dei dati di output del lavoro.