Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Formati di file per l'analisi asincrona
Quando si esegue un'analisi asincrona con il modello, è possibile scegliere tra diversi formati per i documenti di input: One document per line
o. one document per file
Il formato utilizzato dipende dal tipo di documenti che si desidera analizzare, come descritto nella tabella seguente.
Descrizione | Formato |
---|---|
L'input contiene più file. Ogni file contiene un documento di input. Questo formato è ideale per raccolte di documenti di grandi dimensioni, come articoli di giornale o articoli scientifici. Inoltre, utilizzate questo formato per documenti semistrutturati (immagini o file Docx) utilizzando un classificatore di documenti nativo. PDF |
Un documento per file |
L'input è costituito da uno o più file. Ogni riga del file è un documento di input separato. Questo formato è ideale per documenti brevi, come messaggi di testo o post sui social media. |
Un documento per riga |
Un documento per file
Con il one document per file
formato, ogni file rappresenta un documento di input.
Un documento per riga
Con il One document per line
formato, ogni documento viene posizionato su una riga separata e non viene utilizzata alcuna intestazione. L'etichetta non è inclusa in ogni riga (poiché non conosci ancora l'etichetta del documento). Ogni riga del file (la fine del singolo documento) deve terminare con un'alimentazione di riga (LF,\n), un corriage return (CR,\ r) o entrambi (CRLF,\ r\n). Non utilizzare il separatore di UTF -8 righe (u+2028) per terminare una riga.
L'esempio seguente mostra il formato del file di input.
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
Per entrambi i formati, utilizzate la codifica UTF -8 per i file di testo. Dopo aver preparato i file, inseriscili nel bucket S3 che stai utilizzando per i dati di input.
Quando inizi un processo di classificazione, specifichi questa posizione Amazon S3 per i dati di input. URIDeve trovarsi nella stessa regione dell'APIendpoint che stai chiamando. URIPuò puntare a un singolo file (come quando si utilizza il metodo «un documento per riga»), oppure può essere il prefisso per una raccolta di file di dati.
Ad esempio, se utilizzi il prefisso URIS3://bucketName/prefix
, se il prefisso è un singolo file, Amazon Comprehend utilizza quel file come input. Se più di un file inizia con il prefisso, Amazon Comprehend li utilizza tutti come input.
Concedi ad Amazon Comprehend l'accesso al bucket S3 che contiene la raccolta di documenti e i file di output. Per ulteriori informazioni, consulta Autorizzazioni basate sui ruoli necessarie per le operazioni asincrone.