Formati di file per l'analisi asincrona

Quando si esegue un'analisi asincrona con il modello, è possibile scegliere tra diversi formati per i documenti di input: One document per line o. one document per file Il formato utilizzato dipende dal tipo di documenti che si desidera analizzare, come descritto nella tabella seguente.

Description	Formato
L'input contiene più file. Ogni file contiene un documento di input. Questo formato è ideale per raccolte di documenti di grandi dimensioni, come articoli di giornale o articoli scientifici. Inoltre, utilizzate questo formato per documenti semistrutturati (file di immagine, PDF o Docx) utilizzando un classificatore di documenti nativo.	Un documento per file
L'input è costituito da uno o più file. Ogni riga del file è un documento di input separato. Questo formato è ideale per documenti brevi, come messaggi di testo o post sui social media.	Un documento per riga

Description

Formato

L'input contiene più file. Ogni file contiene un documento di input. Questo formato è ideale per raccolte di documenti di grandi dimensioni, come articoli di giornale o articoli scientifici.

Inoltre, utilizzate questo formato per documenti semistrutturati (file di immagine, PDF o Docx) utilizzando un classificatore di documenti nativo.

Un documento per file

L'input è costituito da uno o più file. Ogni riga del file è un documento di input separato. Questo formato è ideale per documenti brevi, come messaggi di testo o post sui social media.

Un documento per riga

Un documento per file

Con il one document per file formato, ogni file rappresenta un documento di input.

Un documento per riga

Con il One document per line formato, ogni documento viene posizionato su una riga separata e non viene utilizzata alcuna intestazione. L'etichetta non è inclusa in ogni riga (poiché non conosci ancora l'etichetta del documento). Ogni riga del file (la fine del singolo documento) deve terminare con un'alimentazione di riga (LF,\n), un corriage return (CR,\ r) o entrambi (CRLF,\ r\n). Non utilizzare il separatore di UTF-8 riga (u+2028) per terminare una riga.

L'esempio seguente mostra il formato del file di input.


Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n

Per entrambi i formati, utilizzate la UTF-8 codifica per i file di testo. Dopo aver preparato i file, inseriscili nel bucket S3 che stai utilizzando per i dati di input.

Quando inizi un processo di classificazione, specifichi questa posizione Amazon S3 per i dati di input. L'URI deve trovarsi nella stessa regione dell'endpoint API che stai chiamando. L'URI può puntare a un singolo file (come quando si utilizza il metodo «un documento per riga») oppure può essere il prefisso per una raccolta di file di dati.

Ad esempio, se utilizzi l'URIS3://bucketName/prefix, se il prefisso è un singolo file, Amazon Comprehend utilizza quel file come input. Se più di un file inizia con il prefisso, Amazon Comprehend li utilizza tutti come input.

Concedi ad Amazon Comprehend l'accesso al bucket S3 che contiene la raccolta di documenti e i file di output. Per ulteriori informazioni, consulta Role-based autorizzazioni necessarie per le operazioni asincrone.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esecuzione di processi di analisi asincrona

Lavori di analisi (console)