Ingressi per analisi asincrone personalizzate - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ingressi per analisi asincrone personalizzate

È possibile inserire più documenti in un processo di analisi asincrona personalizzato. I seguenti argomenti descrivono i tipi di documenti di input che è possibile utilizzare. La dimensione massima del file varia a seconda del tipo di documento di input.

Documenti in testo semplice

Fornisci tutti i documenti di input in testo normale come testo in formato UTF-8. La tabella seguente elenca le dimensioni massime dei file e altre linee guida.

Nota

Questi limiti si applicano quando tutti i file di input sono in testo semplice.

Descrizione Quota/Linea guida
Dimensione massima del file per un documento per formato di file (classificazione personalizzata) 1 byte: 10 MB
Dimensione del documento (riconoscimento personalizzato delle entità) 1 byte—1 MB
Numero massimo di file, un documento per file 1.000.000
Numero massimo di righe, un documento per riga (per tutti i file richiesti) 1.000.000
Dimensione del corpus del documento (tutti i documenti in testo semplice combinati) 1 byte: 5 GB

Documenti semistrutturati

I documenti semistrutturati includono documenti PDF nativi e documenti Word.

La tabella seguente elenca le dimensioni massime dei file e altre linee guida.

Descrizione Quota/Linea guida
Dimensioni del documento (PDF) 1 byte: 50 MB
Dimensioni del documento (Docx) 1 byte: 5 MB
Numero massimo di file 500
Numero massimo di pagine per un file PDF o Docx 100
Dimensione del corpus del documento dopo l'estrazione del testo (testo semplice, tutti i file combinati) 1 byte: 5 GB

Per impostazione predefinita, l'analisi personalizzata utilizza il parser Amazon Comprehend per estrarre il testo da file Word e file PDF digitali. Per i file PDF, puoi ignorare questa impostazione predefinita e utilizzare Amazon Textract per estrarre il testo. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

File di immagine e file PDF scansionati

L'analisi personalizzata supporta immagini JPEG, PNG e TIFF.

La tabella seguente elenca le dimensioni massime dei file per le immagini. I file PDF scansionati sono soggetti alle stesse dimensioni massime dei file PDF nativi.

Descrizione Quota/Linea guida
Dimensioni dell'immagine (JPG o PNG) 1 byte—10 MB
Dimensione dell'immagine (TIFF) 1 byte: 10 MB. Massimo una pagina.

Per ulteriori informazioni sulle immagini, vedereProcedure consigliate per le immagini.

Per impostazione predefinita, Amazon Comprehend utilizza l'operazione API Amazon DetectDocumentText Textract per estrarre il testo dai file di immagine e dai file PDF scansionati. Puoi sovrascrivere questa impostazione predefinita per utilizzare invece l'AnalyzeDocumentoperazione API. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

File JSON di output di Amazon Textract

Per il riconoscimento personalizzato delle entità, ma non per la classificazione personalizzata, puoi fornire il file di output dell'operazione AnalyzeDocument API Amazon Textract come input per i lavori di analisi.