Documenti in testo semplice Documenti di Semi-structured File di immagine e file PDF scansionati File JSON di output di Amazon Textract

Ingressi per analisi asincrone personalizzate

È possibile inserire più documenti in un processo di analisi asincrona personalizzato. I seguenti argomenti descrivono i tipi di documenti di input che è possibile utilizzare. La dimensione massima del file varia a seconda del tipo di documento di input.

Documenti in testo semplice

Fornisci tutti i documenti di input in testo semplice come testo. UTF-8-formatted La tabella seguente elenca le dimensioni massime dei file e altre linee guida.

Nota

Questi limiti si applicano quando tutti i file di input sono in testo semplice.

Description	Quota/Guideline
Dimensione massima del file per un documento per formato di file (classificazione personalizzata)	1 byte: 10 MB
Dimensione del documento (riconoscimento personalizzato delle entità)	1 byte—1 MB
Numero massimo di file, un documento per file	1.000.000
Numero massimo di righe, un documento per riga (per tutti i file richiesti)	1.000.000
Dimensione del corpus del documento (tutti i documenti in testo semplice combinati)	1 byte: 5 GB

Documenti di Semi-structured

Semi-structured i documenti includono documenti PDF nativi e documenti Word.

La tabella seguente elenca le dimensioni massime dei file e altre linee guida.

Description	Quota/Guideline
Dimensioni del documento (PDF)	1 byte: 50 MB
Dimensioni del documento (Docx)	1 byte: 5 MB
Numero massimo di file	500
Numero massimo di pagine per un file PDF o Docx	100
Dimensione del corpus del documento dopo l'estrazione del testo (testo semplice, tutti i file combinati)	1 byte: 5 GB

Per impostazione predefinita, l'analisi personalizzata utilizza il parser Amazon Comprehend per estrarre il testo da file Word e file PDF digitali. Per i file PDF, puoi ignorare questa impostazione predefinita e utilizzare Amazon Textract per estrarre il testo. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

File di immagine e file PDF scansionati

L'analisi personalizzata supporta immagini JPEG, PNG e TIFF.

La tabella seguente elenca le dimensioni massime dei file per le immagini. I file PDF scansionati sono soggetti alle stesse dimensioni massime dei file PDF nativi.

Description	Quota/Guideline
Dimensioni dell'immagine (JPG o PNG)	1 byte—10 MB
Dimensione dell'immagine (TIFF)	1 byte: 10 MB. Massimo una pagina.

Per ulteriori informazioni sulle immagini, vedereProcedure consigliate per le immagini.

Per impostazione predefinita, Amazon Comprehend utilizza l'operazione API Amazon DetectDocumentText Textract per estrarre il testo dai file di immagine e dai file PDF scansionati. Puoi sovrascrivere questa impostazione predefinita per utilizzare invece l'AnalyzeDocumentoperazione API. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

File JSON di output di Amazon Textract

Per il riconoscimento personalizzato delle entità, ma non per la classificazione personalizzata, puoi fornire il file di output dell'operazione AnalyzeDocument API Amazon Textract come input per i lavori di analisi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Ingressi per analisi in tempo reale

Impostazione delle opzioni di estrazione del testo