Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ingressi per analisi asincrone personalizzate
È possibile inserire più documenti in un processo di analisi asincrona personalizzato. I seguenti argomenti descrivono i tipi di documenti di input che è possibile utilizzare. La dimensione massima del file varia a seconda del tipo di documento di input.
Argomenti
Documenti in testo semplice
Fornisci tutti i documenti di input in testo normale come testo in formato UTF-8. La tabella seguente elenca le dimensioni massime dei file e altre linee guida.
Nota
Questi limiti si applicano quando tutti i file di input sono in testo semplice.
Descrizione | Quota/Linea guida |
---|---|
Dimensione massima del file per un documento per formato di file (classificazione personalizzata) | 1 byte: 10 MB |
Dimensione del documento (riconoscimento personalizzato delle entità) | 1 byte—1 MB |
Numero massimo di file, un documento per file | 1.000.000 |
Numero massimo di righe, un documento per riga (per tutti i file richiesti) | 1.000.000 |
Dimensione del corpus del documento (tutti i documenti in testo semplice combinati) | 1 byte: 5 GB |
Documenti semistrutturati
I documenti semistrutturati includono documenti PDF nativi e documenti Word.
La tabella seguente elenca le dimensioni massime dei file e altre linee guida.
Descrizione | Quota/Linea guida |
---|---|
Dimensioni del documento (PDF) | 1 byte: 50 MB |
Dimensioni del documento (Docx) | 1 byte: 5 MB |
Numero massimo di file | 500 |
Numero massimo di pagine per un file PDF o Docx | 100 |
Dimensione del corpus del documento dopo l'estrazione del testo (testo semplice, tutti i file combinati) | 1 byte: 5 GB |
Per impostazione predefinita, l'analisi personalizzata utilizza il parser Amazon Comprehend per estrarre il testo da file Word e file PDF digitali. Per i file PDF, puoi ignorare questa impostazione predefinita e utilizzare Amazon Textract per estrarre il testo. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.
File di immagine e file PDF scansionati
L'analisi personalizzata supporta immagini JPEG, PNG e TIFF.
La tabella seguente elenca le dimensioni massime dei file per le immagini. I file PDF scansionati sono soggetti alle stesse dimensioni massime dei file PDF nativi.
Descrizione | Quota/Linea guida |
---|---|
Dimensioni dell'immagine (JPG o PNG) | 1 byte—10 MB |
Dimensione dell'immagine (TIFF) | 1 byte: 10 MB. Massimo una pagina. |
Per ulteriori informazioni sulle immagini, vedereProcedure consigliate per le immagini.
Per impostazione predefinita, Amazon Comprehend utilizza l'operazione API Amazon DetectDocumentText
Textract per estrarre il testo dai file di immagine e dai file PDF scansionati. Puoi sovrascrivere questa impostazione predefinita per utilizzare invece l'AnalyzeDocument
operazione API. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.
File JSON di output di Amazon Textract
Per il riconoscimento personalizzato delle entità, ma non per la classificazione personalizzata, puoi fornire il file di output dell'operazione AnalyzeDocument
API Amazon Textract come input per i lavori di analisi.