Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Impostazione delle opzioni di estrazione del testo
Per impostazione predefinita, Amazon Comprehend esegue le seguenti azioni per estrarre testo da un file, in base al tipo di file di input:
File Word: il parser Amazon Comprehend estrae il testo.
File PDF digitali: il parser Amazon Comprehend estrae il testo.
File di immagine e file PDF scansionati: Amazon Comprehend utilizza l'API Amazon Textract per
DetectDocumentText
estrarre il testo.
Per i file di immagine e i file PDF, puoi utilizzare il DocumentReaderConfig
parametro per sovrascrivere queste azioni di estrazione predefinite. Questo parametro è disponibile quando utilizzi la console o l'API Amazon Comprehend per analisi personalizzate in tempo reale o asincrone.
Il DocumentReaderConfig
parametro contiene tre campi:
-
DocumentReadMode— Impostato
SERVICE_DEFAULT
per consentire ad Amazon Comprehend di eseguire le azioni predefinite.Imposta
FORCE_DOCUMENT_READ_ACTION
per utilizzare Amazon Textract per analizzare file PDF digitali. -
DocumentReadAction— Imposta l'API Amazon Textract (DetectDocumentText o AnalyzeDocument) da utilizzare quando Amazon Comprehend utilizza Amazon Textract per l'estrazione del testo.
FeatureTypes— Se decidi DocumentReadActiondi utilizzare l'operazione AnalyzeDocument API, puoi aggiungere una o entrambe le
FeatureTypes
(TABLES, FORMS). Queste funzionalità forniscono informazioni aggiuntive sulle tabelle e sui moduli del documento. Per ulteriori informazioni su queste funzionalità, consulta Amazon Textract Document Analysis Response Objects.
I seguenti esempi mostrano come configurare DocumentReaderConfig
per casi d'uso specifici:
Usa Amazon Textract per tutti i file PDF.
-
DocumentReadMode: impostato su
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction: impostato su
TEXTRACT_DETECT_DOCUMENT_TEXT
. -
FeatureTypes— Non richiesto.
-
Usa l'
AnalyzeDocument
API Amazon Textract per tutti i file PDF e di immagine.-
DocumentReadMode: impostato su
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction: impostato su
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Impostato su
TABLES
FORMS
o entrambe le funzionalità.
-
Usa l'
AnalyzeDocument
API Amazon Textract per i file PDF scansionati e tutti i file di immagine.-
DocumentReadMode: impostato su
SERVICE_DEFAULT
. -
DocumentReadAction: impostato su
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Impostato su
FORMS
o entrambeTABLES
le funzionalità.
-
Per ulteriori informazioni sulle opzioni di Amazon Textract, consulta. DocumentReaderConfig