Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
De forma predeterminada, Amazon Comprehend realiza las siguientes acciones para extraer texto de un archivo, en función del tipo de archivo de entrada:
Archivos de Word: el analizador de Amazon Comprehend extrae el texto.
Archivos de PDF digital: el analizador de Amazon Comprehend extrae el texto.
Archivos de imagen y archivos PDF escaneados: Amazon Comprehend utiliza la API
DetectDocumentText
de Amazon Textract para extraer el texto.
En el caso de los archivos de imagen y los archivos PDF, puede utilizar el parámetro DocumentReaderConfig
para anular estas acciones de extracción predeterminadas. Este parámetro está disponible cuando utiliza la consola o la API de Amazon Comprehend para realizar análisis personalizados asíncronos o en tiempo real.
El parámetro DocumentReaderConfig
contiene tres campos:
-
DocumentReadMode— Configúrelo
SERVICE_DEFAULT
para que Amazon Comprehend realice las acciones predeterminadas.Se configura en
FORCE_DOCUMENT_READ_ACTION
para usar Amazon Textract para analizar archivos PDF digitales. -
DocumentReadAction— Establece la API (DetectDocumentText o AnalyzeDocument) de Amazon Textract para utilizarla cuando Amazon Comprehend utilice Amazon Textract para la extracción de texto.
FeatureTypes— Si va DocumentReadActiona utilizar la operación de AnalyzeDocument API, puede añadir una o ambas
FeatureTypes
(TABLAS, FORMULARIOS). Estas funciones proporcionan información adicional sobre las tablas y los formularios del documento. Para obtener más información sobre estas características, consulte Objetos de respuesta de análisis de documentos de Amazon Textract.
Los siguientes ejemplos muestran cómo configurar DocumentReaderConfig
para casos de uso específicos.
Use Amazon Textract para todos los archivos PDF.
-
DocumentReadMode: se establece en
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction: se establece en
TEXTRACT_DETECT_DOCUMENT_TEXT
. -
FeatureTypes— No es obligatorio.
-
Use la API
AnalyzeDocument
de Amazon Textract para todos los archivos de imagen y de PDF.-
DocumentReadMode: se establece en
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction: se establece en
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Configurado en
TABLES
FORMS
o en ambas funciones.
-
Utilice la API
AnalyzeDocument
de Amazon Textract para los archivos PDF escaneados y todos los archivos de imagen.-
DocumentReadMode: se establece en
SERVICE_DEFAULT
. -
DocumentReadAction: se establece en
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Configurado en
TABLES
FORMS
o en ambas funciones.
-
Para obtener más información sobre las opciones de Amazon Textract, consulte. DocumentReaderConfig