Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Configuración de las opciones de extracción de texto

Modo de enfoque
Configuración de las opciones de extracción de texto - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

De forma predeterminada, Amazon Comprehend realiza las siguientes acciones para extraer texto de un archivo, en función del tipo de archivo de entrada:

  • Archivos de Word: el analizador de Amazon Comprehend extrae el texto.

  • Archivos de PDF digital: el analizador de Amazon Comprehend extrae el texto.

  • Archivos de imagen y archivos PDF escaneados: Amazon Comprehend utiliza la API DetectDocumentText de Amazon Textract para extraer el texto.

En el caso de los archivos de imagen y los archivos PDF, puede utilizar el parámetro DocumentReaderConfig para anular estas acciones de extracción predeterminadas. Este parámetro está disponible cuando utiliza la consola o la API de Amazon Comprehend para realizar análisis personalizados asíncronos o en tiempo real.

El parámetro DocumentReaderConfig contiene tres campos:

  • DocumentReadMode— Configúrelo SERVICE_DEFAULT para que Amazon Comprehend realice las acciones predeterminadas.

    Se configura en FORCE_DOCUMENT_READ_ACTION para usar Amazon Textract para analizar archivos PDF digitales.

  • DocumentReadAction— Establece la API (DetectDocumentText o AnalyzeDocument) de Amazon Textract para utilizarla cuando Amazon Comprehend utilice Amazon Textract para la extracción de texto.

  • FeatureTypes— Si va DocumentReadActiona utilizar la operación de AnalyzeDocument API, puede añadir una o ambas FeatureTypes (TABLAS, FORMULARIOS). Estas funciones proporcionan información adicional sobre las tablas y los formularios del documento. Para obtener más información sobre estas características, consulte Objetos de respuesta de análisis de documentos de Amazon Textract.

Los siguientes ejemplos muestran cómo configurar DocumentReaderConfig para casos de uso específicos.

  1. Use Amazon Textract para todos los archivos PDF.

    1. DocumentReadMode: se establece en FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction: se establece en TEXTRACT_DETECT_DOCUMENT_TEXT.

    3. FeatureTypes— No es obligatorio.

  2. Use la API AnalyzeDocument de Amazon Textract para todos los archivos de imagen y de PDF.

    1. DocumentReadMode: se establece en FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction: se establece en TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Configurado en TABLES FORMS o en ambas funciones.

  3. Utilice la API AnalyzeDocument de Amazon Textract para los archivos PDF escaneados y todos los archivos de imagen.

    1. DocumentReadMode: se establece en SERVICE_DEFAULT.

    2. DocumentReadAction: se establece en TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Configurado en TABLES FORMS o en ambas funciones.

Para obtener más información sobre las opciones de Amazon Textract, consulte. DocumentReaderConfig

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.