Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Creación de un conector de origen de datos
Puede crear un conector de fuente de datos para conectarse Amazon Kendra a sus documentos e indexarlos. Amazon Kendra puede conectarse a Microsoft SharePoint, Google Drive y muchos otros proveedores. Al crear un conector de fuente de datos, proporciona Amazon Kendra la información de configuración necesaria para conectarse al repositorio de fuentes. A diferencia de añadir documentos directamente a un índice, puede escanear periódicamente el origen de datos para actualizar el índice.
Por ejemplo, supongamos que tiene un repositorio de documentos fiscales almacenado en un Amazon S3 depósito. Ocasionalmente, los documentos existentes se modifican y se añaden nuevos documentos al repositorio. Si agrega el repositorio Amazon Kendra como fuente de datos, puede mantener el índice actualizado configurando sincronizaciones periódicas entre la fuente de datos y el índice.
Puede optar por actualizar un índice manualmente mediante la consola o la StartDataSourceSyncJobAPI. De lo contrario, puede configurar una programación para actualizar un índice y sincronizarlo con su origen de datos.
Un índice puede tener más de un origen de datos. Cada origen de datos puede tener su propia programación de actualizaciones. Por ejemplo, puede actualizar el índice de sus documentos de trabajo a diario, o incluso cada hora, y actualizar los documentos archivados manualmente cada vez que cambie el archivo.
Si desea modificar los metadatos o atributos del documento y el contenido durante el proceso de ingesta de documentos, consulte Custom Document Enrichment de Amazon Kendra.
nota
Cada ID de documento debe ser único por índice. No puede crear una fuente de datos para indexar los documentos con sus características únicas IDs y, a continuación, utilizar la BatchPutDocument
API para indexar los mismos documentos o viceversa. No se puede crear un origen de datos para indexar los documentos con sus ID exclusivos y, a continuación, utilizar la API BatchPutDocument
para indexar los mismos documentos o viceversa. El uso de un conector de fuente de Amazon Kendra datos BatchPutDocument
y BatchDeleteDocument
APIs en combinación con él para el mismo conjunto de documentos podría provocar incoherencias con los datos. En su lugar, recomendamos utilizar el Amazon Kendra conector de origen de datos personalizado.
nota
Los archivos añadidos al índice deben estar en un flujo de bytes codificado en UTF-8. Para obtener más información sobre los documentos incluidos Amazon Kendra, consulte Documentos.
Establecimiento de un programa de actualizaciones
Configure el origen de datos para que se actualice periódicamente con la consola o mediante el parámetro Schedule
al crear o actualizar un origen de datos. El contenido del parámetro es una cadena que contiene una cadena de programación en formato cron
o una cadena vacía para indicar que el índice se actualiza a petición. Para conocer el formato de una expresión cron, consulte Programar expresiones para reglas en la Guía del Amazon CloudWatch Events usuario. Amazon Kendra solo admite expresiones cron. No admite expresiones de frecuencia.
Configuración del idioma
Puede indexar todos los documentos en un origen de datos en un idioma compatible. Al llamar CreateDataSource, debe especificar el código de idioma de todos los documentos en la fuente de datos. Si un documento no contiene un código de idioma especificado en un campo de metadatos, el documento se indexa utilizando el código de idioma especificado para todos los documentos en el nivel de origen de datos. Si no especifica un idioma, Amazon Kendra indexa los documentos de un origen de datos en inglés de forma predeterminada. Para obtener más información acerca de los idiomas admitidos, incluidos sus códigos, consulte Adición de documentos en idiomas distintos del inglés.
Todos los documentos de un origen de datos en un idioma compatible se indexan mediante la consola. Vaya a Orígenes de datos y edite su origen de datos o a Agregar origen de datos si va a agregar un nuevo origen de datos. En la página Especificar detalles del origen de datos, seleccione un idioma en el menú desplegable Idioma. Seleccione Actualizar o continúe introduciendo la información de configuración para conectarse a su origen de datos.