Supervisión de Amazon Kendra con Amazon Logs CloudWatch

Modo de enfoque

Supervisión de Amazon Kendra con Amazon Logs CloudWatch - Amazon Kendra

Flujos de registro de Origen de datos Flujo de registro de documentos Vea las métricas de Amazon Kendra para sus trabajos de sincronización

Amazon Kendra utiliza Amazon CloudWatch Logs para proporcionarle información sobre el funcionamiento de sus fuentes de datos. Amazon Kendra registra los detalles del proceso de los documentos a medida que se indexan. Registra los errores del origen de datos que se producen mientras se indexan los documentos. Utiliza CloudWatch Logs para supervisar, almacenar y acceder a los archivos de registro.

CloudWatch Los registros almacenan los eventos de registro en un flujo de registros que forma parte de un grupo de registros. Amazon Kendra utiliza estas características de la siguiente manera:

Grupos de registros: Amazon Kendra almacena todos los flujos de registros en un único grupo de registros para cada índice. Amazon Kendra crea el grupo de registros cuando se crea el índice. El identificador del grupo de registros siempre comienza por “aws/kendra/”.
Flujo de registro: Amazon Kendra crea un nuevo flujo de registro de origen de datos en el grupo de registros para cada trabajo de sincronización de índices que ejecute. También crea un nuevo flujo de registro de documentos cuando un flujo alcanza aproximadamente 500 entradas.
Entradas de registro: Amazon Kendra crea una entrada de registro en el flujo de registro a medida que indexa los documentos. Cada entrada proporciona información sobre el procesamiento del documento o sobre cualquier error que se produzca.

Para obtener más información sobre el uso de CloudWatch registros, consulte Qué es Amazon Cloud Watch Logs en la Guía del usuario de Amazon Cloud Watch Logs.

Amazon Kendra crea dos tipos de flujos de registro:

Flujos de registro de Origen de datos
Flujo de registro de documentos

Flujos de registro de Origen de datos

Los flujos de registro de Origen de datos publican entradas sobre sus trabajos de sincronización de índices. Cada trabajo de sincronización crea un nuevo flujo de registro que se utiliza para publicar las entradas. El nombre del flujo de registro es:


data source id/YYYY-MM-DD-HH/data source sync job ID

Se crea un nuevo flujo de registro para cada trabajo de sincronización que se ejecute.

Hay tres tipos de mensajes de registro publicados en un flujo de registro de un origen de datos:

Un mensaje de registro de un documento que no se pudo enviar para su indexación. A continuación, se muestra un ejemplo de este mensaje para un documento de un origen de datos de S3:


{
    "DocumentId": "document ID",
    "S3Path": "s3://bucket/prefix/object",
    "Message": "Failed to ingest document via BatchPutDocument.",
    "ErrorCode": "InvalidRequest",
    "ErrorMessage": "No document metadata configuration found for document attribute key  city."
}

Mensaje de registro de un documento que no se ha podido enviar para su eliminación. A continuación se muestra un ejemplo de este mensaje:


{
    "DocumentId": "document ID",
    "Message": "Failed to delete document via BatchDeleteDocument.",
    "ErrorCode": "InvalidRequest",
    "ErrorMessage": "Document can't be deleted because it doesn't exist." 
}

Un mensaje de registro cuando se encuentra un archivo de metadatos no válido para un documento en un bucket de Amazon S3. A continuación se muestra un ejemplo de este mensaje.
```
{
    "Message": "Found invalid metadata file bucket/prefix/filename.extension.metadata.json."
}
```

Para los conectores SharePoint y bases de datos, Amazon Kendra solo escribe mensajes en el flujo de registro si un documento no se puede indexar. A continuación, se muestra un ejemplo del mensaje de error que Amazon Kendra registra.


{ 
    "DocumentID": "document ID", 
    "IndexID": "index ID", 
    "SourceURI": "", 
    "CrawlStatus": "FAILED", 
    "ErrorCode": "403", 
    "ErrorMessage": "Access Denied", 
    "DataSourceErrorCode": "403"
}

Flujo de registro de documentos

Amazon Kendra registra información sobre el procesamiento de documentos mientras se indexan. Registro de un conjunto de mensajes para documentos almacenados en un origen de datos de Amazon S3. Registra los errores solo en los documentos almacenados en una fuente de datos de Microsoft SharePoint o de una base de datos.

Si los documentos se agregaron al índice mediante la BatchPutDocumentoperación, el flujo de registro se denomina de la siguiente manera:


YYYY-MM-DD-HH/UUID

Si los documentos se agregaron al índice mediante un origen de datos, el flujo de registro se denomina de la siguiente manera:


dataSourceId/YYYY-MM-DD-HH/UUID

Cada flujo de registro contiene hasta 500 mensajes.

Si se produce un error al indexar un documento, se envía este mensaje al flujo de registro:


{
    "DocumentId": "document ID",
    "IndexName": "index name",
    "IndexId": "index ID"
    "SourceURI": "source URI"
    "IndexingStatus": "DocumentFailedToIndex",
    "ErrorCode": "400 | 500",
    "ErrorMessage": "message"
}

Vea las métricas de Amazon Kendra para sus trabajos de sincronización

CloudWatch Para ver un informe del historial de ejecuciones de sincronización a nivel de documento correspondiente a su trabajo de sincronización de la fuente de datos, seleccione Ver informe. Un informe del historial de ejecuciones de sincronización incluirá detalles sobre el progreso y el estado de cada documento del trabajo de sincronización. Muestra si un documento se ha realizado correctamente, si ha fallado o si se ha omitido durante las etapas de rastreo, sincronización e indexación. También encontrará cualquier mensaje de error relacionado con documentos fallidos u omitidos. Si el informe no muestra los resultados de un trabajo de sincronización en curso, es posible que los registros aún no estén disponibles. Vuelva a consultarlo más tarde, ya que los datos se van emitiendo al informe a medida que se producen eventos durante el proceso de sincronización.

Para acceder al informe del historial de ejecuciones de sincronización, sigue estos pasos:

Abra la consola Amazon Kendra en. https://console.aws.amazon.com/kendra/
En el menú de navegación de la izquierda, en Administración de datos, elija Fuentes de datos y, a continuación, elija su fuente de datos.
En la página de resumen de la fuente de datos, desplázate hacia abajo y selecciona la pestaña Historial de sincronización.
En Sincronizar el historial de ejecuciones, selecciona Acciones.
En Acciones, selecciona Ver informe. Se le redirigirá a la CloudWatch consola desde donde podrá acceder a su informe.

nota

Un historial de ejecución de sincronización registra si un documento se indexó correctamente durante la ingestión, incluidos los archivos adjuntos ACLs y los metadatos, para todos los conectores compatibles con Amazon Kendra.

Si utilizas el conector Amazon S3:

Además de ver el informe del historial de ejecuciones de sincronización a nivel de documento CloudWatch, puede generar informes del historial de sincronización para cada documento de su fuente de datos de Amazon S3 y copiarlos en un bucket. Amazon S3 Durante este proceso, sus datos se cifran mediante AWS KMS claves y solo usted puede verlos. El estado del documento del que se ha informado puede ser uno de los siguientes: erróneo, completado o satisfactorio con errores. Antes de poder generar informes de estado de sincronización para Amazon S3, debe hacer lo siguiente:

Añada el siguiente principio Amazon Kendra de servicio a su política de Amazon S3 acceso


{
    “Version”: “2012-10-17",
    “Statement”: [
        {
            “Sid”: “KendraS3Access”,
            “Effect”: “Allow”,
            “Principal”: {
                “Service”: “kendra.amazonaws.com”
            },
            “Action”: “s3:PutObject”,
            “Resource”: “arn:aws:s3:::your-manifest-bucket-name/*”
        }
    ]
}

Cree un Amazon S3 depósito con permisos de acceso a Amazon Kendra

Si utiliza la consola, para generar un informe del historial de sincronización para Amazon S3, seleccione activar la opción Generar informes en la sección Sincronizar informes del historial (opcional) de la página de detalles de la fuente de datos. A continuación, ingrese la ubicación del bucket de Amazon S3 y elija entre las opciones de configuración disponibles. Los informes se generarán a partir de la siguiente sincronización, una vez que haya activado la opción de generar informes.

Si elimina el Amazon S3 depósito, perderá los datos de registro y tendrá que configurar un nuevo depósito para almacenar los nuevos informes de sincronización.