Surveillance d'Amazon Kendra avec Amazon Logs CloudWatch

Mode de mise au point

Surveillance d'Amazon Kendra avec Amazon Logs CloudWatch - Amazon Kendra

Flux de journaux des sources de données Flux de journaux de documents Afficher les statistiques Amazon Kendra pour vos tâches de synchronisation

Amazon Kendra utilise Amazon CloudWatch Logs pour vous donner un aperçu du fonctionnement de vos sources de données. Amazon Kendra enregistre les détails du processus des documents au fur et à mesure de leur indexation. Il enregistre les erreurs de votre source de données qui se produisent lors de l'indexation de vos documents. Vous utilisez CloudWatch les journaux pour surveiller, stocker et accéder aux fichiers journaux.

CloudWatch Les journaux stockent les événements des journaux dans un flux de journaux faisant partie d'un groupe de journaux. Amazon Kendra utilise ces fonctionnalités comme suit :

Groupes de journaux : Amazon Kendra stocke tous vos flux de journaux dans un seul groupe de journaux pour chaque index. Amazon Kendra crée le groupe de journaux lors de la création de l'index. L'identifiant du groupe de logs commence toujours par « aws/kendra/ ».
Flux de journaux : Amazon Kendra crée un nouveau flux de journal de source de données dans le groupe de journaux pour chaque tâche de synchronisation d'index que vous exécutez. Il crée également un nouveau flux de journal de documents lorsqu'un flux atteint environ 500 entrées.
Entrées de journal : Amazon Kendra crée une entrée de journal dans le flux de journal lors de l'indexation des documents. Chaque entrée fournit des informations sur le traitement du document ou sur les éventuelles erreurs rencontrées.

Pour plus d'informations sur l'utilisation CloudWatch des journaux, consultez la section Qu'est-ce qu'Amazon Cloud Watch Logs dans le guide de l'utilisateur d'Amazon Cloud Watch Logs.

Amazon Kendra crée deux types de flux de journaux :

Flux de journaux des sources de données
Flux de journaux de documents

Flux de journaux des sources de données

Les flux de journaux des sources de données publient des entrées relatives à vos tâches de synchronisation d'index. Chaque tâche de synchronisation crée un nouveau flux de journal qu'elle utilise pour publier des entrées. Le nom du flux de log est le suivant :


data source id/YYYY-MM-DD-HH/data source sync job ID

Un nouveau flux de journal est créé pour chaque tâche de synchronisation exécutée.

Il existe trois types de messages de journal publiés dans le flux de journal d'une source de données :

Message de journal pour un document qui n'a pas pu être envoyé pour indexation. Voici un exemple de ce message pour un document dans une source de données S3 :


{
    "DocumentId": "document ID",
    "S3Path": "s3://bucket/prefix/object",
    "Message": "Failed to ingest document via BatchPutDocument.",
    "ErrorCode": "InvalidRequest",
    "ErrorMessage": "No document metadata configuration found for document attribute key  city."
}

Message de journal concernant un document qui n'a pas pu être envoyé pour suppression. Voici un exemple de ce message :


{
    "DocumentId": "document ID",
    "Message": "Failed to delete document via BatchDeleteDocument.",
    "ErrorCode": "InvalidRequest",
    "ErrorMessage": "Document can't be deleted because it doesn't exist." 
}

Un message de journal lorsqu'un fichier de métadonnées non valide est détecté pour un document dans un compartiment Amazon S3. Voici un exemple de ce message.
```
{
    "Message": "Found invalid metadata file bucket/prefix/filename.extension.metadata.json."
}
```
Pour les connecteurs de base de données SharePoint et les connecteurs de base de données, Amazon Kendra n'écrit des messages dans le flux de journal que si un document ne peut pas être indexé. Voici un exemple du message d'erreur enregistré par Amazon Kendra.
```
{ 
    "DocumentID": "document ID", 
    "IndexID": "index ID", 
    "SourceURI": "", 
    "CrawlStatus": "FAILED", 
    "ErrorCode": "403", 
    "ErrorMessage": "Access Denied", 
    "DataSourceErrorCode": "403"
}
```

Flux de journaux de documents

Amazon Kendra enregistre les informations relatives au traitement des documents lors de leur indexation. Il enregistre un ensemble de messages pour les documents stockés dans une source de données Amazon S3. Il enregistre les erreurs uniquement pour les documents stockés dans une source de données Microsoft SharePoint ou une base de données.

Si les documents ont été ajoutés à l'index à l'aide de l'BatchPutDocumentopération, le flux de log est nommé comme suit :


YYYY-MM-DD-HH/UUID

Si les documents ont été ajoutés à l'index à l'aide d'une source de données, le flux de log est nommé comme suit :


dataSourceId/YYYY-MM-DD-HH/UUID

Chaque flux de journal contient jusqu'à 500 messages.

Si l'indexation d'un document échoue, le message suivant est envoyé dans le flux du journal :


{
    "DocumentId": "document ID",
    "IndexName": "index name",
    "IndexId": "index ID"
    "SourceURI": "source URI"
    "IndexingStatus": "DocumentFailedToIndex",
    "ErrorCode": "400 | 500",
    "ErrorMessage": "message"
}

Afficher les statistiques Amazon Kendra pour vos tâches de synchronisation

Vous pouvez consulter un rapport d'historique des opérations de synchronisation au niveau du document dans le cadre CloudWatch de votre tâche de synchronisation des sources de données en sélectionnant Afficher le rapport. Un rapport d'historique des opérations de synchronisation contiendra des détails sur la progression et le statut de chaque document dans le cadre de la tâche de synchronisation. Il indique si un document a réussi, a échoué ou a été ignoré pendant les étapes d'analyse, de synchronisation et d'indexation. Vous trouverez également tous les messages d'erreur relatifs à des documents échoués ou ignorés. Si le rapport n'affiche pas les résultats d'une tâche de synchronisation en cours, il est possible que les journaux ne soient pas encore disponibles. Revenez plus tard au fur et à mesure que des données sont émises dans le rapport lorsque des événements se produisent pendant le processus de synchronisation.

Pour accéder à votre rapport sur l'historique des opérations de synchronisation, procédez comme suit :

Ouvrez la console Amazon Kendra à l'adresse. https://console.aws.amazon.com/kendra/
Dans le menu de navigation de gauche, sous Gestion des données, choisissez Sources de données, puis choisissez votre source de données.
Sur la page récapitulative de votre source de données, faites défiler l'écran vers le bas et sélectionnez l'onglet Historique de synchronisation.
Dans l'historique des exécutions de synchronisation, sélectionnez Actions.
Dans Actions, sélectionnez Afficher le rapport. Vous serez redirigé vers la CloudWatch console où vous pourrez accéder à votre rapport.

Note

L'historique des opérations de synchronisation enregistre si un document a été correctement indexé lors de l'ingestion, y compris les pièces jointes ACLs et les métadonnées, pour tous les connecteurs pris en charge par Amazon Kendra.

Si vous utilisez le connecteur Amazon S3 :

Outre l'affichage du rapport d'historique des opérations de synchronisation au niveau du document dans CloudWatch, vous pouvez générer des rapports d'historique de synchronisation pour chaque document de votre source de données Amazon S3 et le copier dans un compartiment. Amazon S3 Au cours de ce processus, vos données sont cryptées à l'aide de AWS KMS clés et vous seul pouvez les consulter. Le statut du document signalé peut être l'un des suivants : Echec, Terminé ou Réussite avec des erreurs. Avant de pouvoir générer des rapports d'état de synchronisation pour Amazon S3, vous devez effectuer les opérations suivantes :

Ajoutez le principal Amazon Kendra de service suivant à votre politique Amazon S3 d'accès


{
    “Version”: “2012-10-17",
    “Statement”: [
        {
            “Sid”: “KendraS3Access”,
            “Effect”: “Allow”,
            “Principal”: {
                “Service”: “kendra.amazonaws.com”
            },
            “Action”: “s3:PutObject”,
            “Resource”: “arn:aws:s3:::your-manifest-bucket-name/*”
        }
    ]
}

Créez un Amazon S3 bucket avec des autorisations d'accès pour Amazon Kendra

Si vous utilisez la console, pour générer un rapport d'historique de synchronisation pour Amazon S3, choisissez d'activer l'option Générer des rapports dans la section facultative de synchronisation des rapports d'historique sur la page de détails de la source de données. Entrez ensuite l'emplacement du Amazon S3 compartiment et choisissez parmi les options de configuration disponibles. Les rapports seront générés lors de la prochaine synchronisation une fois que vous aurez activé l'option Générer un rapport.

Si vous supprimez le Amazon S3 compartiment, vous perdrez vos données de journal et devrez en configurer un nouveau pour stocker les nouveaux rapports de synchronisation.

Note

Un rapport d'historique de synchronisation fournit uniquement des informations indiquant si un connecteur Amazon S3 a correctement exploré et ingéré des données.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.