Monitorando o Amazon Kendra com o Amazon Logs CloudWatch - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitorando o Amazon Kendra com o Amazon Logs CloudWatch

O Amazon Kendra usa o CloudWatch Amazon Logs para fornecer informações sobre a operação de suas fontes de dados. O Amazon Kendra registra os detalhes do processo dos documentos à medida que são indexados. Ele registra erros da sua fonte de dados que ocorrem enquanto seus documentos estão sendo indexados. Você usa o CloudWatch Logs para monitorar, armazenar e acessar os arquivos de log.

CloudWatch Os registros armazenam eventos de registro em um fluxo de registros que faz parte de um grupo de registros. O Amazon Kendra usa esses recursos da seguinte forma:

  • Grupo de logs – O Amazon Kendra armazena todos os fluxo de logs em um único grupo de logs para cada índice. O Amazon Kendra cria o grupo de logs quando o índice é criado. O identificador do grupo de logs sempre começa com “aws/kendra/”.

  • Fluxo de logs – O Amazon Kendra cria um novo fluxo de logs da fonte de dados no grupo de logs para cada trabalho de sincronização de índice que você executa. Ele também cria um novo fluxo de logs de documentos quando um fluxo atinge aproximadamente 500 entradas.

  • Entradas de log – O Amazon Kendra cria uma entrada de log no fluxo de logs à medida que indexa documentos. Cada entrada fornece informações sobre o processamento do documento ou sobre quaisquer erros encontrados.

Para obter mais informações sobre o uso do CloudWatch Logs, consulte O que é o Amazon Cloud Watch Logs no Guia do usuário do Amazon Cloud Watch Logs.

O Amazon Kendra cria dois tipos de fluxos de log:

Fluxos de log da fonte de dados

Os fluxos de log da fonte de dados publicam entradas sobre seus trabalhos de sincronização de índices. Cada tarefa de sincronização cria um novo fluxo de logs que é usado para publicar entradas. O nome do fluxo de logs é:

data source id/YYYY-MM-DD-HH/data source sync job ID

Um novo fluxo de logs é criado para cada execução de trabalho de sincronização.

Há três tipos de mensagens de log publicadas em um fluxo de logs da fonte de dados:

  • Uma mensagem de log para um documento que não foi enviado para indexação. Veja a seguir um exemplo dessa mensagem para um documento em uma fonte de dados do S3:

    { "DocumentId": "document ID", "S3Path": "s3://bucket/prefix/object", "Message": "Failed to ingest document via BatchPutDocument.", "ErrorCode": "InvalidRequest", "ErrorMessage": "No document metadata configuration found for document attribute key city." }
  • Uma mensagem de log para um documento que não foi enviado para exclusão. A seguir está um exemplo desta mensagem:

    { "DocumentId": "document ID", "Message": "Failed to delete document via BatchDeleteDocument.", "ErrorCode": "InvalidRequest", "ErrorMessage": "Document can't be deleted because it doesn't exist." }
  • Uma mensagem de log quando um arquivo de metadados inválido para um documento em um bucket do Amazon S3 é encontrado. A seguir está um exemplo desta mensagem.

    { "Message": "Found invalid metadata file bucket/prefix/filename.extension.metadata.json." }
  • Para conectores de banco de dados SharePoint e conectores, o Amazon Kendra só grava mensagens no stream de log se um documento não puder ser indexado. Veja a seguir um exemplo da mensagem de erro registrada pelo Amazon Kendra.

    { "DocumentID": "document ID", "IndexID": "index ID", "SourceURI": "", "CrawlStatus": "FAILED", "ErrorCode": "403", "ErrorMessage": "Access Denied", "DataSourceErrorCode": "403" }

Fluxos de log de documentos

O Amazon Kendra registra informações sobre o processamento de documentos enquanto eles estão sendo indexados. Ele registra um conjunto de mensagens para documentos armazenados em uma fonte de dados do Amazon S3. Ele registra erros somente para documentos armazenados em uma fonte de dados da Microsoft SharePoint ou de um banco de dados.

Se os documentos foram adicionados ao índice usando a BatchPutDocumentoperação, o fluxo de registros será nomeado da seguinte forma:

YYYY-MM-DD-HH/UUID

Se os documentos foram adicionados ao índice usando uma fonte de dados, o fluxo de logs será nomeado da seguinte forma:

dataSourceId/YYYY-MM-DD-HH/UUID

Cada fluxo de logs contém até 500 mensagens.

Se a indexação de um documento falhar, essa mensagem será enviada para o fluxo de logs:

{ "DocumentId": "document ID", "IndexName": "index name", "IndexId": "index ID" "SourceURI": "source URI" "IndexingStatus": "DocumentFailedToIndex", "ErrorCode": "400 | 500", "ErrorMessage": "message" }

Veja as métricas do Amazon Kendra para seus trabalhos de sincronização

Você pode visualizar um relatório do histórico de execução de sincronização em nível de documento CloudWatch para sua tarefa de sincronização de fonte de dados selecionando Exibir relatório. Um relatório do histórico de execução de sincronização terá detalhes sobre o progresso e o status de cada documento na tarefa de sincronização. Mostra se um documento foi bem-sucedido, falhou ou foi ignorado durante os estágios de rastreamento, sincronização e indexação. Você também encontrará mensagens de erro relacionadas a documentos falhados ou ignorados. Se o relatório não mostrar resultados de um trabalho de sincronização em andamento, talvez os registros ainda não estejam disponíveis. Verifique novamente mais tarde, pois os dados são emitidos para o relatório à medida que os eventos ocorrem durante o processo de sincronização.

Para acessar seu relatório de histórico de execução de sincronização, siga as seguintes etapas:

  1. Abra o console Amazon Kendra em. https://console.aws.amazon.com/kendra/

  2. No menu de navegação à esquerda, em Gerenciamento de dados, escolha Fontes de dados e escolha sua fonte de dados.

  3. Na página de resumo da fonte de dados, role para baixo e selecione a guia Histórico de sincronização.

  4. Em Histórico de execução da sincronização, selecione Ações.

  5. Em Ações, selecione Exibir relatório. Você será redirecionado para o CloudWatch console onde poderá acessar seu relatório.

nota

Um histórico de execução de sincronização registra se um documento foi indexado com sucesso durante a ingestão, incluindo anexos ACLs e metadados, para todos os conectores compatíveis com o Amazon Kendra.

Se você estiver usando o conector Amazon S3:

Além de visualizar o relatório de histórico de execução de sincronização em nível de documento CloudWatch, você pode gerar relatórios de histórico de sincronização para cada documento em sua fonte de dados do Amazon S3 e copiá-los para um Amazon S3 balde. Durante esse processo, seus dados são criptografados usando AWS KMS teclas e só podem ser vistas por você. O status do documento relatado pode ser um dos seguintes: Falha, Concluído ou Bem-sucedido com erros. Antes de gerar relatórios de status de sincronização para o Amazon S3, você deve fazer o seguinte:

  • Adicione o seguinte Amazon Kendra principal de serviço para o seu Amazon S3 política de acesso padrão

    { “Version”: “2012-10-17", “Statement”: [ { “Sid”: “KendraS3Access”, “Effect”: “Allow”, “Principal”: { “Service”: “kendra.amazonaws.com” }, “Action”: “s3:PutObject”, “Resource”: “arn:aws:s3:::your-manifest-bucket-name/*” } ] }
  • Crie um Amazon S3 bucket com permissões de acesso a Amazon Kendra

Se você usa o console, para gerar um relatório de histórico de sincronização para o Amazon S3, escolha ativar a opção Gerar relatórios na seção Relatórios de histórico de sincronização — opcional na página de detalhes da fonte de dados. Em seguida, insira o Amazon S3 localização do bucket e escolha entre as opções de configuração disponíveis. Os relatórios serão gerados na próxima sincronização depois que você ativar a geração de relatórios.

Se você excluir o Amazon S3 bucket, você perderá seus dados de log e precisará configurar um novo bucket para armazenar novos relatórios de sincronização.

nota

Um relatório de histórico de sincronização fornece informações somente sobre se um conector Amazon S3 rastreou e ingeriu dados com sucesso.