As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Conector Google Drive V2.0
O Google Drive é um serviço de armazenamento de arquivos baseado em nuvem. Você pode usar Amazon Kendra para indexar documentos e comentários armazenados nas pastas Drives compartilhados, Meus Drives e Compartilhado comigo na sua fonte de dados do Google Drive. Você pode indexar os documentos do Google Workspace e os documentos listados em Tipos de documentação. Você também pode usar filtros de inclusão e exclusão para indexar o conteúdo por nome, tipo e caminho do arquivo.
O conector do Google Drive V1.0 /Google DriveConfiguration API terminou em 2023. Recomendamos migrar ou usar o conector V2.0/do Google Drive. TemplateConfiguration API
Para solucionar problemas do conector da fonte de dados do Amazon Kendra Google Drive, consulteSolucionar problemas de origens de dados.
Atributos compatíveis
-
Mapeamentos de campos
-
Controle de acesso do usuário
-
Filtros de inclusão/exclusão
-
Sincronizações de conteúdo completas e incrementais
-
Nuvem privada virtual (VPC)
Pré-requisitos
Antes de usar Amazon Kendra para indexar sua fonte de dados do Google Drive, faça essas alterações no Google Drive e AWS
nas contas.
No Google Drive, verifique se você:
-
Recebeu acesso para uma função de superadministrador ou é um usuário com privilégios administrativos. Você não precisa de uma função de superadministrador para você se tiver recebido acesso de uma função de superadministrador.
-
Credenciais de conexão da conta de serviço do Google Drive configuradas contendo o e-mail da conta de administrador, e-mail do cliente (e-mail da conta de serviço) e chave privada. Consulte a documentação do Google Cloud sobre como criar e excluir chaves de contas de serviço.
Recomendamos que você atualize ou alterne regularmente as credenciais e as senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).
-
Criou uma conta de serviço do Google Cloud (uma conta com autoridade delegada para assumir a identidade do usuário) com a ativação da Delegação em todo o domínio do G Suite para server-to-server autenticação e, em seguida, gerou uma chave JSON privada usando a conta.
A chave privada deve ser gerada após a criação da conta de serviço.
-
O administrador SDK API e o Google Drive foram adicionados API à sua conta de usuário.
-
Opcional: Credenciais de conexão do Google Drive OAuth 2.0 configuradas contendo ID do cliente, segredo do cliente e token de atualização como credenciais de conexão para um usuário específico. Você precisa disso para rastrear dados de contas individuais. Consulte a documentação do Google sobre o uso da OAuth versão 2.0 para acessar APIs.
-
Adicionou (ou solicitou que um usuário com uma função de superadministrador adicionasse) os seguintes OAuth escopos à sua conta de serviço usando uma função de superadministrador. Esses API escopos são necessários para rastrear todos os documentos e as informações de controle de acesso (ACL) de todos os usuários em um domínio do Google Workspace:
-
https://www.googleapis.com/auth/drive.readonly — visualize e baixe todos os seus arquivos do Google Drive
-
https://www.googleapis.com/auth/drive.metadata.readonly — Visualize metadados para arquivos no seu Google Drive
-
https://www.googleapis.com/auth/admin.directory.group.readonly — Escopo para recuperar somente informações sobre grupos, alias de grupos e membros. Isso é necessário para o Amazon Kendra Identity Crawler.
-
https://www.googleapis.com/auth/admin.directory.user.readonly — Escopo para recuperar somente usuários ou aliases de usuários. Isso é necessário para listar usuários no Amazon Kendra Identity Crawler e para configurar. ACLs
-
https://www.googleapis.com/auth/Plataforma em nuvem — escopo para gerar token de acesso para buscar conteúdo de arquivos grandes do Google Drive.
-
https://www.googleapis.com/auth/forms.body.readonly — Escopo para buscar dados do Formulários Google.
Para oferecer suporte aos FormuláriosAPI, adicione o seguinte escopo adicional:
-
Verificou se cada documento é exclusivo no Google Drive e em outras fontes de dados que você planeja usar para o mesmo índice. Cada fonte de dados que você deseja usar para um índice não deve conter o mesmo documento em todas as fontes de dados. IDsOs documentos são globais para um índice e devem ser exclusivos por índice.
No seu Conta da AWS, verifique se você tem:
-
Criou um Amazon Kendra índice e, se estiver usando oAPI, anotou o ID do índice.
-
Criou uma IAM função para sua fonte de dados e, se estiver usando aAPI, ARN anotei a IAM função.
Se você alterar o tipo de autenticação e as credenciais, deverá atualizar sua IAM função para acessar a ID AWS Secrets Manager secreta correta.
-
Armazenou suas credenciais de autenticação do Google Drive em AWS Secrets Manager segredo e, se estiver usando oAPI, anotou o ARN segredo.
Recomendamos que você atualize ou alterne regularmente as credenciais e as senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).
Se você não tiver uma IAM função ou segredo existente, poderá usar o console para criar uma nova IAM função e Secrets Manager segredo ao conectar sua fonte de dados do Google Drive Amazon Kendra a. Se você estiver usando oAPI, deverá fornecer uma IAM função e um Secrets Manager segredo existentes e um ID de índice. ARN
Instruções de conexão
Para se conectar Amazon Kendra à sua fonte de dados do Google Drive, você deve fornecer os detalhes necessários da sua fonte de dados do Google Drive para que Amazon Kendra possa acessar seus dados. Se você ainda não configurou o Google Drive para Amazon Kendra verPré-requisitos.
- Console
-
Para se conectar Amazon Kendra ao Google Drive
-
Faça login no AWS Management Console e abra o Amazon Kendra console.
-
No painel de navegação esquerdo, escolha Índices e, em seguida, escolha o índice que deseja usar na lista de índices.
Você pode escolher definir ou editar as configurações de Controle de acesso do usuário em Configurações do índice.
-
Na página Introdução, escolha Adicionar fonte de dados.
-
Na página Adicionar fonte de dados, escolha Conector do Google Drive e, em seguida, escolha Adicionar conector. Se estiver usando a versão 2 (se aplicável), escolha o conector do Google Drive com a tag “V2.0".
-
Na página Especar detalhes da fonte de dados, insira as seguintes informações:
-
Em Nome e descrição, em Nome da fonte de dados: insira um nome para a fonte de dados. Você pode incluir hífens, mas não espaços.
-
(Opcional) Descrição: insira uma descrição opcional para a fonte de dados.
-
Em Idioma padrão — Escolha um idioma para filtrar seus documentos para o índice. A menos que você especifique o contrário, o idioma padrão é o inglês. O idioma especificado nos metadados do documento substitui o idioma selecionado.
-
Em Tags, em Adicionar nova tag — Inclua tags opcionais para pesquisar e filtrar seus recursos ou monitorar seus AWS custos.
-
Escolha Próximo.
-
Na página Definir seção e segurança, insira as informações a seguir:
-
Autorização — Ative ou desative as informações da lista de controle de acesso (ACL) para seus documentos, se você tiver uma ACL e quiser usá-la para controle de acesso. O ACL especifica quais documentos os usuários e grupos podem acessar. As ACL informações são usadas para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Para obter mais informações, consulte Filtrar o contexto do usuário.
-
Para autenticação — escolha entre a conta de serviço do Google e a autenticação OAuth 2.0 com base no seu caso de uso.
-
AWS
Secrets Manager segredo — Escolha um segredo existente ou crie um novo Secrets Manager segredo para armazenar suas credenciais de autenticação do Google Drive. Se optar por criar uma nova senha, uma janela secreta do AWS
Secrets Manager será aberta.
-
Se você escolheu a conta de serviço do Google, insira um nome para seu segredo, o ID de e-mail do usuário administrador ou “Usuário da conta de serviço” na configuração da sua conta de serviço (e-mail do administrador), o ID de e-mail da conta do serviço (e-mail do cliente) e a chave privada que você criou na sua conta de serviço.
Salve e adicione seu segredo
-
Se você escolheu a autenticação OAuth 2.0, insira um nome para seu segredo, ID do cliente, segredo do cliente e token de atualização que você criou em sua OAuth conta. O ID de e-mail do usuário (usuário cujos detalhes de conexão estão configurados) será definido comoACL. O conector não define outras informações principais do usuário/grupo ACL devido a API limitações.
Salve e adicione seu segredo.
-
Virtual Private Cloud (VPC) — Você pode escolher usar umVPC. Nesse caso, você deve adicionar sub-redes e grupos de VPCsegurança.
-
(Somente para usuários de autenticação da conta de serviço do Google)
Rastreador de identidade — especifique se deseja ativar o rastreador Amazon Kendra de identidade. O rastreador de identidade usa as informações da lista de controle de acesso (ACL) dos seus documentos para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Se você tiver um ACL para seus documentos e optar por usar o seuACL, também poderá optar por ativar o rastreador Amazon Kendra de identidade para configurar a filtragem de contexto do usuário dos resultados da pesquisa. Caso contrário, se o rastreador de identidade estiver desativado, todos os documentos poderão ser pesquisados publicamente. Se você quiser usar o controle de acesso para seus documentos e o rastreador de identidade estiver desativado, você também pode usar o PutPrincipalMappingAPIpara carregar informações de acesso de usuários e grupos para filtragem de contexto do usuário.
-
IAM função — Escolha uma IAM função existente ou crie uma nova IAM função para acessar as credenciais do repositório e indexar o conteúdo.
IAM as funções usadas para índices não podem ser usadas para fontes de dados. Se você não tiver certeza se uma função existente é usada para um índice ouFAQ, escolha Criar uma nova função para evitar erros.
-
Escolha Próximo.
-
Na página Configurar configurações de sincronização, insira as seguintes informações:
-
Sincronizar conteúdo — Selecione quais opções ou o conteúdo que você deseja rastrear. Você pode escolher rastrear Meu Drive (pastas pessoais), Drive compartilhado (pastas compartilhadas com você) ou ambos. Você também pode incluir comentários no arquivo.
-
Em Configuração adicional - opcional Você também pode inserir as seguintes informações opcionais:
-
Tamanho máximo do arquivo — Defina o limite máximo de tamanho MBs dos arquivos a serem rastreados.
-
E-mail do usuário — Adicione e-mails do usuário que você deseja incluir ou excluir.
-
Drives compartilhados — adicione os nomes dos drives compartilhados que você deseja incluir ou excluir.
-
Tipos MIME — Adicione MIME os tipos que você deseja incluir ou excluir.
-
Padrões de expressão regular de entidades — adicione padrões de expressão regular para incluir ou excluir determinados anexos de todas as entidades suportadas. Você pode adicionar até 100 padrões.
Você pode configurar padrões de inclusão/exclusão de regex para Nome do arquivo, Tipo de arquivo e Caminho do arquivo.
-
Nome do arquivo — O nome do arquivo a ser incluído ou excluído. Por exemplo, para indexar um arquivo com nometeamroster.txt
, forneçateamroster
.
-
Tipo de arquivo — O tipo do arquivo a ser incluído ou excluído. Por exemplo, .pdf .txt .docx.
-
Caminho do arquivo — O caminho do arquivo a ser incluído ou excluído. Por exemplo, para indexar arquivos somente dentro da pasta Products list
de uma unidade, forneça/Products list
.
-
Modo de sincronização: escolha como você deseja atualizar o índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização.
-
Sincronização completa: indexe todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados for sincronizada com seu índice.
-
Sincronização nova e modificada: indexe somente conteúdo novo e modificado sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
-
Sincronização nova, modificada e excluída: indexe somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra
pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
O Google Drive API não suporta a recuperação de comentários de um arquivo excluído permanentemente. Os comentários dos arquivos descartados podem ser recuperados. Quando um arquivo é descartado, o conector exclui os comentários do Amazon Kendra índice.
-
Em Cronograma de execução da sincronização, em Frequência, escolha com que frequência sincronizar o conteúdo da fonte de dados e atualizar seu índice.
-
Em Histórico de execução da sincronização, escolha armazenar relatórios gerados automaticamente em um Amazon S3 ao sincronizar sua fonte de dados. Isso é útil para rastrear problemas ao sincronizar sua fonte de dados.
-
Escolha Próximo.
-
Na página Definir mapeamentos de campo, insira as seguintes informações:
-
Para arquivos — Selecione entre os campos de fonte de dados padrão Amazon Kendra gerados que você deseja mapear para o seu índice.
O Google Drive API não é compatível com a criação de campos personalizados. O mapeamento de campo personalizado não está disponível para o conector do Google Drive.
-
Escolha Próximo.
-
Na página Revisar e criar, verifique se as informações inseridas estão corretas e selecione Adicionar fonte de dados. Você também pode optar por editar as informações a partir desta página. Sua fonte de dados aparecerá na página Fontes de dados depois que a fonte de dados for adicionada com sucesso.
- API
-
Para se conectar Amazon Kendra ao Google Drive
Você deve especificar um JSON dos esquemas da fonte de dados usando o. TemplateConfigurationAPI Você deve fornecer as seguintes informações:
-
Fonte de dados — especifique o tipo de fonte de dados como GOOGLEDRIVEV2
quando você usa o TemplateConfigurationJSONesquema. Além disso, especifique a fonte de dados como TEMPLATE
quando você chama o CreateDataSource API.
-
Tipo de autenticação — especifique se deseja usar a autenticação da conta de serviço ou a autenticação OAuth 2.0.
-
Modo de sincronização — especifique como Amazon Kendra você deve atualizar seu índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização. Escolha uma das seguintes opções:
-
FORCED_FULL_CRAWL
para indexar todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados é sincronizada com seu índice.
-
FULL_CRAWL
para indexar somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
-
CHANGE_LOG
para indexar somente conteúdo novo e modificado sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
O Google Drive API não suporta a recuperação de comentários de um arquivo excluído permanentemente. Os comentários dos arquivos descartados podem ser recuperados. Quando um arquivo é descartado, o conector exclui os comentários do Amazon Kendra índice.
-
Nome de recurso secreto da Amazon (ARN) — Forneça o nome de recurso da Amazon (ARN) de um Secrets Manager segredo que contém as credenciais de autenticação que você criou na sua conta do Google Drive. Se você usa a autenticação da conta de serviço do Google, o segredo é armazenado em uma JSON estrutura com as seguintes chaves:
{
"clientEmail": "user account email
",
"adminAccountEmail": "service account email
",
"privateKey": "private key
"
}
Se você usa a autenticação OAuth 2.0, o segredo é armazenado em uma JSON estrutura com as seguintes chaves:
{
"clientID": "OAuth client ID
",
"clientSecret": "client secret
",
"refreshToken": "refresh token
"
}
-
IAM role — Especifique RoleArn
quando você liga CreateDataSource
para fornecer uma IAM função com permissões para acessar seu Secrets Manager segredo e para ligar para o público necessário APIs para o conector do Google Drive e. Amazon Kendra Para obter mais informações, consulte Funções do IAM para fontes de dados do Google Drive.
Você também pode adicionar os seguintes recursos opcionais:
-
Virtual Private Cloud (VPC) — Especifique VpcConfiguration
quando você ligaCreateDataSource
. Para obter mais informações, consulte Configurando Amazon Kendra para usar um Amazon VPC.
-
Meus drives, drives compartilhados, comentários — você pode especificar se deseja rastrear esses tipos de conteúdo.
-
Filtros de inclusão e exclusão — você pode especificar se deseja incluir ou excluir determinadas contas de usuário, drives compartilhados e MIME tipos.
A maioria das fontes de dados usa padrões de expressão regular, que são padrões de inclusão ou exclusão chamados de filtros. Se você especificar um filtro de inclusão, somente o conteúdo que corresponda ao filtro de inclusão será indexado. Qualquer documento que não corresponda ao filtro de inclusão não é indexado. Se especificar um filtro de inclusão e exclusão, os documentos que corresponderem ao filtro de exclusão não serão indexados, mesmo que correspondam ao filtro de inclusão.
-
Lista de controle de acesso (ACL) — Especifique se deseja rastrear ACL as informações dos seus documentos, se você tiver uma ACL e quiser usá-la para controle de acesso. O ACL especifica quais documentos os usuários e grupos podem acessar. As ACL informações são usadas para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Para obter mais informações, consulte Filtrar o contexto do usuário.
-
Rastreador de identidade — especifique se deseja ativar o rastreador Amazon Kendra de identidade. O rastreador de identidade usa as informações da lista de controle de acesso (ACL) dos seus documentos para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Se você tiver um ACL para seus documentos e optar por usar o seuACL, também poderá optar por ativar o rastreador Amazon Kendra de identidade para configurar a filtragem de contexto do usuário dos resultados da pesquisa. Caso contrário, se o rastreador de identidade estiver desativado, todos os documentos poderão ser pesquisados publicamente. Se você quiser usar o controle de acesso para seus documentos e o rastreador de identidade estiver desativado, você também pode usar o PutPrincipalMappingAPIpara carregar informações de acesso de usuários e grupos para filtragem de contexto do usuário.
-
Mapeamentos de campo: escolha mapear os campos de fonte de dados do Google Drive para os campos de índice do Amazon Kendra . Para obter mais informações, consulte Mapear campos de fonte de dados.
O campo do corpo do documento ou o corpo do documento equivalente para seus documentos é obrigatório Amazon Kendra para pesquisar seus documentos. Você deve mapear o nome do campo do corpo do documento na fonte de dados para o nome do campo de índice_document_body
. Todos os demais campos são opcionais.
Para ver uma lista de outras JSON chaves importantes a serem configuradas, consulte Esquema de modelos do Google Drive.
Observações
-
O mapeamento de campo personalizado não está disponível para o conector do Google Drive, pois a interface do usuário do Google Drive não é compatível com a criação de campos personalizados.
-
O Google Drive API não suporta a recuperação de comentários de um arquivo excluído permanentemente. Os comentários dos arquivos na lixeira podem ser recuperados. Quando um arquivo é descartado, o Amazon Kendra conector exclui os comentários do Amazon Kendra índice.
-
O Google Drive API não retorna comentários presentes em um arquivo.docx.
-
Se houver permissão para um determinado Google document (documento, planilha, slide etc.) está definido como Acesso geral: Qualquer pessoa com o link ou compartilhado no domínio específico da sua empresa, o documento não ficará visível para os usuários de pesquisa do Amazon Kendra até que o usuário que fez a consulta tenha acessado o documento.