Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Connecteur Google Drive V2.0
Google Drive est un service de stockage de fichiers basé sur le cloud. Vous pouvez l'utiliser Amazon Kendra pour indexer les documents et les commentaires stockés dans les dossiers Drive partagés, Mes Drives et Shared with me de votre source de données Google Drive. Vous pouvez indexer les documents Google Workspace, ainsi que les documents répertoriés dans la section Types de documentation. Vous pouvez également utiliser des filtres d'inclusion et d'exclusion pour indexer le contenu par nom de fichier, type de fichier et chemin de fichier.
Connecteur Google Drive V1.0/Google DriveConfiguration API a pris fin en 2023. Nous vous recommandons de migrer vers ou d'utiliser le connecteur Google Drive V2.0/. TemplateConfiguration API
Pour résoudre les problèmes liés à votre connecteur de source de données Amazon Kendra Google Drive, consultezDépannage des sources de données.
Fonctionnalités prises en charge
-
Mappages de champs
-
Contrôle d'accès des utilisateurs
-
Filtres d'inclusion/exclusion
-
Synchronisation complète et incrémentielle du contenu
-
Cloud privé virtuel (VPC)
Prérequis
Avant de pouvoir Amazon Kendra indexer votre source de données Google Drive, apportez ces modifications à votre Google Drive et à vos AWS
comptes.
Dans Google Drive, assurez-vous que vous disposez des éléments suivants :
-
Vous avez obtenu l'accès par un rôle de super administrateur ou vous êtes un utilisateur doté de privilèges administratifs. Vous n'avez pas besoin d'un rôle de super administrateur si l'accès vous a été accordé par un rôle de super administrateur.
-
Identifiants de connexion au compte de service Google Drive configurés contenant l'adresse e-mail de votre compte administrateur, l'adresse e-mail du client (adresse e-mail du compte de service) et votre clé privée. Consultez la documentation de Google Cloud sur la création et la suppression de clés de compte de service.
Nous vous recommandons d'actualiser ou de modifier régulièrement vos informations d'identification et votre code secret. Fournissez uniquement le niveau d'accès nécessaire pour votre propre sécurité. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).
-
Vous avez créé un compte de service Google Cloud (un compte doté du pouvoir délégué pour assumer une identité d'utilisateur) avec l'option Activer la délégation à l'échelle du domaine G Suite activée pour server-to-server l'authentification, puis généré une clé JSON privée à l'aide du compte.
La clé privée doit être générée après la création du compte de service.
-
Admin SDK API et Google Drive ont été ajoutés API à votre compte utilisateur.
-
Facultatif : J'ai configuré les informations de connexion Google Drive OAuth 2.0 contenant l'identifiant du client, le secret du client et le jeton d'actualisation comme informations de connexion pour un utilisateur spécifique. Vous en avez besoin pour analyser les données de chaque compte. Consultez la documentation Google sur l'utilisation de la OAuth version 2.0 pour y accéder APIs.
-
Vous avez ajouté (ou demandé à un utilisateur doté d'un rôle de super administrateur d'ajouter) les OAuth étendues suivantes à votre compte de service à l'aide d'un rôle de super administrateur. Ces API étendues sont nécessaires pour analyser tous les documents et les informations de contrôle d'accès (ACL) pour tous les utilisateurs d'un domaine Google Workspace :
-
https://www.googleapis.com/auth/Drive.readOnly : affichez et téléchargez tous vos fichiers Google Drive
-
https://www.googleapis.com/auth/drive.metadata.readonly : affiche les métadonnées des fichiers de votre Google Drive
-
https://www.googleapis.com/auth/Admin.Directory.Group.ReadOnly : possibilité de récupérer uniquement les informations relatives au groupe, à l'alias du groupe et aux membres. Cela est nécessaire pour l' Amazon Kendra Identity Crawler.
-
https://www.googleapis.com/auth/Admin.Directory.User.ReadOnly : possibilité de récupérer uniquement les utilisateurs ou les alias d'utilisateurs. Cela est nécessaire pour répertorier les utilisateurs dans Amazon Kendra Identity Crawler et pour le ACLs paramétrer.
-
https://www.googleapis.com/auth/Plateforme cloud : possibilité de générer un jeton d'accès pour récupérer le contenu de fichiers Google Drive volumineux.
-
https://www.googleapis.com/auth/forms.body.readonly : possibilité de récupérer des données depuis Google Forms.
Pour prendre en charge les formulairesAPI, ajoutez le champ d'application supplémentaire suivant :
-
Il est vérifié que chaque document est unique dans Google Drive et dans les autres sources de données que vous prévoyez d'utiliser pour le même index. Chaque source de données que vous souhaitez utiliser pour un index ne doit pas contenir le même document dans toutes les sources de données. IDsLes documents sont globaux par rapport à un index et doivent être uniques par index.
Dans votre Compte AWS, assurez-vous d'avoir :
-
Vous avez créé un Amazon Kendra index et, si vous utilisez leAPI, avez noté l'identifiant de l'index.
-
Vous avez créé un IAM rôle pour votre source de données et, si vous utilisez le APIARN, notez le IAM rôle.
Si vous modifiez votre type d'authentification et vos informations d'identification, vous devez mettre à jour votre IAM rôle pour accéder au bon identifiant AWS Secrets Manager secret.
-
Stockez vos informations d'authentification Google Drive dans un AWS Secrets Manager secret et, si vous utilisez le APIARN, notez le secret.
Nous vous recommandons d'actualiser ou de modifier régulièrement vos informations d'identification et votre code secret. Fournissez uniquement le niveau d'accès nécessaire pour votre propre sécurité. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).
Si vous n'avez pas de IAM rôle ou de secret existant, vous pouvez utiliser la console pour créer un nouveau IAM rôle et un nouveau Secrets Manager secret lorsque vous connectez votre source de données Google Drive à Amazon Kendra. Si vous utilisez leAPI, vous devez fournir un IAM rôle et un Secrets Manager secret existants, ainsi qu'un identifiant d'index. ARN
Instructions de connexion
Pour vous connecter Amazon Kendra à votre source de données Google Drive, vous devez fournir les informations nécessaires sur votre source de données Google Drive afin de Amazon Kendra pouvoir accéder à vos données. Si vous n'avez pas encore configuré Google Drive pour Amazon Kendra voirPrérequis.
- Console
-
Pour vous connecter Amazon Kendra à Google Drive
-
Connectez-vous à la Amazon Kendra console AWS Management Console et ouvrez-la.
-
Dans le volet de navigation de gauche, choisissez Index, puis choisissez l'index que vous souhaitez utiliser dans la liste des index.
Vous pouvez choisir de configurer ou de modifier vos paramètres de contrôle d'accès utilisateur dans les paramètres de l'index.
-
Sur la page de démarrage, choisissez Ajouter une source de données.
-
Sur la page Ajouter une source de données, choisissez le connecteur Google Drive, puis sélectionnez Ajouter un connecteur. Si vous utilisez la version 2 (le cas échéant), choisissez le connecteur Google Drive avec la balise « V2.0 ».
-
Sur la page Spécifier les détails de la source de données, entrez les informations suivantes :
-
Dans Nom et description, pour Nom de la source de données : entrez le nom de votre source de données. Vous pouvez inclure des traits d'union, mais pas des espaces.
-
(Facultatif) Description : entrez une description facultative pour votre source de données.
-
Dans la langue par défaut : choisissez une langue pour filtrer vos documents pour l'index. Sauf indication contraire, la langue par défaut est l'anglais. La langue spécifiée dans les métadonnées du document remplace la langue sélectionnée.
-
Dans Balises, pour Ajouter une nouvelle balise : incluez des balises facultatives pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.
-
Choisissez Suivant.
-
Sur la page Définir l'accès et la sécurité, entrez les informations suivantes :
-
Autorisation : activez ou désactivez les informations de la liste de contrôle d'accès (ACL) pour vos documents, si vous en possédez une ACL et souhaitez les utiliser pour le contrôle d'accès. ACLSpécifie les documents auxquels les utilisateurs et les groupes peuvent accéder. Les ACL informations sont utilisées pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Pour plus d'informations, consultez la section Filtrage du contexte utilisateur.
-
Pour l'authentification : choisissez entre un compte de service Google et une authentification OAuth 2.0 en fonction de votre cas d'utilisation.
-
AWS
Secrets Manager secret —Choisissez un secret existant ou créez-en un nouveau Secrets Manager pour stocker vos informations d'authentification Google Drive. Si vous choisissez de créer un nouveau secret, une fenêtre AWS
Secrets Manager secrète s'ouvre.
-
Si vous avez choisi un compte de service Google, saisissez le nom de votre code secret, l'identifiant e-mail de l'utilisateur administrateur ou « utilisateur du compte de service » dans la configuration de votre compte de service (e-mail d'administrateur), l'identifiant e-mail du compte de service (e-mail du client) et la clé privée que vous avez créée dans votre compte de service.
Enregistrez et ajoutez votre secret
-
Si vous avez choisi l'authentification OAuth 2.0, entrez un nom pour votre code secret, votre identifiant client, votre secret client et le jeton d'actualisation que vous avez créé dans votre OAuth compte. L'identifiant de messagerie de l'utilisateur (utilisateur dont les informations de connexion sont configurées) sera défini commeACL. Le connecteur ne définit pas les autres informations principales de l'utilisateur/du groupe en ACL raison de API limitations.
Enregistrez et ajoutez votre secret.
-
Cloud privé virtuel (VPC) : vous pouvez choisir d'utiliser unVPC. Dans ce cas, vous devez ajouter des sous-réseaux et des groupes VPC de sécurité.
-
(Pour les utilisateurs authentifiés par un compte de service Google uniquement)
Identity Crawler : spécifiez s'il faut activer l'explorateur Amazon Kendra d'identité. L'explorateur d'identité utilise les informations de la liste de contrôle d'accès (ACL) de vos documents pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Si vous avez un identifiant ACL pour vos documents et que vous choisissez d'utiliser le vôtreACL, vous pouvez également choisir d'activer le robot d'exploration Amazon Kendra d'identité pour configurer le filtrage des résultats de recherche par contexte utilisateur. Sinon, si le robot d'identification est désactivé, tous les documents peuvent être consultés publiquement. Si vous souhaitez utiliser le contrôle d'accès pour vos documents et que le robot d'exploration d'identité est désactivé, vous pouvez également utiliser le PutPrincipalMappingAPIpour télécharger les informations d'accès des utilisateurs et des groupes afin de filtrer le contexte des utilisateurs.
-
IAM rôle —Choisissez un IAM rôle existant ou créez-en un nouveau IAM pour accéder aux informations d'identification de votre référentiel et indexer le contenu.
IAM les rôles utilisés pour les index ne peuvent pas être utilisés pour les sources de données. Si vous ne savez pas si un rôle existant est utilisé pour un indexFAQ, choisissez Créer un nouveau rôle pour éviter les erreurs.
-
Choisissez Suivant.
-
Sur la page Configurer les paramètres de synchronisation, entrez les informations suivantes :
-
Synchroniser le contenu : sélectionnez les options ou le contenu que vous souhaitez analyser. Vous pouvez choisir d'explorer My Drive (dossiers personnels), Shared Drive (dossiers partagés avec vous) ou les deux. Vous pouvez également inclure des commentaires sur les fichiers.
-
Dans Configuration supplémentaire - facultatif Vous pouvez également saisir les informations facultatives suivantes :
-
Taille maximale des fichiers : définissez la taille maximale MBs des fichiers à analyser.
-
E-mail utilisateur : ajoutez les e-mails utilisateur que vous souhaitez inclure ou exclure.
-
Lecteurs partagés : ajoutez les noms des lecteurs partagés que vous souhaitez inclure ou exclure.
-
Types MIME : ajoutez MIME les types que vous souhaitez inclure ou exclure.
-
Modèles d'expression régulière d'entité : ajoutez des modèles d'expressions régulières pour inclure ou exclure certaines pièces jointes pour toutes les entités prises en charge. Vous pouvez ajouter jusqu'à 100 motifs.
Vous pouvez configurer des modèles d'inclusion/exclusion pour le nom de fichier, le type de fichier et le chemin du fichier.
-
Nom du fichier : nom du fichier à inclure ou à exclure. Par exemple, pour indexer un fichier avec un nomteamroster.txt
, fournissezteamroster
.
-
Type de fichier : type de fichier à inclure ou à exclure. Par exemple, .pdf .txt .docx.
-
Chemin du fichier : chemin du fichier à inclure ou à exclure. Par exemple, pour indexer des fichiers uniquement dans le dossier Products list
d'un lecteur, fournissez/Products list
.
-
Mode de synchronisation : choisissez la manière dont vous souhaitez mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation.
-
Synchronisation complète : Indexez tout le contenu fraîchement, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.
-
Nouvelle synchronisation modifiée : Indexez uniquement le contenu nouveau et modifié chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
-
Synchronisation nouvelle, modifiée ou supprimée : Indexez uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra
peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
Google Drive API ne permet pas de récupérer les commentaires d'un fichier définitivement supprimé. Les commentaires des fichiers mis à la poubelle sont récupérables. Lorsqu'un fichier est détruit, le connecteur supprime les commentaires de l' Amazon Kendra index.
-
Dans Calendrier d'exécution de la synchronisation, pour Fréquence, choisissez la fréquence à laquelle vous souhaitez synchroniser le contenu de votre source de données et mettre à jour votre index.
-
Dans Synchroniser l'historique des exécutions, choisissez de stocker les rapports générés automatiquement dans et Amazon S3 lors de la synchronisation de votre source de données. Cela est utile pour suivre les problèmes lors de la synchronisation de votre source de données.
-
Choisissez Suivant.
-
Sur la page Définir les mappages de champs, entrez les informations suivantes :
-
Pour les fichiers : sélectionnez parmi les champs de source de données par défaut Amazon Kendra générés que vous souhaitez mapper à votre index.
Google Drive API ne prend pas en charge la création de champs personnalisés. Le mappage de champs personnalisé n'est pas disponible pour le connecteur Google Drive.
-
Choisissez Suivant.
-
Sur la page Réviser et créer, vérifiez que les informations saisies sont correctes, puis sélectionnez Ajouter une source de données. Vous pouvez également choisir de modifier vos informations à partir de cette page. Votre source de données apparaîtra sur la page Sources de données une fois que la source de données aura été ajoutée avec succès.
- API
-
Pour vous connecter Amazon Kendra à Google Drive
Vous devez spécifier un schéma JSON de source de données à l'aide du TemplateConfigurationAPI. Vous devez fournir les informations suivantes :
-
Source de données —Spécifiez le type de source de données comme GOOGLEDRIVEV2
lorsque vous utilisez TemplateConfigurationJSONschéma. Spécifiez également la source de données comme TEMPLATE
lorsque vous appelez le CreateDataSource API.
-
Type d'authentification : spécifiez si vous souhaitez utiliser l'authentification du compte de service ou l'authentification OAuth 2.0.
-
Mode de synchronisation : spécifiez comment Amazon Kendra mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation. Vous pouvez choisir entre :
-
FORCED_FULL_CRAWL
pour indexer à nouveau tout le contenu, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.
-
FULL_CRAWL
pour indexer uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
-
CHANGE_LOG
pour indexer uniquement le contenu nouveau et modifié chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
Google Drive API ne permet pas de récupérer les commentaires d'un fichier définitivement supprimé. Les commentaires des fichiers mis à la poubelle sont récupérables. Lorsqu'un fichier est détruit, le connecteur supprime les commentaires de l' Amazon Kendra index.
-
Nom de ressource Amazon secret (ARN) : indiquez le nom de ressource Amazon (ARN) d'un Secrets Manager secret contenant les informations d'authentification que vous avez créées dans votre compte Google Drive. Si vous utilisez l'authentification par compte de service Google, le secret est stocké dans une JSON structure contenant les clés suivantes :
{
"clientEmail": "user account email
",
"adminAccountEmail": "service account email
",
"privateKey": "private key
"
}
Si vous utilisez l'authentification OAuth 2.0, le secret est stocké dans une JSON structure contenant les clés suivantes :
{
"clientID": "OAuth client ID
",
"clientSecret": "client secret
",
"refreshToken": "refresh token
"
}
-
IAM role —Spécifiez à quel RoleArn
moment vous appelez CreateDataSource
pour fournir à un IAM rôle les autorisations d'accéder à votre Secrets Manager secret et d'appeler le public requis APIs pour le connecteur Google Drive et Amazon Kendra. Pour plus d'informations, consultez la section IAM Rôles des sources de données Google Drive.
Vous pouvez également ajouter les fonctionnalités optionnelles suivantes :
-
Virtual Private Cloud (VPC) : spécifiez à quel VpcConfiguration
moment vous appelezCreateDataSource
. Pour de plus amples informations, veuillez consulter Configuration Amazon Kendra pour utiliser un Amazon VPC.
-
Mes lecteurs, lecteurs partagés, commentaires : vous pouvez indiquer si vous souhaitez analyser ces types de contenu.
-
Filtres d'inclusion et d'exclusion : vous pouvez spécifier si vous souhaitez inclure ou exclure certains comptes d'utilisateurs, disques partagés et MIME types.
La plupart des sources de données utilisent des modèles d'expressions régulières, qui sont des modèles d'inclusion ou d'exclusion appelés filtres. Si vous spécifiez un filtre d'inclusion, seul le contenu correspondant au filtre d'inclusion est indexé. Tout document qui ne correspond pas au filtre d'inclusion n'est pas indexé. Si vous spécifiez un filtre d'inclusion et d'exclusion, les documents correspondant au filtre d'exclusion ne sont pas indexés, même s'ils correspondent au filtre d'inclusion.
-
Liste de contrôle d'accès (ACL) : indiquez si vous souhaitez analyser les ACL informations de vos documents, si vous en avez une ACL et souhaitez les utiliser pour le contrôle d'accès. ACLSpécifie les documents auxquels les utilisateurs et les groupes peuvent accéder. Les ACL informations sont utilisées pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Pour plus d'informations, consultez la section Filtrage du contexte utilisateur.
-
Identity Crawler : spécifiez s'il faut activer l'explorateur Amazon Kendra d'identité. L'explorateur d'identité utilise les informations de la liste de contrôle d'accès (ACL) de vos documents pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Si vous avez un identifiant ACL pour vos documents et que vous choisissez d'utiliser le vôtreACL, vous pouvez également choisir d'activer le robot d'exploration Amazon Kendra d'identité pour configurer le filtrage des résultats de recherche par contexte utilisateur. Sinon, si le robot d'identification est désactivé, tous les documents peuvent être consultés publiquement. Si vous souhaitez utiliser le contrôle d'accès pour vos documents et que le robot d'exploration d'identité est désactivé, vous pouvez également utiliser le PutPrincipalMappingAPIpour télécharger les informations d'accès des utilisateurs et des groupes afin de filtrer le contexte des utilisateurs.
-
Mappages de champs : choisissez de mapper les champs de votre source de données Google Drive à vos champs d' Amazon Kendra index. Pour plus d'informations, veuillez consulter la rubrique Mappage des champs de source de données.
Le champ du corps du document ou l'équivalent du corps du document pour vos documents est requis pour Amazon Kendra effectuer une recherche dans vos documents. Vous devez associer le nom du champ du corps du document dans votre source de données au nom du champ d'index_document_body
. Tous les autres champs sont facultatifs.
Pour obtenir la liste des autres JSON clés importantes à configurer, consultez le schéma du modèle Google Drive.
Remarques
-
Le mappage des champs personnalisés n'est pas disponible pour le connecteur Google Drive car l'interface utilisateur de Google Drive ne permet pas de créer des champs personnalisés.
-
Google Drive API ne permet pas de récupérer les commentaires d'un fichier définitivement supprimé. Les commentaires sont toutefois récupérables pour les fichiers mis à la poubelle. Lorsqu'un fichier est détruit, le Amazon Kendra connecteur supprime les commentaires de l' Amazon Kendra index.
-
Google Drive API ne renvoie pas les commentaires présents dans un fichier .docx.
-
Si l'autorisation est accordée à un particulier Google document (document, feuille de calcul, diapositive, etc.) est défini sur Accès général : si vous possédez le lien ou si vous partagez le domaine de votre entreprise, le document ne sera pas visible pour les utilisateurs de la recherche Amazon Kendra tant que l'utilisateur à l'origine de la requête n'aura pas accédé au document.