Fonctionnalités prises en charge Conditions préalables Instructions de connexion Remarques

Connecteur Google Drive V2.0

Google Drive est un service de stockage de fichiers basé sur le cloud. Vous pouvez l'utiliser Amazon Kendra pour indexer les documents et les commentaires stockés dans les dossiers Drive partagés, Mes Drives et Shared with me de votre source de données Google Drive. Vous pouvez indexer les documents Google Workspace, ainsi que les documents répertoriés dans la section Types de documentation. Vous pouvez également utiliser des filtres d'inclusion et d'exclusion pour indexer le contenu par nom de fichier, type de fichier et chemin de fichier.

Note

Connecteur Google Drive V1.0/ L' DriveConfiguration API Google a pris fin en 2023. Nous vous recommandons de migrer vers ou d'utiliser le connecteur Google Drive TemplateConfiguration V2.0/API.

Pour résoudre les problèmes liés à votre connecteur de source de données Amazon Kendra Google Drive, consultezDépannage des sources de données.

Fonctionnalités prises en charge

Mappages de champs
Contrôle d'accès utilisateur
Filtres d’inclusion et d’exclusion
Synchronisation complète et incrémentielle du contenu
Cloud privé virtuel (VPC)

Conditions préalables

Avant de pouvoir Amazon Kendra indexer votre source de données Google Drive, apportez ces modifications à votre Google Drive et à vos AWS comptes.

Dans Google Drive, assurez-vous que vous disposez des éléments suivants :

Soit vous avez obtenu l’accès par un rôle de super administrateur, soit vous êtes un utilisateur doté de privilèges administratifs. Vous n’avez pas besoin d’un rôle de super administrateur si l’accès vous a été accordé par un rôle de super administrateur.
Configuré des informations d’identification de connexion au compte de service Google Drive contenant l’adresse e-mail de votre compte administrateur, l’adresse e-mail du client (adresse e-mail du compte de service) et votre clé privée. Consultez la Documentation Google Cloud sur la création et la suppression de clés de compte de service.

Note
Nous vous recommandons d’actualiser ou de modifier régulièrement vos informations d’identification et votre secret. Pour votre propre sécurité, fournissez uniquement le niveau d’accès nécessaire. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).
Vous avez créé un compte de service Google Cloud (un compte doté de l'autorité déléguée pour assumer une identité d'utilisateur) avec l'activation de l'option Activer la délégation à l'échelle du domaine G Suite à des fins server-to-server d'authentification, puis généré une clé privée JSON à l'aide du compte.

Note
La clé privée doit être générée après la création du compte de service.
Ajouté l’API du kit SDK d’administration et l’API Google Drive dans votre compte utilisateur.
Facultatif : J'ai configuré les informations de connexion Google Drive OAuth 2.0 contenant l'identifiant du client, le secret du client et le jeton d'actualisation en tant qu'informations de connexion pour un utilisateur spécifique. Vous en avez besoin pour indexer les données de chaque compte. Consultez la documentation Google sur l'utilisation de la OAuth version 2.0 pour y accéder APIs.
Vous avez ajouté (ou demandé à un utilisateur doté d'un rôle de super administrateur d'ajouter) les OAuth étendues suivantes à votre compte de service à l'aide d'un rôle de super administrateur. Ces portées d’API sont nécessaires pour indexer tous les documents et les informations de liste de contrôle d’accès (ACL) pour tous les utilisateurs d’un domaine Google Workspace :
- https://www.googleapis.com/auth/Drive.readOnly : affichez et téléchargez tous vos fichiers Google Drive
- https://www.googleapis.com/auth/drive.metadata.readonly : affiche les métadonnées des fichiers de votre Google Drive
- https://www.googleapis.com/auth/Admin.Directory.Group.ReadOnly : possibilité de récupérer uniquement les informations relatives au groupe, à l'alias du groupe et aux membres. Cela est nécessaire pour l' Amazon Kendra Identity Crawler.
- https://www.googleapis.com/auth/Admin.Directory.User.ReadOnly : possibilité de récupérer uniquement les utilisateurs ou les alias d'utilisateurs. Cela est nécessaire pour répertorier les utilisateurs dans Amazon Kendra Identity Crawler et pour le ACLs paramétrer.
- https://www.googleapis.com/auth/Plateforme cloud : possibilité de générer un jeton d'accès pour récupérer le contenu de fichiers Google Drive volumineux.
- https://www.googleapis.com/auth/forms.body.readonly : possibilité de récupérer des données depuis Google Forms.
Pour prendre en charge l'API Forms, ajoutez le champ d'application supplémentaire suivant :
- https://www.googleapis.com/auth/forms.body.readonly
Il est vérifié que chaque document est unique dans Google Drive et dans les autres sources de données que vous prévoyez d'utiliser pour le même index. Chaque source de données que vous souhaitez utiliser pour un index ne doit pas contenir le même document dans toutes les sources de données. IDs Les documents sont globaux par rapport à un index et doivent être uniques par index.

Dans votre Compte AWS, assurez-vous d'avoir :

Création d'un Amazon Kendra index et, si vous utilisez l'API, notez l'ID de l'index.
Vous avez créé un IAM rôle pour votre source de données et, si vous utilisez l'API, notez l'ARN du IAM rôle.

Note
Si vous modifiez votre type d'authentification et vos informations d'identification, vous devez mettre à jour votre IAM rôle pour accéder au bon identifiant AWS Secrets Manager secret.
Stockez vos informations d'authentification Google Drive dans un AWS Secrets Manager secret et, si vous utilisez l'API, notez l'ARN du secret.

Note
Nous vous recommandons d’actualiser ou de modifier régulièrement vos informations d’identification et votre secret. Pour votre propre sécurité, fournissez uniquement le niveau d’accès nécessaire. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).

Si vous n'avez pas de IAM rôle ou de secret existant, vous pouvez utiliser la console pour créer un nouveau IAM rôle et un nouveau Secrets Manager secret lorsque vous connectez votre source de données Google Drive à Amazon Kendra. Si vous utilisez l'API, vous devez fournir l'ARN d'un IAM rôle et d'un Secrets Manager secret existants, ainsi qu'un identifiant d'index.

Instructions de connexion

Pour vous connecter Amazon Kendra à votre source de données Google Drive, vous devez fournir les informations nécessaires sur votre source de données Google Drive afin de Amazon Kendra pouvoir accéder à vos données. Si vous n'avez pas encore configuré Google Drive pour Amazon Kendra voirConditions préalables.

Console

Pour vous connecter Amazon Kendra à Google Drive

Connectez-vous à la Amazon Kendra console Console de gestion AWS et ouvrez-la.
Dans le volet de navigation de gauche, choisissez Index, puis choisissez l'index que vous souhaitez utiliser dans la liste des index.

Note
Vous pouvez choisir de configurer ou de modifier vos paramètres de contrôle d'accès utilisateur dans les paramètres de l'index.
Sur la page de démarrage, choisissez Ajouter une source de données.
Sur la page Ajouter une source de données, choisissez le connecteur Google Drive, puis sélectionnez Ajouter un connecteur. Si vous utilisez la version 2 (le cas échéant), choisissez le connecteur Google Drive avec la balise « V2.0 ».
Sur la page Spécifier les détails de la source de données, entrez les informations suivantes :
1. Dans Nom et description, pour Nom de la source de données : entrez le nom de votre source de données. Vous pouvez inclure des tirets, mais pas des espaces.
2. (Facultatif) Description : entrez une description facultative pour votre source de données.
3. Dans la langue par défaut : choisissez une langue pour filtrer vos documents pour l'index. Sauf indication contraire, la langue par défaut est l'anglais. La langue spécifiée dans les métadonnées du document remplace la langue sélectionnée.
4. Dans Balises, pour Ajouter une nouvelle balise : incluez des balises facultatives pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.
5. Choisissez Suivant.
Sur la page Définir l'accès et la sécurité, entrez les informations suivantes :
1. Autorisation : activez ou désactivez les informations de la liste de contrôle d'accès (ACL) pour vos documents, si vous disposez d'une ACL et que vous souhaitez l'utiliser pour le contrôle d'accès. L'ACL indique les documents auxquels les utilisateurs et les groupes peuvent accéder. Les informations ACL sont utilisées pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Pour plus d'informations, consultez la section Filtrage du contexte utilisateur.
2. Pour l'authentification : choisissez entre un compte de service Google et une authentification OAuth 2.0 en fonction de votre cas d'utilisation.
3. AWS Secrets Manager secret —Choisissez un secret existant ou créez-en un nouveau Secrets Manager pour stocker vos informations d'authentification Google Drive. Si vous choisissez de créer un nouveau secret, une fenêtre AWS Secrets Manager secrète s'ouvre.
  1. Si vous avez choisi un compte de service Google, saisissez le nom de votre code secret, l'identifiant e-mail de l'utilisateur administrateur ou « utilisateur du compte de service » dans la configuration de votre compte de service (e-mail d'administrateur), l'identifiant e-mail du compte de service (e-mail du client) et la clé privée que vous avez créée dans votre compte de service.
    
    Enregistrez et ajoutez votre secret
  2. Si vous avez choisi l'authentification OAuth 2.0, entrez un nom pour votre code secret, votre identifiant client, votre secret client et le jeton d'actualisation que vous avez créé dans votre OAuth compte. L'identifiant de messagerie de l'utilisateur (utilisateur dont les détails de connexion sont configurés) sera défini comme ACL. Le connecteur ne définit pas les autres informations user/group principales sous forme d'ACL en raison des limites de l'API.
    
    Enregistrez et ajoutez votre secret.
4. Virtual Private Cloud (VPC) —Vous pouvez choisir d'utiliser un VPC. Dans ce cas, vous devez ajouter des sous-réseaux et des groupes de sécurité VPC.
5. (Pour les utilisateurs authentifiés par un compte de service Google uniquement)
  
  Identity Crawler : spécifiez s'il faut activer l'explorateur Amazon Kendra d'identité. Le robot d'exploration d'identité utilise les informations de la liste de contrôle d'accès (ACL) de vos documents pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Si vous disposez d'une ACL pour vos documents et que vous choisissez de l'utiliser, vous pouvez également choisir d'activer le robot d'exploration Amazon Kendra d'identité pour configurer le filtrage des résultats de recherche par contexte utilisateur. Sinon, si le robot d’identité est désactivé, tous les documents peuvent faire l’objet d’une recherche publique. Si vous souhaitez utiliser le contrôle d'accès pour vos documents et que le robot d'exploration d'identité est désactivé, vous pouvez également utiliser l'PutPrincipalMappingAPI pour télécharger les informations d'accès des utilisateurs et des groupes afin de filtrer le contexte utilisateur.
6. IAM rôle —Choisissez un IAM rôle existant ou créez-en un nouveau IAM pour accéder aux informations d'identification de votre référentiel et indexer le contenu.
  
  Note
  IAM les rôles utilisés pour les index ne peuvent pas être utilisés pour les sources de données. Si vous ne savez pas si un rôle existant est utilisé pour un index ou une FAQ, choisissez Créer un nouveau rôle pour éviter les erreurs.
7. Choisissez Suivant.
Sur la page Configurer les paramètres de synchronisation, entrez les informations suivantes :
1. Synchroniser le contenu : sélectionnez les options ou le contenu que vous souhaitez analyser. Vous pouvez choisir d'explorer My Drive (dossiers personnels), Shared Drive (dossiers partagés avec vous) ou les deux. Vous pouvez également inclure des commentaires sur les fichiers.
2. Dans Configuration supplémentaire - facultatif Vous pouvez également saisir les informations facultatives suivantes :
  1. Taille maximale des fichiers : définissez la taille maximale MBs des fichiers à analyser.
  2. E-mail utilisateur : ajoutez les e-mails utilisateur que vous souhaitez inclure ou exclure.
  3. Lecteurs partagés : ajoutez les noms des lecteurs partagés que vous souhaitez inclure ou exclure.
  4. Types MIME : ajoutez les types MIME que vous souhaitez inclure ou exclure.
  5. Modèles d'expression régulière d'entité : ajoutez des modèles d'expressions régulières pour inclure ou exclure certaines pièces jointes pour toutes les entités prises en charge. Vous pouvez ajouter jusqu’à 100 modèles.
    
    Vous pouvez configurer des modèles d' include/exclude expression régulière pour le nom de fichier, le type de fichier et le chemin du fichier.
    - Nom du fichier : nom du fichier à inclure ou à exclure. Par exemple, pour indexer un fichier avec un nomteamroster.txt, fournissezteamroster.
    - Type de fichier : type de fichier à inclure ou à exclure. Par exemple, .pdf .txt .docx.
    - Chemin du fichier : chemin du fichier à inclure ou à exclure. Par exemple, pour indexer des fichiers uniquement dans le dossier Products list d'un lecteur, fournissez/Products list.
3. Mode de synchronisation : choisissez la manière dont vous souhaitez mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation.
  - Synchronisation complète : Indexez tout le contenu fraîchement, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.
  - Nouvelle synchronisation modifiée : Indexez uniquement le contenu nouveau et modifié chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
  - Synchronisation nouvelle, modifiée ou supprimée : Indexez uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
  Important
  L’API Google Drive ne permet pas d’extraire les commentaires d’un fichier définitivement supprimé. Les commentaires des fichiers mis à la poubelle sont récupérables. Lorsqu'un fichier est détruit, le connecteur supprime les commentaires de l' Amazon Kendra index.
4. Dans Calendrier d'exécution de la synchronisation, pour Fréquence, choisissez la fréquence à laquelle vous souhaitez synchroniser le contenu de votre source de données et mettre à jour votre index.
5. Dans Synchroniser l'historique des exécutions, choisissez de stocker les rapports générés automatiquement dans et Amazon S3 lors de la synchronisation de votre source de données. Cela est utile pour suivre les problèmes lors de la synchronisation de votre source de données.
6. Choisissez Suivant.
Sur la page Définir les mappages de champs, entrez les informations suivantes :
1. Pour les fichiers : sélectionnez parmi les champs de source de données par défaut Amazon Kendra générés que vous souhaitez mapper à votre index.
  
  Note
  L'API Google Drive ne permet pas de créer des champs personnalisés. Le mappage de champs personnalisé n'est pas disponible pour le connecteur Google Drive.
2. Choisissez Suivant.
Sur la page Réviser et créer, vérifiez que les informations saisies sont correctes, puis sélectionnez Ajouter une source de données. Vous pouvez également choisir de modifier vos informations depuis cette page. Votre source de données apparaîtra sur la page Sources de données une fois que la source de données aura été ajoutée avec succès.

API

Pour vous connecter Amazon Kendra à Google Drive

Vous devez spécifier un JSON du schéma de source de données à l'aide de l'TemplateConfigurationAPI. Vous devez fournir les informations suivantes :

Source de données —Spécifiez le type de source de données tel que GOOGLEDRIVEV2 lorsque vous utilisez le schéma TemplateConfigurationJSON. Spécifiez également la source de données TEMPLATE lorsque vous appelez l'CreateDataSourceAPI.
Type d'authentification : spécifiez si vous souhaitez utiliser l'authentification du compte de service ou l'authentification OAuth 2.0.
Mode de synchronisation : spécifiez comment Amazon Kendra mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation. Vous pouvez choisir entre :
- FORCED_FULL_CRAWLpour indexer à nouveau tout le contenu, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.
- FULL_CRAWLpour indexer uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
- CHANGE_LOGpour indexer uniquement le contenu nouveau et modifié chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.
Important
L’API Google Drive ne permet pas d’extraire les commentaires d’un fichier définitivement supprimé. Les commentaires des fichiers mis à la poubelle sont récupérables. Lorsqu'un fichier est détruit, le connecteur supprime les commentaires de l' Amazon Kendra index.
Nom de ressource Amazon (ARN) secret : indiquez le nom de ressource Amazon (ARN) d'un Secrets Manager secret contenant les informations d'authentification que vous avez créées dans votre compte Google Drive. Si vous utilisez l'authentification par compte de service Google, le secret est stocké dans une structure JSON avec les clés suivantes :
```
{
    "clientEmail": "user account email",
    "adminAccountEmail": "service account email",
    "privateKey": "private key"
}
```
Si vous utilisez l'authentification OAuth 2.0, le secret est stocké dans une structure JSON avec les clés suivantes :
```
{
    "clientID": "OAuth client ID",
    "clientSecret": "client secret",
    "refreshToken": "refresh token"
}
```
IAM role —Spécifiez à quel RoleArn moment vous appelez CreateDataSource pour fournir à un IAM rôle les autorisations d'accéder à votre Secrets Manager secret et d'appeler le public requis APIs pour le connecteur Google Drive et Amazon Kendra. Pour plus d'informations, consultez la section IAM Rôles des sources de données Google Drive.

Vous pouvez également ajouter les fonctionnalités optionnelles suivantes :

Virtual Private Cloud (VPC) VpcConfiguration —Spécifiez le moment de votre appel. CreateDataSource Pour de plus amples informations, veuillez consulter Configuration Amazon Kendra pour utiliser un Amazon VPC.
Mes lecteurs, lecteurs partagés, commentaires : vous pouvez indiquer si vous souhaitez analyser ces types de contenu.
Filtres d'inclusion et d'exclusion : vous pouvez spécifier si vous souhaitez inclure ou exclure certains comptes utilisateurs, lecteurs partagés et types MIME.

Note
La plupart des sources de données utilisent des modèles d’expressions régulières, qui sont des modèles d’inclusion ou d’exclusion appelés filtres. Si vous spécifiez un filtre d’inclusion, seul le contenu correspondant au filtre d’inclusion est indexé. Tout document qui ne correspond pas au filtre d'inclusion n'est pas indexé. Si vous spécifiez un filtre d'inclusion et d'exclusion, les documents correspondant au filtre d'exclusion ne sont pas indexés, même s'ils correspondent au filtre d'inclusion.
Liste de contrôle d'accès (ACL) : indiquez si vous souhaitez analyser les informations ACL de vos documents, si vous disposez d'une ACL et souhaitez l'utiliser pour le contrôle d'accès. L'ACL indique les documents auxquels les utilisateurs et les groupes peuvent accéder. Les informations ACL sont utilisées pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Pour plus d'informations, consultez la section Filtrage du contexte utilisateur.
Identity Crawler : spécifiez s'il faut activer l'explorateur Amazon Kendra d'identité. Le robot d'exploration d'identité utilise les informations de la liste de contrôle d'accès (ACL) de vos documents pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Si vous disposez d'une ACL pour vos documents et que vous choisissez de l'utiliser, vous pouvez également choisir d'activer le robot d'exploration Amazon Kendra d'identité pour configurer le filtrage des résultats de recherche par contexte utilisateur. Sinon, si le robot d’identité est désactivé, tous les documents peuvent faire l’objet d’une recherche publique. Si vous souhaitez utiliser le contrôle d'accès pour vos documents et que le robot d'exploration d'identité est désactivé, vous pouvez également utiliser l'PutPrincipalMappingAPI pour télécharger les informations d'accès des utilisateurs et des groupes afin de filtrer le contexte utilisateur.
Mappages de champs : choisissez de mapper les champs de votre source de données Google Drive à vos champs d' Amazon Kendra index. Pour plus d’informations, consultez Mappage des champs de source de données.

Note
Le champ du corps du document ou l'équivalent du corps du document pour vos documents est requis pour Amazon Kendra effectuer une recherche dans vos documents. Vous devez associer le nom du champ du corps du document dans votre source de données au nom du champ d'index_document_body. Tous les autres champs sont facultatifs.

Pour obtenir la liste des autres clés JSON importantes à configurer, consultez le schéma du modèle Google Drive.

Remarques

Le mappage des champs personnalisés n’est pas disponible pour le connecteur Google Drive, car l’interface utilisateur de Google Drive ne permet pas de créer des champs personnalisés.
L'API Google Drive ne permet pas de récupérer les commentaires d'un fichier définitivement supprimé. Les commentaires peuvent toutefois être extraits pour les fichiers mis à la corbeille. Lorsqu'un fichier est détruit, le Amazon Kendra connecteur supprime les commentaires de l' Amazon Kendra index.
L’API Google Drive ne renvoie pas les commentaires présents dans un fichier .docx.
Si l'autorisation pour un document en particulier Google document (document, feuille de calcul, diapositive, etc.) est définie sur Accès général : toute personne disposant du lien ou ayant partagé le domaine spécifique de votre entreprise, le document ne sera pas visible pour les utilisateurs de la recherche Amazon Kendra tant que l'utilisateur ayant effectué la requête n'aura pas accédé au document.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Connecteur Google Drive V1.0

IBM DB2

Connecteur Google Drive V2.0

Note

Rubriques

Fonctionnalités prises en charge

Conditions préalables

Note

Note

Note

Note

Instructions de connexion

Note

Note

Important

Note

Important

Note

Note

Remarques