Création d'un connecteur de source de données - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un connecteur de source de données

Vous pouvez créer un connecteur de source de données pour Amazon Kendra pour vous connecter à vos documents et les indexer. Amazon Kendra peut se connecter à Microsoft SharePoint, Google Drive et à de nombreux autres fournisseurs. Lorsque vous créez un connecteur de source de données, vous donnez Amazon Kendra les informations de configuration requises pour se connecter à votre référentiel source. Contrairement à l'ajout de documents directement à un index, vous pouvez régulièrement scanner la source de données pour mettre à jour l'index.

Supposons, par exemple, que vous disposiez d'un référentiel de documents fiscaux stocké dans un Amazon S3 seau. De temps à autre, des documents existants sont modifiés et de nouveaux documents sont ajoutés au référentiel. Si vous ajoutez le dépôt à Amazon Kendra en tant que source de données, vous pouvez maintenir votre index à jour en configurant des synchronisations périodiques entre votre source de données et votre index.

Vous pouvez choisir de mettre à jour un index manuellement à l'aide de la console ou du StartDataSourceSyncJobAPI. Sinon, vous définissez un calendrier pour mettre à jour un index et le synchroniser avec votre source de données.

Un index peut avoir plusieurs sources de données. Chaque source de données peut avoir son propre calendrier de mise à jour. Par exemple, vous pouvez mettre à jour l'index de vos documents de travail tous les jours, voire toutes les heures, tout en mettant à jour vos documents archivés manuellement chaque fois que l'archive change.

Si vous souhaitez modifier les métadonnées ou les attributs et le contenu de votre document pendant le processus d'ingestion du document, voir Amazon Kendra Enrichissement personnalisé des documents.

Note

Chaque identifiant de document doit être unique par index. Vous ne pouvez pas créer de source de données pour indexer vos documents avec leur caractère unique, IDs puis utiliser le BatchPutDocument API pour indexer les mêmes documents, ou vice versa. Vous pouvez supprimer une source de données, puis l'utiliser BatchPutDocument API pour indexer les mêmes documents, ou vice versa. En utilisant le BatchPutDocument et BatchDeleteDocument APIs en combinaison avec un Amazon Kendra un connecteur de source de données pour le même ensemble de documents peut entraîner des incohérences avec vos données. Nous vous recommandons plutôt d'utiliser le Amazon Kendra connecteur de source de données personnalisé.

Note

Les fichiers ajoutés à l'index doivent se trouver dans un flux codé de UTF -8 octets. Pour plus d'informations sur les documents dans Amazon Kendra, voir Documents.

Définition d'un calendrier de mise à jour

Configurez votre source de données pour qu'elle soit mise à jour régulièrement avec la console ou en utilisant le Schedule paramètre lorsque vous créez ou mettez à jour une source de données. Le contenu du paramètre est une chaîne contenant soit une chaîne de planification cron au format -format, soit une chaîne vide indiquant que l'index est mis à jour à la demande. Pour le format d'une expression cron, voir Expressions de planification pour les règles dans le Amazon CloudWatch Events Guide de l'utilisateur. Amazon Kendra ne prend en charge que les expressions cron. Il ne prend pas en charge les expressions de taux.

Configuration d'une langue

Vous pouvez indexer tous vos documents dans une source de données dans une langue prise en charge. Vous spécifiez le code de langue pour tous vos documents dans votre source de données lorsque vous appelez CreateDataSource. Si aucun code de langue n'est spécifié dans un champ de métadonnées, le document est indexé à l'aide du code de langue spécifié pour tous les documents au niveau de la source de données. Si vous ne spécifiez pas de langue, Amazon Kendra indexe les documents dans une source de données en anglais par défaut. Pour plus d'informations sur les langues prises en charge, y compris leurs codes, voir Ajout de documents dans des langues autres que l'anglais.

Vous indexez tous vos documents dans une source de données dans une langue prise en charge à l'aide de la console. Accédez à Sources de données et modifiez votre source de données ou à Ajouter une source de données si vous ajoutez une nouvelle source de données. Sur la page Spécifier les détails de la source de données, choisissez une langue dans la liste déroulante Langue. Vous sélectionnez Mettre à jour ou continuer à saisir les informations de configuration pour vous connecter à votre source de données.