Synchronisez vos données avec votre base de connaissances Amazon Bedrock

Après avoir créé votre base de connaissances, vous ingérez ou synchronisez vos données afin qu'elles puissent être consultées. L'ingestion convertit les données brutes de votre source de données en intégrations vectorielles. Avant de commencer l'ingestion, vérifiez que votre source de données remplit les conditions suivantes :

Vous avez configuré les informations de connexion pour votre source de données. Pour configurer un connecteur de source de données afin d'analyser vos données depuis votre référentiel de sources de données, consultez la section Connecteurs de source de données pris en charge.
Les fichiers sont dans des formats pris en charge. Pour plus d'informations, consultez la section Formats des documents de support.
Les fichiers ne dépassent pas la taille maximale spécifiée dansQuotas de base de connaissances.
Si votre source de données contient des fichiers de métadonnées, vérifiez les conditions suivantes pour vous assurer que les fichiers de métadonnées ne sont pas ignorés :
- Chaque .metadata.json fichier porte le même nom et la même extension que le fichier source auquel il est associé.
- Si l'index vectoriel de votre base de connaissances se trouve dans un magasin de vecteurs Amazon OpenSearch Serverless, vérifiez qu'il est configuré avec le faiss moteur. Si l'index vectoriel est configuré avec le nmslib moteur, vous devrez effectuer l'une des opérations suivantes :
  - Créez une nouvelle base de connaissances dans la console et laissez Amazon Bedrock créer automatiquement un index vectoriel dans Amazon OpenSearch Serverless pour vous.
  - Créez un autre index vectoriel dans le magasin de vecteurs et sélectionnez-le faiss comme moteur. Créez ensuite une nouvelle base de connaissances et spécifiez le nouvel index vectoriel.
- Si l'index vectoriel de votre base de connaissances se trouve dans un cluster de bases de données Amazon Aurora, vérifiez que la table de votre index contient une colonne pour chaque propriété de métadonnées de vos fichiers de métadonnées avant de commencer l'ingestion.

Note

Chaque fois que vous ajoutez, modifiez ou supprimez des fichiers de votre source de données, vous devez synchroniser la source de données afin qu'elle soit réindexée dans la base de connaissances. La synchronisation étant incrémentielle, Amazon Bedrock ne traite que les documents ajoutés, modifiés ou supprimés depuis la dernière synchronisation.

Pour savoir comment synchroniser votre source de données et intégrer vos données dans votre base de connaissances, sélectionnez l'onglet correspondant à la méthode de votre choix et suivez les étapes.

Console

Pour synchroniser votre source de données et ingérer vos données

Ouvrez la console Amazon Bedrock à https://console.aws.amazon.com/bedrock/l'adresse.
Dans le volet de navigation de gauche, sélectionnez Base de connaissances et choisissez votre base de connaissances.
Dans la section Source de données, sélectionnez Synchroniser pour commencer l’ingestion de données.
Lorsque l’ingestion de données est terminée, une bannière verte apparaît en cas de réussite.

Note
Une fois la synchronisation des données terminée, les intégrations vectorielles des données récemment synchronisées peuvent prendre quelques minutes pour apparaître dans votre base de connaissances et être disponibles pour demander si vous utilisez un magasin vectoriel autre qu'Amazon Aurora (). RDS
Vous pouvez choisir une source de données pour afficher son historique de synchronisation. Sélectionnez Afficher les avertissements pour savoir pourquoi une tâche d’ingestion de données a échoué.

API

Pour synchroniser votre source de données et intégrer vos données dans votre base de connaissances, envoyez une StartIngestionJobdemande à un point de terminaison Agents for Amazon Bedrock Build-time. Spécifiez le knowledgeBaseId etdataSourceId.

Utilisez le résultat ingestionJobId renvoyé dans la réponse à une GetIngestionJobdemande adressée à un point de terminaison Agents for Amazon Bedrock pour suivre l'état de la tâche d'ingestion. En outre, spécifiez le knowledgeBaseId etdataSourceId.

Lorsque la tâche d’ingestion est terminée, l’élément status de la réponse indique COMPLETE.

Note
Une fois l'ingestion des données terminée, les intégrations vectorielles des données nouvellement ingérées peuvent prendre quelques minutes pour être disponibles dans le magasin de vecteurs afin de demander si vous utilisez un magasin vectoriel autre qu'Amazon Aurora (). RDS
L’objet statistics de la réponse renvoie des informations indiquant si l’ingestion a réussi ou non pour les documents dans la source de données.

Vous pouvez également consulter les informations relatives à toutes les tâches d'ingestion d'une source de données en envoyant une ListIngestionJobsdemande à un point de terminaison Agents for Amazon Bedrock au moment de la création. Spécifiez le dataSourceId et le knowledgeBaseId de la base de connaissances dans laquelle les données sont ingérées.

Filtrez les résultats en spécifiant le statut à rechercher dans l’objet filters.
Pour effectuer un tri en fonction de l’heure à laquelle la tâche a été lancée ou du statut d’une tâche, spécifiez l’objet sortBy. Vous pouvez spécifier un ordre de tri croissant ou décroissant.
Spécifiez le nombre maximum de résultats à renvoyer en réponse dans le champ maxResults. S'il y a plus de résultats que le nombre que vous avez défini, la réponse renvoie un nextToken que vous pouvez envoyer dans une autre ListIngestionJobsdemande pour voir le prochain lot de tâches.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Explorateur Web

Afficher les informations relatives à une source de données