

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Synchronisation de vos données avec votre base de connaissances Amazon Bedrock
<a name="kb-data-source-sync-ingest"></a>

Après avoir créé votre base de connaissances, vous devez ingérer ou synchroniser vos données afin qu’elles puissent être interrogées. L’ingestion convertit les données brutes de votre source de données en vectorisations, sur la base du modèle de vectorisation et des configurations que vous avez spécifiés.

Avant de commencer l’ingestion, vérifiez que votre source de données remplit les conditions suivantes :
+ Vous avez configuré les informations de connexion pour votre source de données. Pour configurer un connecteur de source de données afin d’analyser vos données depuis votre référentiel de sources de données, consultez [Connecteurs de source de données pris en charge](https://docs.aws.amazon.com/bedrock/latest/userguide/data-source-connectors.html). Vous configurez votre source de données dans le cadre de la création de votre base de connaissances.
+ Vous avez configuré le modèle de vectorisation et le magasin de vecteurs que vous avez choisis. Consultez les [modèles de vectorisation pris en charge](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-supported.html) et les [magasins de vecteurs pour les bases de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-setup.html). Vous configurez vos vectorisations dans le cadre de la création de votre base de connaissances.
+ Le format des fichiers est pris en charge. Pour plus d’informations, consultez [Formats de documents pris en charge](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html#kb-ds-supported-doc-formats-limits).
+ Les fichiers ne dépassent pas la **taille des fichiers de tâche d’ingestion** spécifiée dans [Points de terminaison et quotas Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html) dans les Références générales AWS.
+ Si votre source de données contient des fichiers de métadonnées, vérifiez les conditions suivantes pour vous assurer qu’ils ne sont pas ignorés :
  + Chaque fichier `.metadata.json` porte le même nom et la même extension que le fichier source auquel il est associé.
  + Si l'index vectoriel de votre base de connaissances se trouve dans un magasin de vecteurs Amazon OpenSearch Serverless, vérifiez qu'il est configuré avec le `faiss` moteur. Si l’index vectoriel est configuré avec le moteur `nmslib`, vous devrez effectuer l’une des opérations suivantes :
    + [Créez une nouvelle base de connaissances](knowledge-base-create.md) dans la console et laissez Amazon Bedrock créer automatiquement un index vectoriel dans Amazon OpenSearch Serverless pour vous.
    + [Créer un autre index vectoriel](knowledge-base-setup.md) dans le magasin de vecteurs et sélectionner `faiss` comme **moteur** [Créer ensuite une base de connaissances](knowledge-base-create.md) et spécifier le nouvel index vectoriel
  + Si l’index vectoriel de votre base de connaissances se trouve dans un cluster de bases de données Amazon Aurora, nous vous recommandons d’utiliser le champ de métadonnées personnalisées pour stocker toutes vos métadonnées dans une seule colonne et de créer un index sur cette colonne. Si vous ne fournissez pas de champ de métadonnées personnalisées, vous devez vérifier que le tableau de votre index contient une colonne pour chaque propriété de métadonnées de vos fichiers de métadonnées avant de commencer l’ingestion. Pour de plus amples informations, veuillez consulter [Conditions préalables à l’utilisation d’un magasin de vecteurs que vous avez créé pour une base de connaissances](knowledge-base-setup.md).

Chaque fois que vous ajoutez, modifiez ou supprimez des fichiers de votre source de données, vous devez synchroniser cette dernière afin qu’elle soit réindexée dans la base de connaissances. La synchronisation étant incrémentielle, Amazon Bedrock ne traite que les documents ajoutés, modifiés ou supprimés depuis la dernière synchronisation.

## Comment une base de connaissances gère les resynchronisations
<a name="kb-data-source-sync-ingest-resync"></a>

Chaque fois que vous ajoutez, modifiez ou supprimez des fichiers de votre source de données, vous devez synchroniser la source de données afin qu'elle soit réindexée dans la base de connaissances. La synchronisation étant incrémentielle, Amazon Bedrock traite uniquement les documents ajoutés, modifiés ou supprimés depuis la dernière synchronisation. Lorsque vous synchronisez une source de données, Amazon Bedrock réingère les documents pour garantir leur précision et leur cohérence. La réingestion inclut l'analyse, le découpage, la génération d'intégrations et l'indexation dans le magasin de vecteurs.


**Scénarios de synchronisation**  

| Scénario | Que se passe-t-il | 
| --- | --- | 
| Aucune modification détectée | Le document est ignoré. | 
| Contenu ou métadonnées modifiés | Le document est réingéré (réanalysé, redécoupé, réintégré et réindexé). | 
| Nouveau document ajouté | Seul le nouveau document est ingéré. | 
| Document supprimé | Le document est supprimé du magasin de vecteurs. | 

### Optimisation basée uniquement sur les métadonnées
<a name="kb-data-source-sync-ingest-metadata-optimization"></a>

Dans certains cas, Amazon Bedrock peut mettre à jour les métadonnées sans réingérer le document associé à ce fichier de métadonnées. Cette optimisation récupère les intégrations vectorielles existantes dans le magasin de vecteurs, fusionne les nouvelles métadonnées et réécrit les intégrations mises à jour, ce qui évite d'appeler le modèle d'intégration.

Cette optimisation ne s'applique que lorsque toutes les conditions suivantes sont réunies :
+ Seuls `metadata.json` les fichiers sont modifiés. Aucun fichier de contenu n'est modifié.
+ Les fichiers de contenu associés ne sont pas des fichiers CSV.
+ La source de données n'utilise pas de fonction Lambda de transformation personnalisée.

### Comportement de réingestion pour les fichiers CSV
<a name="kb-data-source-sync-ingest-csv-reingestion"></a>

Les fichiers CSV utilisent le `documentStructureConfiguration` champ dans les métadonnées pour contrôler les colonnes indexées. Amazon Bedrock ne pouvant pas déterminer si cette configuration structurelle a changé sans retraiter le fichier, les fichiers CSV sont toujours réingérés lorsque leurs fichiers de métadonnées sont mis à jour.

Pour découvrir comment intégrer vos données dans votre base de connaissances et les synchroniser avec vos données les plus récentes, choisissez l’onglet correspondant à votre méthode préférée, puis suivez les étapes :

------
#### [ Console ]

**Pour intégrer vos données dans votre base de connaissances et les synchroniser avec vos données les plus récentes**

1. Ouvrez la console Amazon Bedrock à [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)l'adresse.

1. Dans le volet de navigation de gauche, sélectionnez **Base de connaissances** et choisissez votre base de connaissances.

1. Dans la section **Source de données**, sélectionnez **Synchroniser** pour commencer l’ingestion de données ou la synchronisation avec vos données les plus récentes. Pour arrêter une source de données en cours de synchronisation, sélectionnez **Arrêter**. Une source de données doit être en cours de synchronisation pour arrêter la synchronisation de la source de données. Vous pouvez sélectionner à nouveau **Synchroniser** pour ingérer le reste de vos données.

1. Lorsque l’ingestion de données est terminée, une bannière verte apparaît en cas de réussite.
**Note**  
Une fois la synchronisation des données terminée, les vectorisations des données récemment synchronisées peuvent prendre quelques minutes pour apparaître dans votre base de connaissances et pouvoir être interrogées si vous utilisez un magasin de vecteurs autre qu’Amazon Aurora (RDS).

1. Vous pouvez choisir une source de données pour afficher son **historique de synchronisation**. Sélectionnez **Afficher les avertissements** pour savoir pourquoi une tâche d’ingestion de données a échoué.

------
#### [ API ]

Pour intégrer vos données dans votre base de connaissances et les synchroniser avec vos données les plus récentes, envoyez une [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)demande à un point de terminaison [Agents for Amazon Bedrock Build-time](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt). Spécifiez `knowledgeBaseId` et `dataSourceId`. Vous pouvez également arrêter une tâche d'ingestion de données en cours d'exécution en envoyant une [StopIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StopIngestionJob.html)demande. Spécifiez `dataSourceId`, `ingestionJobId` et `knowledgeBaseId`. Une tâche d’ingestion de données doit être en cours d’exécution pour arrêter l’ingestion de données. Vous pouvez envoyer à nouveau une demande `StartIngestionJob` pour ingérer le reste de vos données lorsque vous serez prêt.

Utilisez le résultat `ingestionJobId` renvoyé dans la réponse à une [GetIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_GetIngestionJob.html)demande adressée à un point de [terminaison Agents for Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt) pour suivre l'état de la tâche d'ingestion. Spécifiez également `knowledgeBaseId` et `dataSourceId`.
+ Lorsque la tâche d’ingestion est terminée, l’élément `status` de la réponse indique `COMPLETE`.
**Note**  
Une fois l’ingestion de données terminée, les vectorisations des données récemment ingérées peuvent prendre quelques minutes pour être disponibles dans le magasin de vecteurs afin pouvoir être interrogées si vous utilisez un magasin de vecteurs autre qu’Amazon Aurora (RDS).
+ L’objet `statistics` de la réponse renvoie des informations indiquant si l’ingestion a réussi ou non pour les documents dans la source de données.

Vous pouvez également consulter les informations relatives à toutes les tâches d'ingestion d'une source de données en envoyant une [ListIngestionJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ListIngestionJobs.html)demande à un point de terminaison [Agents for Amazon Bedrock au moment de la création.](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt) Spécifiez le `dataSourceId` et le `knowledgeBaseId` de la base de connaissances dans laquelle les données sont ingérées.
+ Filtrez les résultats en spécifiant le statut à rechercher dans l’objet `filters`.
+ Pour effectuer un tri en fonction de l’heure à laquelle la tâche a été lancée ou du statut d’une tâche, spécifiez l’objet `sortBy`. Vous pouvez spécifier un ordre de tri croissant ou décroissant.
+ Spécifiez le nombre maximum de résultats à renvoyer en réponse dans le champ `maxResults`. Si le nombre de résultats est supérieur à ce que vous avez défini, la réponse renvoie un `nextToken` que vous pouvez envoyer dans une autre demande [ListIngestionJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ListIngestionJobs.html) afin de voir le lot suivant de tâches.

------