

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases
<a name="knowledge-base-create"></a>

Lorsque vous créez une base de connaissances en vous connectant à une source de données, vous configurez ou spécifiez les éléments suivants :
+ Informations générales qui définissent et identifient la base de connaissances
+ Rôle de service avec autorisations d’accès à la base de connaissances
+ Configurations pour la base de connaissances, y compris le modèle de vectorisation à utiliser lors de la conversion des données à partir de la source de données, les configurations de stockage pour le service dans lequel les vectorisations doivent être stockées et, éventuellement, un emplacement S3 pour stocker les données multimodales

**Note**  
Vous ne pouvez créer aucune base de connaissances avec un utilisateur racine. Connectez-vous avec un utilisateur IAM avant de commencer ces étapes.

Développez la section correspondant à votre cas d’utilisation :

## Utilisation de la console
<a name="knowledge-base-create-console"></a>

**Pour configurer une base de connaissances**

1. Connectez-vous au AWS Management Console avec une identité IAM autorisée à utiliser la console Amazon Bedrock. Ouvrez ensuite la console Amazon Bedrock à l'adresse [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. Dans le volet de navigation de gauche, sélectionnez **Bases de connaissances**.

1. Dans la section **Bases de connaissances**, cliquez sur le bouton Créer et sélectionnez l’option permettant de créer une base de connaissances avec un magasin de vecteurs.

1. (Facultatif) Modifiez le nom par défaut et fournissez une description de votre base de connaissances.

1. Choisissez un rôle Gestion des identités et des accès AWS (IAM) qui autorise Amazon Bedrock à accéder aux autres services requis. AWS Vous pouvez soit laisser Amazon Bedrock créer le rôle de service, soit choisir d’utiliser votre [rôle personnalisé que vous avez créé pour l’analytique Neptune](kb-permissions.md#kb-permissions-neptune).

1. Choisissez une source de données à laquelle connecter votre base de connaissances.

1. (Facultatif) Ajoutez des balises à votre base de connaissances. Pour de plus amples informations, veuillez consulter [Balisage des ressources Amazon Bedrock](tagging.md).

1. (Facultatif) Configurez les services pour lesquels vous souhaitez fournir des journaux d’activité pour votre base de connaissances.

1. Passez à la section suivante et suivez les étapes décrites sous [Connexion d’une source de données à votre base de connaissances](data-source-connectors.md) pour configurer une source de données.

1. Dans la section **Modèle de représentations vectorielles continues**, procédez comme suit :

   1. Choisissez un modèle de vectorisation pour convertir vos données en vectorisations. Pour les données multimodales (images, audio et vidéo), sélectionnez un modèle d'intégration multimodal tel qu'Amazon Titan Multimodal Embeddings G1 ou Cohere Embed v3.
**Note**  
Lorsque vous utilisez Amazon Titan Multimodal Embeddings G1, vous devez fournir un compartiment de contenu S3 et vous ne pouvez utiliser que l'analyseur par défaut. Ce modèle est optimisé pour les cas d'utilisation de la recherche d'images. Pour des conseils complets sur le choix entre les approches multimodales, voir[Création d'une base de connaissances pour le contenu multimodal](kb-multimodal.md).

   1. (Facultatif) Développez la section **Configurations supplémentaires** pour afficher les options de configuration suivantes (sachant que certains modèles ne prennent pas en charge certaines configurations) :
      + **Type de vectorisations** : indiquez si vous souhaitez convertir les données en vectorisations à virgule flottante (float32) (plus précises, mais plus coûteuses) ou en vectorisations binaires (moins précises, mais moins coûteuses). Pour savoir quels modèles de vectorisations prennent en charge les vecteurs binaires, consultez les [modèles de vectorisations pris en charge](knowledge-base-supported.md).
      + **Dimensions vectorielles** : des valeurs plus élevées améliorent la précision, mais augmentent le coût et la latence.

1. Dans la section **Base de données vectorielles**, procédez comme suit :

   1. Choisissez un magasin de vecteurs pour stocker les vectorisations utilisées à des fins d’interrogation. Vous avez les options suivantes :
      + **Création rapide d’un magasin de vecteurs** : choisissez l’un des magasins de vecteurs disponibles afin qu’Amazon Bedrock le crée. Vous pouvez également éventuellement configurer le chiffrement AWS KMS des clés pour votre magasin de vecteurs.
**Note**  
Lorsque vous utilisez cette option, Amazon Bedrock gère automatiquement le placement des métadonnées pour chaque magasin de vecteurs.
        + **Amazon OpenSearch Serverless** — Amazon Bedrock Knowledge Bases crée une collection et un index de recherche vectorielle Amazon OpenSearch Serverless et les configure avec les champs obligatoires pour vous.
        + **Amazon Aurora PostgreSQL sans serveur** : Amazon Bedrock configure un magasin de vecteurs Amazon Aurora PostgreSQL sans serveur. Ce processus extrait les données texte non structurées d’un compartiment Amazon S3, les transforme en fragments de texte et en vecteurs, puis les stocke dans une base de données PostgreSQL. Pour plus d’informations, consultez [Création rapide d’une base de connaissances Aurora PostgreSQL pour Amazon Bedrock](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/AuroraPostgreSQL.quickcreatekb.html).
        + **Analytique Amazon Neptune** : Amazon Bedrock améliore les applications d’IA générative à l’aide de techniques de génération à enrichissement contextuel (RAG) associées à des graphiques, afin que les utilisateurs finaux puissent obtenir des réponses plus précises et plus complètes.
        + **Amazon S3 Vectors** : Amazon Bedrock Knowledge Bases crée un compartiment vectoriel S3 et un index vectoriel qui stockeront les vectorisations générées à partir de vos sources de données.

          Vous pouvez créer une base de connaissances pour les vecteurs Amazon S3 dans tous les Région AWS sites où Amazon Bedrock et Amazon S3 Vectors sont disponibles. Pour plus d’informations sur la disponibilité régionale, consultez [Amazon S3 Vectors](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-vectors.html) dans le *Guide de l’utilisateur Amazon S3*.
**Note**  
Lorsque vous utilisez des vecteurs Amazon S3 avec les bases de connaissances Amazon Bedrock, vous pouvez joindre jusqu'à 1 Ko de métadonnées personnalisées (y compris des métadonnées filtrables et non filtrables) et 35 clés de métadonnées par vecteur. Pour obtenir des informations détaillées sur les limites relatives aux métadonnées, voir [Prise en charge des métadonnées](knowledge-base-setup.md#metadata-support) dans[Conditions préalables à l’utilisation d’un magasin de vecteurs que vous avez créé pour une base de connaissances](knowledge-base-setup.md).
      + **Choisir un magasin de vecteurs que vous avez créé** : sélectionnez un magasin de vecteurs pris en charge et identifiez les noms des champs vectoriels et les noms des champs de métadonnées dans l’index vectoriel. Pour de plus amples informations, veuillez consulter [Conditions préalables à l’utilisation d’un magasin de vecteurs que vous avez créé pour une base de connaissances](knowledge-base-setup.md).
**Note**  
Si votre source de données est une instance Confluence, Microsoft ou Salesforce SharePoint, le seul service de boutique vectorielle pris en charge est Amazon OpenSearch Serverless.

   1. (Facultatif) Développez la section **Configurations supplémentaires** et modifiez les configurations pertinentes.

1. Si votre source de données contient des images, spécifiez un URI Amazon S3 dans lequel stocker les images que l’analyseur va extraire des données sous **Destination de stockage multimodal**. Les images peuvent être renvoyées lors de l’interrogation. Vous pouvez également choisir une clé gérée par le client au lieu de la clé par défaut Clé gérée par AWS pour chiffrer vos données.
**Note**  
Les données multimodales ne sont prises en charge qu’avec Amazon S3 et les sources de données personnalisées.
**Note**  
Lorsque vous utilisez des modèles d'intégration multimodaux :  
Amazon Titan Multimodal Embeddings G1 nécessite un compartiment de contenu S3 et fonctionne mieux avec les ensembles de données contenant uniquement des images à l'aide de l'analyseur par défaut
Cohere Embed v3 prend en charge les ensembles de données mixtes de texte et d'image et peut être utilisé avec n'importe quelle configuration d'analyseur
Pour les cas d'utilisation de la recherche d'images, évitez d'utiliser Bedrock Data Automation (BDA) ou des analyseurs de modèles de base avec Titan G1 en raison des limites liées aux jetons
La destination de stockage multimodale crée des copies de fichiers à des fins de récupération, ce qui peut entraîner des frais de stockage supplémentaires

1. Cliquez sur **Suivant** et passez en revue les détails de votre base de connaissances. Vous pouvez modifier toute section avant de créer votre base de connaissances.
**Note**  
Le temps nécessaire pour créer la base de connaissances dépend de vos configurations spécifiques. Une fois la base de connaissances créée, son statut change pour indiquer qu’elle est prête ou disponible.  
Une fois votre base de connaissances prête et disponible, synchronisez votre source de données pour la première fois et chaque fois que vous souhaitez tenir votre contenu à jour. Sélectionnez votre base de connaissances dans la console, puis cliquez sur **Synchroniser** dans la section de présentation des sources de données.

## Utilisation de l’API
<a name="knowledge-base-create-api"></a>

Pour créer une base de connaissances, envoyez une demande [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html) avec un [point de terminaison de compilation pour agents Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt).

**Note**  
Si vous préférez laisser Amazon Bedrock créer et gérer un magasin de vecteurs pour vous, utilisez la console. Pour plus d’informations, développez la section **Utilisation de la console** de cette rubrique.

Les champs suivants sont obligatoires :


****  

| Champ | Description de base | 
| --- | --- | 
| name | Nom de la base de connaissances | 
| roleArn | ARN d’un [rôle de service Amazon Bedrock Knowledge Bases](kb-permissions.md). | 
| knowledgeBaseConfiguration | Contient des configurations pour la base de connaissances. Consultez les informations ci-dessous. | 
| storageConfiguration | (Obligatoire seulement si vous vous connectez à une source de données non structurée.) Contient des configurations pour le service de source de données que vous choisissez. | 

Les champs suivants sont facultatifs :


****  

| Champ | Cas d’utilisation | 
| --- | --- | 
| description | Description de la base de connaissances. | 
| clientToken | Pour garantir que la demande d’API n’est exécutée qu’une seule fois. Pour plus d’informations, consultez [Garantie de l’idempotence](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 
| tags | Pour associer des balises au flux. Pour de plus amples informations, veuillez consulter [Balisage des ressources Amazon Bedrock](tagging.md). | 

Dans le `knowledgeBaseConfiguration` champ, qui correspond à un [KnowledgeBaseConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_KnowledgeBaseConfiguration.html)objet, spécifiez-le `VECTOR` dans le `type` champ et incluez un [VectorKnowledgeBaseConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorKnowledgeBaseConfiguration.html)objet. Dans l’objet, incluez les champs suivants :
+ `embeddingModelArn` : ARN du modèle de vectorisation à utiliser.
+ `embeddingModelConfiguration` : configurations pour le modèle de vectorisation. Pour afficher les valeurs possibles que vous pouvez spécifier pour chaque modèle pris en charge, consultez [Modèles et régions pris en charge pour les bases de connaissances Amazon Bedrock](knowledge-base-supported.md).
+ (Si vous prévoyez d'inclure des données multimodales, notamment des images, des figures, des graphiques ou des tableaux, dans votre base de connaissances) `supplementalDataStorageConfiguration` : correspond à un [SupplementalDataStorageLocation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_SupplementalDataStorageLocation.html)objet, dans lequel vous spécifiez l'emplacement S3 dans lequel vous souhaitez stocker les données extraites. Pour de plus amples informations, veuillez consulter [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).

Dans le `storageConfiguration` champ, qui correspond à un [StorageConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StorageConfiguration.html)objet, spécifiez le magasin de vecteurs auquel vous souhaitez vous connecter dans le `type` champ et incluez le champ correspondant à ce magasin de vecteurs. Consultez chaque type de configuration de magasin vectoriel sur [StorageConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StorageConfiguration.html)pour plus de détails sur les informations que vous devez fournir.

Voici un exemple de demande pour créer une base de connaissances connectée à une collection Amazon OpenSearch Serverless. Les données provenant de sources de données connectées seront converties en intégrations vectorielles binaires avec Amazon Titan Text Embeddings V2 et les données multimodales extraites par l'analyseur seront configurées pour être stockées dans un bucket appelé. *MyBucket*

```
PUT /knowledgebases/ HTTP/1.1
Content-type: application/json

{
   "name": "MyKB",
   "description": "My knowledge base",
   "roleArn": "arn:aws:iam::111122223333:role/service-role/AmazonBedrockExecutionRoleForKnowledgeBase_123",
   "knowledgeBaseConfiguration": {
      "type": "VECTOR",
      "vectorKnowledgeBaseConfiguration": { 
         "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.titan-embed-text-v2:0",
         "embeddingModelConfiguration": { 
            "bedrockEmbeddingModelConfiguration": { 
               "dimensions": 1024,
               "embeddingDataType": "BINARY"
            }
         },
         "supplementalDataStorageConfiguration": { 
            "storageLocations": [ 
               { 
                  "s3Location": { 
                     "uri": "arn:aws:s3:::MyBucket"
                  },
                  "type": "S3"
               }
            ]
         }
      }
   },
   "storageConfiguration": { 
      "opensearchServerlessConfiguration": { 
         "collectionArn": "arn:aws:aoss:us-east-1:111122223333:collection/abcdefghij1234567890",
         "fieldMapping": { 
            "metadataField": "metadata",
            "textField": "text",
            "vectorField": "vector"
         },
         "vectorIndexName": "MyVectorIndex"
      }
   }
}
```

**Topics**
+ [

# Connexion d’une source de données à votre base de connaissances
](data-source-connectors.md)
+ [

# Personnalisation de l’ingestion pour une source de données
](kb-data-source-customize-ingestion.md)
+ [

# Définition des configurations de sécurité pour votre base de connaissances
](kb-create-security.md)

# Connexion d’une source de données à votre base de connaissances
<a name="data-source-connectors"></a>

Après avoir terminé les configurations de votre base de connaissances, vous connectez une source de données prise en charge à la base de connaissances.

Les bases de connaissances Amazon Bedrock permettent de se connecter à des sources de données non structurées ou à des magasins de données structurées via un moteur de requête. Sélectionnez une rubrique pour découvrir comment vous connecter à ce type de source de données :

**Support de contenu multimodal**  
Le contenu multimodal (images, fichiers audio et vidéo) n'est pris en charge qu'avec Amazon S3 et les sources de données personnalisées. Les autres types de sources de données ignoreront les fichiers multimodaux lors de l'ingestion. Pour des conseils complets sur l'utilisation de contenus multimodaux, voir[Création d'une base de connaissances pour le contenu multimodal](kb-multimodal.md).

Pour découvrir comment vous connecter à une source de données à l’aide de la console Amazon Bedrock, sélectionnez la rubrique correspondant à votre type de source de données au bas de cette page :

Pour vous connecter à une source de données à l'aide de l'API Amazon Bedrock, envoyez une [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)demande à un point de [terminaison Agents for Amazon Bedrock.](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-rt)

Les champs suivants sont obligatoires :


****  

| Champ | Description de base | 
| --- | --- | 
| knowledgeBaseId | ID de la base de connaissances. | 
| name | Nom de la base de connaissances. | 
| dataSourceConfiguration | Spécifiez le service ou le type de source de données dans le champ type et incluez le champ correspondant. Pour plus de détails sur les configurations spécifiques à un service, sélectionnez la rubrique correspondant au service au bas de cette page. | 

Les champs suivants sont facultatifs :


****  

| Champ | Cas d’utilisation | 
| --- | --- | 
| description | Pour fournir une description de la source de données. | 
| vectorIngestionConfiguration | Contient des configurations pour personnaliser le processus d’ingestion. Pour de plus amples informations, veuillez consulter [Personnalisation de l’ingestion pour une source de données](kb-data-source-customize-ingestion.md). | 
| dataDeletionPolicy | Pour spécifier s’il faut conserver (RETAIN) les vectorisations dans le magasin de vecteurs ou les supprimer (DELETE). | 
| serverSideEncryptionConfiguration | Pour chiffrer les données transitoires lors de la synchronisation des données avec une clé gérée par le client, spécifiez son ARN dans le champ kmsKeyArn. | 
| clientToken | Pour garantir que la demande d’API n’est exécutée qu’une seule fois. Pour plus d’informations, consultez [Garantie de l’idempotence](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 

Sélectionnez une rubrique pour en savoir plus sur un service et sa configuration.

**Topics**
+ [

# Connexion à Amazon S3 pour votre base de connaissances
](s3-data-source-connector.md)
+ [

# Connexion à Confluence pour votre base de connaissances
](confluence-data-source-connector.md)
+ [

# Connectez-vous à Microsoft SharePoint pour accéder à votre base de connaissances
](sharepoint-data-source-connector.md)
+ [

# Connexion à Salesforce pour votre base de connaissances
](salesforce-data-source-connector.md)
+ [

# Analyse de pages Web pour votre base de connaissances
](webcrawl-data-source-connector.md)
+ [

# Connexion de votre base de connaissances à une source de données personnalisée
](custom-data-source-connector.md)

# Connexion à Amazon S3 pour votre base de connaissances
<a name="s3-data-source-connector"></a>

Amazon S3 est un service de stockage d’objets qui stocke les données en tant qu’objets dans des compartiments. Vous pouvez vous connecter à votre compartiment Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock en utilisant la [console de AWS gestion d'Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) ou l'[CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)API (voir Amazon Bedrock [pris en charge SDKs ](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) et). AWS CLI

**Support de contenu multimodal**  
Les sources de données Amazon S3 prennent en charge le contenu multimodal, notamment les images, les fichiers audio et vidéo. Pour des conseils complets sur l'utilisation de contenus multimodaux, voir[Création d'une base de connaissances pour le contenu multimodal](kb-multimodal.md).

Vous pouvez charger un petit lot de fichiers dans un compartiment Amazon S3 via l’API ou la console Amazon S3. Vous pouvez également l'utiliser [AWS DataSync](https://docs.aws.amazon.com/datasync/latest/userguide/create-s3-location.html)pour télécharger plusieurs fichiers sur S3 en continu et transférer des fichiers selon un calendrier depuis un site, un périphérique, un autre cloud ou un système AWS de stockage.

Actuellement, seuls les compartiments S3 à usage général sont pris en charge.

Il existe des limites au nombre de fichiers et de Mo par fichier pouvant être indexés. Consultez [Quotas pour les bases de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [

## Fonctionnalités prises en charge
](#supported-features-s3-connector)
+ [

## Conditions préalables
](#prerequisites-s3-connector)
+ [

## Configuration de la connexion
](#configuration-s3-connector)

## Fonctionnalités prises en charge
<a name="supported-features-s3-connector"></a>
+ Champs de métadonnées des documents
+ Préfixes d’inclusion
+ Synchronisation incrémentielle du contenu ajouté, mis à jour et supprimé

## Conditions préalables
<a name="prerequisites-s3-connector"></a>

**Dans Amazon S3** :
+ Assurez-vous de noter l’URI du compartiment Amazon S3, l’Amazon Resource Name (ARN) et l’ID du compte AWS du propriétaire du compartiment. Vous trouverez l’URI et l’ARN dans la section des propriétés de la console Amazon S3. Votre compartiment doit se trouver dans la même région que votre base de connaissances Amazon Bedrock. Vous devez avoir l’autorisation d’accéder au compartiment.

**Dans votre AWS compte, assurez-vous** de :
+ Incluez les autorisations nécessaires pour vous connecter à votre source de données dans votre role/permissions politique Gestion des identités et des accès AWS (IAM) pour votre base de connaissances. Pour plus d'informations sur les autorisations requises pour que cette source de données soit ajoutée à votre IAM rôle dans la base de connaissances, consultez la section [Autorisations d'accès aux sources de données](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Note**  
Si vous utilisez la console, le IAM rôle doté de toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de création d'une base de connaissances. Une fois votre source de données configurée et les autres configurations effectuées, le rôle IAM possédant toutes les autorisations requises est appliqué à votre base de connaissances spécifique.

## Configuration de la connexion
<a name="configuration-s3-connector"></a>

Afin de vous connecter à votre compartiment Amazon S3, vous devez fournir les informations de configuration nécessaires pour qu’Amazon Bedrock puisse accéder à vos données et les indexer. Vous devez également respecter les [Conditions préalables](#prerequisites-s3-connector).

Un exemple de configuration pour cette source de données est inclus dans cette section.

Pour plus d’informations sur les filtres d’inclusion, les champs de métadonnées des documents, la synchronisation incrémentielle et leur fonctionnement, développez les sections suivantes :

### Champs de métadonnées des documents
<a name="ds-s3-metadata-fields"></a>

Vous pouvez inclure un fichier distinct qui spécifie les métadonnées du document fields/attributes pour chaque fichier de votre source de données Amazon S3 et indique s'il convient de les inclure dans les intégrations lors de l'indexation de la source de données dans le magasin vectoriel. Par exemple, vous pouvez créer un fichier au format suivant, le nommer *fileName.extension.metadata.json* et le télécharger dans votre compartiment S3.

```
{
  "metadataAttributes": {
    "company": {
      "value": {
        "type": "STRING",
        "stringValue": "BioPharm Innovations"
      },
      "includeForEmbedding": true
    },
    "created_date": {
      "value": {
        "type": "NUMBER",
        "numberValue": 20221205
      },
      "includeForEmbedding": true
    },
    "author": {
      "value": {
        "type": "STRING",
        "stringValue": "Lisa Thompson"
      },
      "includeForEmbedding": true
    },
    "origin": {
      "value": {
        "type": "STRING",
        "stringValue": "Overview"
      },
      "includeForEmbedding": true
    }
  }
}
```

Le fichier de métadonnées doit porter le même nom que le fichier du document source associé, avec `.metadata.json` ajouté à la fin du nom du fichier. Il doit être stocké dans la même dossier ou au même emplacement que le fichier source dans votre compartiment Amazon S3. Sa taille ne doit pas dépasser la limite de 10 Ko. Pour plus d'informations sur les types de attribute/field données pris en charge et les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, voir [Métadonnées et filtrage](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Préfixes d’inclusion
<a name="ds-s3-inclusion-exclusion"></a>

Vous pouvez spécifier un préfixe d’inclusion, qui est un préfixe de chemin Amazon S3, dans lequel vous pouvez utiliser un fichier ou un dossier S3 au lieu de l’intégralité du compartiment pour créer le connecteur de source de données S3.

### Synchronisation incrémentielle
<a name="ds-s3-incremental-sync"></a>

Le connecteur de source de données analyse le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrockpeut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et explorer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, l’ensemble du contenu est indexé par défaut.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l'[StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API ou sélectionnez votre base de connaissances dans la console et sélectionnez **Synchroniser** dans la section de présentation de la source de données.

**Important**  
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à toute personne disposant des autorisations `bedrock:Retrieve` pour récupérer les données. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d’informations, consultez [Autorisations de la base de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Pour connecter un compartiment Amazon S3 pour à base de connaissances**

1. Suivez les étapes décrites dans [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et choisissez **Amazon S3** comme source de données.

1. Indiquez un nom pour la source de données.

1. Spécifiez si le compartiment Amazon S3 se trouve dans votre AWS compte actuel ou dans un autre AWS compte. Votre compartiment doit se trouver dans la même région que votre base de connaissances.

1. (Facultatif) Si le compartiment Amazon S3 est chiffré avec une clé KMS, incluez la clé. Pour plus d’informations, consultez [Autorisations pour déchiffrer votre AWS KMS clé pour vos sources de données dans Amazon S3](encryption-kb.md#encryption-kb-ds).

1. (Facultatif) Dans la section **Analyse et découpage du contenu**, vous pouvez personnaliser le mode d’analyse et de découpage de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :
   + Pour plus d’informations sur les options d’analyse, consultez [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).
   + Pour plus d’informations sur les stratégies de découpage, consultez [Fonctionnement du découpage du contenu pour les bases de connaissances](kb-chunking.md).
**Avertissement**  
Une fois connecté à la source de données, vous ne pouvez plus modifier la stratégie de découpage.
   + Pour plus d’informations sur la façon de personnaliser le découpage de vos données et le traitement de vos métadonnées avec une fonction Lambda, consultez [Utilisation d’une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées](kb-custom-transformation.md).

1. Dans la section **Paramètres avancés**, vous pouvez éventuellement configurer les éléments suivants :
   + **Clé KMS pour le stockage de données transitoires** — Vous pouvez chiffrer les données transitoires tout en les convertissant en données intégrées à l'aide de la clé KMS par défaut Clé gérée par AWS ou de votre propre clé. Pour de plus amples informations, veuillez consulter [Chiffrement du stockage des données transitoires lors de l’ingestion de données](encryption-kb.md#encryption-kb-ingestion).
   + **Politique de suppression des données** : vous pouvez supprimer les vectorisations de votre source de données qui sont stockées dans le magasin de vecteurs par défaut, ou choisir de conserver les données du magasin de vecteurs.

1. Continuez en choisissant un modèle de vectorisation et un magasin de vecteurs. Pour voir les étapes restantes, revenez à [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et poursuivez après avoir connecté votre source de données.

------
#### [ API ]

Voici un exemple de configuration pour connecter votre base de connaissances Amazon Bedrock à Amazon S3. Vous configurez votre source de données à l'aide de l'API avec le SDK compatible AWS CLI ou compatible, tel que Python. Après avoir appelé [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), vous appelez [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)pour créer votre source de données avec vos informations de connexion`dataSourceConfiguration`.

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l’ingestion en incluant le champ facultatif `vectorIngestionConfiguration`, consultez [Personnalisation de l’ingestion pour une source de données](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://s3-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}'
                    
s3-bedrock-connector-configuration.json
{
    "s3Configuration": {
	    "bucketArn": "arn:aws:s3:::bucket-name",
	    "bucketOwnerAccountId": "000000000000",
	    "inclusionPrefixes": [
	        "documents/"
	    ]
    },
    "type": "S3"	
}
```

------

# Connexion à Confluence pour votre base de connaissances
<a name="confluence-data-source-connector"></a>

Atlassian Confluence est un outil de gestion du travail collaboratif conçu pour partager, stocker et travailler sur la planification de projets, le développement de logiciels et la gestion de produits. Vous pouvez vous connecter à votre instance Confluence pour votre base de connaissances Amazon Bedrock à l’aide de la [console de gestion AWS pour Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) ou de l’API [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) (consultez [les commandes de l’AWS CLI et les kits SDK pris en charge](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) par Amazon Bedrock).

**Note**  
Le connecteur de source de données Confluence est proposé en version préliminaire et peut faire l’objet de modifications.  
Les sources de données Confluence ne prennent pas en charge les données multimodales, telles que les tableaux, les graphiques, les diagrammes ou autres images.

Amazon Bedrock prend en charge la connexion aux instances Confluence Cloud. Actuellement, seul le magasin de vecteurs Amazon OpenSearch sans serveur peut être utilisé avec cette source de données.

Il existe des limites au nombre de fichiers et de Mo par fichier pouvant être indexés. Consultez [Quotas pour les bases de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [

## Fonctionnalités prises en charge
](#supported-features-confluence-connector)
+ [

## Conditions préalables
](#prerequisites-confluence-connector)
+ [

## Configuration de la connexion
](#configuration-confluence-connector)

## Fonctionnalités prises en charge
<a name="supported-features-confluence-connector"></a>
+ Détection automatique des principaux champs d’un document
+ Filtres de contenu d’inclusion/exclusion
+ Synchronisation incrémentielle du contenu ajouté, mis à jour et supprimé
+ Authentification OAuth 2.0, authentification avec le jeton d’API Confluence

## Conditions préalables
<a name="prerequisites-confluence-connector"></a>

**Dans Confluence :**
+ Assurez-vous de notez l’URL de votre instance Confluence. Par exemple, pour Confluence Cloud, *https://example.atlassian.net*. L’URL de Confluence Cloud doit être l’URL de base se terminant par *.atlassian.net*.
+ Configurez les informations d’identification pour l’authentification de base : un nom d’utilisateur (e-mail du compte administrateur) et un mot de passe (jeton d’API Confluence) pour permettre à Amazon Bedrock de se connecter à votre instance Confluence Cloud. Pour en savoir plus sur la création d’un jeton d’API Confluence, consultez [Manage API tokens for your Atlassian account](https://support.atlassian.com/atlassian-account/docs/manage-api-tokens-for-your-atlassian-account/#Create-an-API-token) sur le site web Atlassian.
+ (Facultatif) Configurez une application OAuth 2.0 avec des informations d’identification comprenant une clé d’application, un secret d’application, un jeton d’accès et un jeton d’actualisation. Pour plus d’informations, consultez [OAuth 2.0 apps](https://developer.atlassian.com/cloud/confluence/oauth-2-3lo-apps/) sur le site web Atlassian.
+ Certaines autorisations ou portées de lecture doivent être activées pour que votre application OAuth 2.0 puisse se connecter à Confluence.

  API Confluence :
  + offline\$1access
  + read:content:confluence : afficher les contenus détaillés 
  + read:content-details:confluence : afficher les informations sur le contenu 
  + read:space-details:confluence : afficher les informations sur l’espace
  + read:audit-log:confluence : afficher les enregistrements d’audits 
  + read:page:confluence : afficher les pages 
  + read:attachment:confluence : afficher et télécharger les pièces jointes au contenu 
  + read:blogpost:confluence : afficher les articles de blog 
  + read:custom-content:confluence : afficher le contenu personnalisé 
  + read:comment:confluence : afficher les commentaires 
  + read:template:confluence : afficher les modèles de contenu 
  + read:label:confluence : afficher les étiquettes 
  + read:watcher:confluence : afficher les observateurs de contenu 
  + read:relation:confluence : afficher les relations des entités 
  + read:user:confluence : afficher les informations sur l’utilisateur 
  + read:configuration:confluence : afficher les paramètres Confluence 
  + read:space:confluence : afficher les informations sur l’espace 
  + read:space.property:confluence : afficher les propriétés de l’espace 
  + read:user.property:confluence : afficher les propriétés utilisateur 
  + read:space.setting:confluence : afficher les paramètres de l’espace 
  + read:analytics.content:confluence : afficher l’analytique du contenu
  + read:content.property:confluence : afficher les propriétés du contenu
  + read:content.metadata:confluence : afficher les récapitulatifs de contenu 
  + read:inlinetask:confluence : afficher les tâches 
  + read:task:confluence : afficher les tâches 
  + read:whiteboard:confluence : afficher les tableaux blancs 
  + read:app-data:confluence : lire les données d’application 
  + read:folder:confluence : afficher les dossiers
  + read:embed:confluence : afficher les données Smart Link

**Dans votre compte AWS** :
+ Pour l’authentification, assurez-vous de stocker vos informations d’identification dans un [secret AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) et notez l’Amazon Resource Name (ARN) du secret. Suivez les instructions de la section **Configuration de la connexion** sur cette page pour inclure les paires clé-valeur qui doivent être incluses dans votre secret.
+ Incluez dans votre politique de rôle/d’autorisations Gestion des identités et des accès AWS (IAM) les autorisations nécessaires afin de vous connecter à votre source de données pour votre base de connaissances. Pour en savoir plus sur les autorisations requises afin d’ajouter cette source de données à votre rôle IAM dans la base de connaissances, consultez [Autorisations d’accès aux sources de données](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Note**  
Si vous utilisez la console, vous pouvez accéder à AWS Secrets Manager pour ajouter votre secret ou utiliser un secret existant dans le cadre de l’étape de configuration de la source de données. Le rôle IAM possédant toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois votre source de données configurée et les autres configurations effectuées, le rôle IAM possédant toutes les autorisations requises est appliqué à votre base de connaissances spécifique.  
Nous vous recommandons d’actualiser ou de modifier régulièrement vos informations d’identification et votre secret. Pour votre propre sécurité, fournissez uniquement le niveau d’accès nécessaire. Nous vous recommandons de ne pas réutiliser vos informations d’identification et vos secrets d’une source de données à l’autre.

## Configuration de la connexion
<a name="configuration-confluence-connector"></a>

Afin de vous connecter à votre instance Confluence, vous devez fournir les informations de configuration nécessaires pour qu’Amazon Bedrock puisse accéder à vos données et les indexer. Vous devez également respecter les [Conditions préalables](#prerequisites-confluence-connector).

Un exemple de configuration pour cette source de données est inclus dans cette section.

Pour plus d’informations sur la détection automatique des champs d’un document, les filtres d’inclusion/exclusion, la synchronisation incrémentielle, les informations d’identification secrètes et leur fonctionnement, développez les sections suivantes :

### Détection automatique des principaux champs d’un document
<a name="ds-confluence-document-fields"></a>

Le connecteur de source de données détecte et indexe automatiquement les principaux champs de métadonnées de vos documents ou contenus. Par exemple, le connecteur de source de données peut indexer le contenu principal (ou son équivalent), le titre et la date de création ou de modification de vos documents, ou d’autres champs de base susceptibles de s’appliquer à ceux-ci.

**Important**  
Si votre contenu contient des informations sensibles, Amazon Bedrock peut répondre en utilisant des informations sensibles.

Vous pouvez appliquer des opérateurs de filtrage aux champs de métadonnées afin d’améliorer davantage la pertinence des réponses. Par exemple, « epoch\$1modification\$1time » pour connaître le nombre de secondes écoulées depuis le 1er janvier 1970 jusqu’au moment de la dernière mise à jour du document. Vous pouvez filtrer les données en fonction des plus récentes, pour lesquelles « epoch\$1modification\$1time » est *supérieur à* un certain nombre. Pour plus d’informations sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, consultez [Métadonnées et filtrage](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Filtres d’inclusion et d’exclusion
<a name="ds-confluence-inclusion-exclusion"></a>

Vous pouvez inclure ou exclure l’indexation de certains contenus. Par exemple, vous pouvez spécifier un préfixe d’exclusion/un modèle d’expression régulière pour éviter d’indexer tout fichier dont le nom contient le mot « privé ». Vous pouvez également spécifier un préfixe d’inclusion/un modèle d’expression régulière pour inclure certaines entités ou certains types de contenu. Si vous spécifiez un filtre d’inclusion et un filtre d’exclusion et que les deux correspondent à un document, le filtre d’exclusion est prioritaire et le document n’est pas indexé.

Exemple de modèle d’expression régulière permettant d’exclure ou de filtrer les fichiers PDF dont le nom contient « privé » : *".\$1privé.\$1\$1\$1.pdf"*

Vous pouvez appliquer des filtres d’inclusion/exclusion aux types de contenus suivants :
+ `Space` : touche d’espace unique
+ `Page` : titre de la page principale
+ `Blog` : titre du blog principal
+ `Comment` : commentaires qui appartiennent à une page ou à un blog en particulier Spécifiez *Re: titre de la page/du blog*
+ `Attachment` : nom de fichier joint avec son extension

### Synchronisation incrémentielle
<a name="ds-confluence-incremental-sync"></a>

Le connecteur de source de données indexe le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications et indexer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, l’ensemble du contenu est indexé par défaut.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l’API [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) ou sélectionnez votre base de connaissances dans la console, puis sélectionnez **Synchroniser** dans la section Vue d’ensemble des sources de données.

**Important**  
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à toute personne disposant des autorisations `bedrock:Retrieve` pour récupérer les données. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d’informations, consultez [Autorisations de la base de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Informations d’identification secrètes
<a name="ds-confluence-secret-auth-credentials"></a>

(Si vous utilisez l’authentification de base) Vos informations d’identification secrètes dans AWS Secrets Manager doivent inclure les paires clé-valeur suivantes :
+ `username` : *adresse e-mail de l’utilisateur administrateur du compte Atlassian*
+ `password` : *jeton d’API Confluence*

(Si vous utilisez l’authentification OAuth 2.0) Vos informations d’identification dans AWS Secrets Manager doivent inclure les paires clé-valeur suivantes :
+ `confluenceAppKey` : *clé d’application*
+ `confluenceAppSecret` : *secret de l’application*
+ `confluenceAccessToken` : *jeton d’accès à l’application*
+ `confluenceRefreshToken` : *jeton d’actualisation de l’application*

**Note**  
Le jeton d’**accès** Confluence OAuth 2.0 a un délai d’expiration par défaut de 60 minutes. S’il expire alors que votre source de données est en cours de synchronisation (tâche de synchronisation), Amazon Bedrock utilise le jeton d’**actualisation** fourni pour le régénérer. Cette régénération actualise à la fois les jetons d’accès et ceux d’actualisation. Afin de conserver les jetons à jour entre la tâche de synchronisation actuelle et la suivante, Amazon Bedrock a besoin d’autorisations d’écriture (write/put) pour vos informations d’identification secrètes dans le cadre du rôle IAM de la base de connaissances.

**Note**  
Votre secret dans AWS Secrets Manager doit utiliser la même région que celle de votre base de connaissances.

------
#### [ Console ]

**Connexion d’une instance Confluence à votre base de connaissances**

1. Suivez les étapes décrites dans [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et choisissez **Confluence** comme source de données.

1. Indiquez un nom et une description facultative de la source de données.

1. Indiquez l’URL de votre instance Confluence. Par exemple, pour Confluence Cloud, *https://example.atlassian.net*. L’URL de Confluence Cloud doit être l’URL de base se terminant par *.atlassian.net*.

1. Dans la section **Paramètres avancés**, vous pouvez éventuellement configurer les éléments suivants :
   + **Clé KMS pour le stockage de données transitoires**  : vous pouvez chiffrer les données transitoires lors de la conversion de vos données en vectorisations à l’aide de la Clé gérée par AWS par défaut ou de votre propre clé KMS. Pour plus d’informations, consultez [Chiffrement du stockage des données transitoires lors de l’ingestion de données](encryption-kb.md#encryption-kb-ingestion).
   + **Politique de suppression des données** : vous pouvez supprimer les vectorisations de votre source de données qui sont stockées dans le magasin de vecteurs par défaut, ou choisir de conserver les données du magasin de vecteurs.

1. Fournissez les informations d’authentification pour vous connecter à votre instance Confluence :
   + Pour l’authentification de base, rendez-vous sur AWS Secrets Manager pour ajouter vos informations d’identification secrètes ou utilisez un Amazon Resource Name (ARN) existant pour le secret que vous avez créé. Votre secret doit contenir l’adresse e-mail de l’administrateur du compte Atlassian comme nom d’utilisateur et un jeton d’API Confluence à la place d’un mot de passe. Pour en savoir plus sur la création d’un jeton d’API Confluence, consultez [Manage API tokens for your Atlassian account](https://support.atlassian.com/atlassian-account/docs/manage-api-tokens-for-your-atlassian-account/#Create-an-API-token) sur le site web Atlassian.
   + Pour l’authentification OAuth 2.0, rendez-vous sur AWS Secrets Manager pour ajouter vos informations d’identification secrètes ou utilisez un Amazon Resource Name (ARN) existant pour le secret que vous avez créé. Votre secret doit contenir la clé d’application, le secret d’application, le jeton d’accès et le jeton d’actualisation Confluence. Pour plus d’informations, consultez [OAuth 2.0 apps](https://developer.atlassian.com/cloud/confluence/oauth-2-3lo-apps/) sur le site web Atlassian.

1. (Facultatif) Dans la section **Analyse et découpage du contenu**, vous pouvez personnaliser le mode d’analyse et de découpage de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :
   + Pour plus d’informations sur les options d’analyse, consultez [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).
   + Pour plus d’informations sur les stratégies de découpage, consultez [Fonctionnement du découpage du contenu pour les bases de connaissances](kb-chunking.md).
**Avertissement**  
Une fois connecté à la source de données, vous ne pouvez plus modifier la stratégie de découpage.
   + Pour plus d’informations sur la façon de personnaliser le découpage de vos données et le traitement de vos métadonnées avec une fonction Lambda, consultez [Utilisation d’une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées](kb-custom-transformation.md).

1. Utilisez des filtres/modèles d’expressions régulières pour inclure ou exclure certains contenus. Autrement, l’ensemble du contenu standard est indexé.

1. Continuez en choisissant un modèle de vectorisation et un magasin de vecteurs. Pour voir les étapes restantes, revenez à [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et poursuivez après avoir connecté votre source de données.

------
#### [ API ]

Voici un exemple de configuration pour se connecter à Confluence Cloud pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données à l’aide de l’API avec l’AWS CLI ou d’un kit SDK compatible, tel que Python. Après avoir appelé [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), vous appelez [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) pour créer votre source de données contenant vos informations de connexion dans `dataSourceConfiguration`.

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l’ingestion en incluant le champ facultatif `vectorIngestionConfiguration`, consultez [Personnalisation de l’ingestion pour une source de données](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock create-data-source \
 --name "Confluence Cloud/SaaS connector" \
 --description "Confluence Cloud/SaaS data source connector for Amazon Bedrock to use content in Confluence" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://confluence-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'

confluence-bedrock-connector-configuration.json
{
    "confluenceConfiguration": {
        "sourceConfiguration": {
            "hostUrl": "https://example.atlassian.net",
            "hostType": "SAAS",
            "authType": "OAUTH2_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Confluence"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "Attachment",
                            "inclusionFilters": [
                                ".*\\.pdf"
                            ],
                            "exclusionFilters": [
                                ".*private.*\\.pdf"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "CONFLUENCE"
}
```

------

# Connectez-vous à Microsoft SharePoint pour accéder à votre base de connaissances
<a name="sharepoint-data-source-connector"></a>

Microsoft SharePoint est un service Web collaboratif permettant de travailler sur des documents, des pages Web, des sites Web, des listes, etc. Vous pouvez vous connecter à votre SharePoint instance pour accéder à votre base de connaissances Amazon Bedrock en utilisant soit la [console de AWS gestion d'Amazon Bedrock](https://console.aws.amazon.com/bedrock/home), soit l'[CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)API (voir Amazon Bedrock [pris en charge SDKs ](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) et). AWS CLI

**Note**  
SharePoint le connecteur de source de données est en version préliminaire et est sujet à modification.  
 SharePoint Les sources de données Microsoft ne prennent pas en charge les données multimodales, telles que les tableaux, les graphiques, les diagrammes ou autres images.

Amazon Bedrock prend en charge la connexion aux instances SharePoint en ligne. L'exploration de OneNote documents n'est actuellement pas prise en charge. Actuellement, seul le magasin vectoriel Amazon OpenSearch Serverless peut être utilisé avec cette source de données.

Il existe des limites au nombre de fichiers et de Mo par fichier pouvant être indexés. Consultez [Quotas pour les bases de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [

## Fonctionnalités prises en charge
](#supported-features-sharepoint-connector)
+ [

## Conditions préalables
](#prerequisites-sharepoint-connector)
+ [

## Configuration de la connexion
](#configuration-sharepoint-connector)

## Fonctionnalités prises en charge
<a name="supported-features-sharepoint-connector"></a>
+ Détection automatique des principaux champs d’un document
+ Filtres de contenu d’inclusion/exclusion
+ Synchronisation incrémentielle du contenu ajouté, mis à jour et supprimé
+ SharePoint Authentification uniquement par application

## Conditions préalables
<a name="prerequisites-sharepoint-connector"></a>

### SharePoint (En ligne)
<a name="prerequisites-sharepoint-connector-online"></a>

**Dans votre SharePoint (en ligne), suivez les étapes suivantes pour utiliser l'authentification SharePoint réservée aux applications :**
+ Prenez note de l'URL de votre site SharePoint en ligne/URLs. Par exemple, *https://yourdomain.sharepoint.com/sites/mysite*. Votre URL doit commencer par *https* et contenir *sharepoint.com*. L'URL de votre site doit être le SharePoint site réel, pas *sharepoint.com/* ou *sites/mysite/home.aspx*
+ Prenez note du nom de domaine de l'URL de votre instance SharePoint en ligne/URLs.
+ Copiez votre ID de locataire Microsoft 365. Vous trouverez celui-ci dans les propriétés sur le portail Microsoft Entra. Consultez [Rechercher votre ID de client Microsoft 365](https://learn.microsoft.com/en-us/sharepoint/find-your-office-365-tenant-id) pour plus de détails.
**Note**  
Pour obtenir un exemple d’application, consultez [Inscrire une application cliente dans Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (anciennement Azure Active Directory) sur le site web Microsoft Learn. 
+ Configurez les SharePoint informations d'identification réservées aux applications.
+ Copiez l'ID client et la valeur secrète du client lorsque vous accordez l'autorisation à SharePoint App-Only. Pour plus d'informations, consultez la section [Octroi d'accès via SharePoint App-Only](https://learn.microsoft.com/en-us/sharepoint/dev/solution-guidance/security-apponly-azureacs).
**Note**  
Vous n'avez pas besoin de configurer d'autorisation d'API pour SharePoint App-Only. Cependant, vous devez configurer les autorisations APP sur le SharePoint côté. Pour plus d'informations sur les autorisations APP requises, consultez la documentation Microsoft sur l'[octroi d'accès via SharePoint App-Only](https://learn.microsoft.com/en-us/sharepoint/dev/solution-guidance/security-apponly-azureacs).

### Compte AWS
<a name="prerequisites-sharepoint-connector-account"></a>

**Dans votre AWS compte, assurez-vous** de :
+ Pour l’authentification, assurez-vous de stocker vos informations d’identification dans un [secret AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) et notez l’Amazon Resource Name (ARN) du secret. Suivez les instructions de la section **Configuration de la connexion** sur cette page pour inclure les paires clé-valeur qui doivent être incluses dans votre secret.
+ Incluez les autorisations nécessaires pour vous connecter à votre source de données dans votre role/permissions politique Gestion des identités et des accès AWS (IAM) pour votre base de connaissances. Pour plus d'informations sur les autorisations requises pour que cette source de données soit ajoutée à votre IAM rôle dans la base de connaissances, consultez la section [Autorisations d'accès aux sources de données](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Note**  
Si vous utilisez la console, vous pouvez accéder AWS Secrets Manager à pour ajouter votre secret ou utiliser un secret existant dans le cadre de l'étape de configuration de la source de données. Le IAM rôle doté de toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois que vous avez configuré votre source de données et les autres configurations, le IAM rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.  
Nous vous recommandons d’actualiser ou de modifier régulièrement vos informations d’identification et votre secret. Pour votre propre sécurité, fournissez uniquement le niveau d’accès nécessaire. Nous vous recommandons de ne pas réutiliser vos informations d’identification et vos secrets d’une source de données à l’autre.

## Configuration de la connexion
<a name="configuration-sharepoint-connector"></a>

Pour vous connecter à votre SharePoint instance, vous devez fournir les informations de configuration nécessaires afin qu'Amazon Bedrock puisse accéder à vos données et les analyser. Vous devez également respecter les [Conditions préalables](#prerequisites-sharepoint-connector).

Un exemple de configuration pour cette source de données est inclus dans cette section.

Pour plus d’informations sur la détection automatique des champs d’un document, les filtres d’inclusion/exclusion, la synchronisation incrémentielle, les informations d’identification secrètes et leur fonctionnement, développez les sections suivantes :

### Détection automatique des principaux champs d’un document
<a name="ds-sharepoint-document-fields"></a>

Le connecteur de source de données détecte et indexe automatiquement les principaux champs de métadonnées de vos documents ou contenus. Par exemple, le connecteur de source de données peut indexer le contenu principal (ou son équivalent), le titre et la date de création ou de modification de vos documents, ou d’autres champs de base susceptibles de s’appliquer à ceux-ci.

**Important**  
Si votre contenu contient des informations sensibles, vous Amazon Bedrock pouvez répondre en utilisant des informations sensibles.

Vous pouvez appliquer des opérateurs de filtrage aux champs de métadonnées afin d’améliorer davantage la pertinence des réponses. Par exemple, « epoch\$1modification\$1time » pour connaître le nombre de secondes écoulées depuis le 1er janvier 1970 jusqu’au moment de la dernière mise à jour du document. Vous pouvez filtrer les données en fonction des plus récentes, pour lesquelles « epoch\$1modification\$1time » est *supérieur à* un certain nombre. Pour plus d’informations sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, consultez [Métadonnées et filtrage](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Filtres d’inclusion et d’exclusion
<a name="ds-sharepoint-inclusion-exclusion"></a>

Vous pouvez inclure ou exclure l’indexation de certains contenus. Par exemple, vous pouvez spécifier un modèle d' prefix/regular expression d'exclusion pour ignorer l'analyse de tout fichier dont le nom contient le mot « privé ». Vous pouvez également spécifier un modèle d' prefix/regular expression d'inclusion pour inclure certaines entités de contenu ou certains types de contenu. Si vous spécifiez un filtre d’inclusion et un filtre d’exclusion et que les deux correspondent à un document, le filtre d’exclusion est prioritaire et le document n’est pas indexé.

Exemple de modèle d’expression régulière permettant d’exclure ou de filtrer les fichiers PDF dont le nom contient « privé » : *".\$1privé.\$1\$1\$1.pdf"*

Vous pouvez appliquer inclusion/exclusion des filtres aux types de contenu suivants :
+ `Page` : titre de la page principale
+ `Event` : nom de l’événement
+ `File` : nom du fichier avec son extension pour les pièces jointes et tous les fichiers du document

L'exploration de OneNote documents n'est actuellement pas prise en charge.

### Synchronisation incrémentielle
<a name="ds-sharepoint-incremental-sync"></a>

Le connecteur de source de données analyse le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et explorer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, l’ensemble du contenu est indexé par défaut.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l'[StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API ou sélectionnez votre base de connaissances dans la console et sélectionnez **Synchroniser** dans la section de présentation de la source de données.

**Important**  
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à toute personne disposant des autorisations `bedrock:Retrieve` pour récupérer les données. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d’informations, consultez [Autorisations de la base de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Informations d’identification secrètes
<a name="ds-sharepoint-secret-auth-credentials"></a>

Lorsque vous utilisez l'authentification SharePoint App-Only, vos informations d'authentification secrètes AWS Secrets Manager doivent inclure les paires clé-valeur suivantes :
+ `clientId`: *client ID associated with your Microsoft Entra SharePoint application*
+ `clientSecret`: *client secret associated with your Microsoft Entra SharePoint application*
+ `sharePointClientId`: *client ID generated when registering your SharePoint app for App-Only authentication*
+ `sharePointClientSecret`: *client secret generated when registering your SharePoint app for App-Only authentication*

**Note**  
Votre code secret AWS Secrets Manager doit utiliser la même région que celle de votre base de connaissances.

------
#### [ Console ]

**Connect une SharePoint instance à votre base de connaissances**<a name="connect-sharepoint-console"></a>

1. Suivez les étapes décrites dans [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et choisissez **SharePoint**comme source de données.

1. Indiquez un nom et une description facultative de la source de données.

1. Indiquez l'URL de votre SharePoint site/URLs. Par exemple, pour SharePoint Online,*https://yourdomain.sharepoint.com/sites/mysite*. Votre URL doit commencer par *https* et contenir *sharepoint.com*. L'URL de votre site doit être le SharePoint site réel, pas *sharepoint.com/* ou *sites/mysite/home.aspx*

1. Indiquez le nom de domaine de votre SharePoint instance.

1. Dans la section **Paramètres avancés**, vous pouvez éventuellement configurer les éléments suivants :
   + **Clé KMS pour le stockage de données transitoires** — Vous pouvez chiffrer les données transitoires tout en les convertissant en données intégrées à l'aide de la clé KMS par défaut Clé gérée par AWS ou de votre propre clé. Pour de plus amples informations, veuillez consulter [Chiffrement du stockage des données transitoires lors de l’ingestion de données](encryption-kb.md#encryption-kb-ingestion).
   + **Politique de suppression des données** : vous pouvez supprimer les vectorisations de votre source de données qui sont stockées dans le magasin de vecteurs par défaut, ou choisir de conserver les données du magasin de vecteurs.

1. Fournissez les informations d'authentification pour vous connecter à votre SharePoint instance. Pour l' SharePoint authentification par application uniquement :

   1. Fournissez l’ID de locataire. Vous trouverez celui-ci dans les propriétés sur le portail Azure Active Directory.

   1. Accédez AWS Secrets Manager à pour ajouter vos informations d'identification secrètes ou utilisez un Amazon Resource Name (ARN) existant pour le secret que vous avez créé. Votre code secret doit contenir l'identifiant SharePoint client et le secret SharePoint client générés lorsque vous avez enregistré l'application uniquement au niveau du locataire ou au niveau du site, ainsi que l'identifiant client Entra et le secret client Entra générés lorsque vous enregistrez l'application dans Entra.

1. (Facultatif) Dans la section **Analyse et découpage du contenu**, vous pouvez personnaliser le mode d’analyse et de découpage de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :
   + Pour plus d’informations sur les options d’analyse, consultez [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).
   + Pour plus d’informations sur les stratégies de découpage, consultez [Fonctionnement du découpage du contenu pour les bases de connaissances](kb-chunking.md).
**Avertissement**  
Une fois connecté à la source de données, vous ne pouvez plus modifier la stratégie de découpage.
   + Pour plus d’informations sur la façon de personnaliser le découpage de vos données et le traitement de vos métadonnées avec une fonction Lambda, consultez [Utilisation d’une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées](kb-custom-transformation.md).

1. Choisissez d'utiliser des modèles d' filters/regular expressions pour inclure ou exclure certains contenus. Autrement, l’ensemble du contenu standard est indexé.

1. Continuez en choisissant un modèle de vectorisation et un magasin de vecteurs. Pour voir les étapes restantes, revenez à [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et poursuivez après avoir connecté votre source de données.

------
#### [ API ]

Voici un exemple de configuration pour vous connecter à SharePoint Online pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données à l'aide de l'API avec le SDK compatible AWS CLI ou compatible, tel que Python. Après avoir appelé [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), vous appelez [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)pour créer votre source de données avec vos informations de connexion`dataSourceConfiguration`.

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l’ingestion en incluant le champ facultatif `vectorIngestionConfiguration`, consultez [Personnalisation de l’ingestion pour une source de données](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock-agent create-data-source \
 --name "SharePoint Online connector" \
 --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE"
```

**Contenu de `sharepoint-bedrock-connector-configuration.json`**

```
{
    "sharePointConfiguration": {
        "sourceConfiguration": {
            "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de",
            "hostType": "ONLINE",
            "domain": "yourdomain",
            "siteUrls": [
                "https://yourdomain.sharepoint.com/sites/mysite"
            ],
            "authType": "OAUTH2_SHAREPOINT_APP_ONLY_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "File",
                            "inclusionFilters": [
                                ".*\\.pdf"
                            ],
                            "exclusionFilters": [
                                ".*private.*\\.pdf"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "SHAREPOINT"
}
```

------

**Important**  
L'authentification OAuth2 .0 n'est pas recommandée. Nous vous recommandons d'utiliser l'authentification SharePoint uniquement par application.

## Utilisation de 0 OAuth2.
<a name="sharepoint-connector-oauth"></a>

La OAuth version 2.0 vous permet d'authentifier et d'autoriser l'accès aux SharePoint ressources pour les SharePoint connecteurs intégrés aux bases de connaissances.

### Conditions préalables
<a name="sharepoint-connector-oauth-prereq"></a>

**Dans SharePoint le cas de l'authentification OAuth 2.0, assurez-vous** de :
+ Prenez note de l'URL de votre site SharePoint en ligne/URLs. Par exemple, *https://yourdomain.sharepoint.com/sites/mysite*. Votre URL doit commencer par *https* et contenir *sharepoint.com*. L'URL de votre site doit être le SharePoint site réel, pas *sharepoint.com/* ou *sites/mysite/home.aspx*
+ Prenez note du nom de domaine de l'URL de votre instance SharePoint en ligne/URLs.
+ Copiez votre ID de locataire Microsoft 365. Vous pouvez trouver votre identifiant de locataire dans les propriétés de votre portail Microsoft Entra ou dans votre OAuth application.

  Prenez note du nom d'utilisateur et du mot de passe du SharePoint compte administrateur, puis copiez l'ID client et la valeur secrète du client lors de l'enregistrement d'une application.
**Note**  
Pour obtenir un exemple d’application, consultez [Inscrire une application cliente dans Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (anciennement Azure Active Directory) sur le site web Microsoft Learn. 
+ Certaines autorisations de lecture sont requises pour se connecter SharePoint lorsque vous enregistrez une application.
  + SharePoint: AllSites .Read (Delegated) — Lit les éléments de toutes les collections de sites
+ Vous devrez peut-être désactiver les paramètres de **sécurité par défaut** sur le portail Azure via un utilisateur administrateur. Pour plus d'informations sur la gestion des paramètres de sécurité par défaut sur le portail Azure, consultez la [documentation Microsoft sur la procédure à suivre pour définir les paramètres enable/disable de sécurité par défaut](https://learn.microsoft.com/en-us/microsoft-365/business-premium/m365bp-conditional-access?view=o365-worldwide&tabs=secdefaults#security-defaults-1).
+ Il se peut que vous deviez désactiver l'authentification multifactorielle (MFA) dans SharePoint votre compte afin qu'Amazon Bedrock ne soit pas empêché d'explorer votre contenu. SharePoint 

Pour respecter les conditions préalables, assurez-vous d’avoir terminé les étapes décrites dans [Compte AWS](#prerequisites-sharepoint-connector-account).

### Informations d’identification secrètes
<a name="sharepoint-secret-auth-credentials-oauth"></a>

Pour la configuration de la connexion pour la version OAuth2 .0, vous pouvez effectuer les mêmes étapes pour la détection automatique des principaux champs du document, des inclusion/exclusion filtres et de la synchronisation incrémentielle, comme décrit dans. [Configuration de la connexion](#configuration-sharepoint-connector)

**Pour l'authentification OAuth 2.0, vos informations d'authentification secrètes AWS Secrets Manager doivent inclure ces paires clé-valeur**.
+ `username`: *SharePoint admin username*
+ `password`: *SharePoint admin password*
+ `clientId`: *OAuth app client ID*
+ `clientSecret`: *OAuth app client secret*

### Connect une SharePoint instance à votre base de connaissances
<a name="sharepoint-connector-oauth-using"></a>

Pour connecter une SharePoint instance à votre base de connaissances lorsque vous utilisez la version OAuth2 .0 :
+ (console) Dans la console, suivez les mêmes étapes que celles décrites dans la section [Connecter une SharePoint instance à votre base de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/sharepoint-data-source-connector.html#connect-sharepoint-console). Lorsque vous souhaitez fournir les informations d'authentification pour vous connecter à votre SharePoint instance.
  + Fournissez l’ID de locataire. Vous trouverez celui-ci dans les propriétés sur le portail Azure Active Directory.
  + Accédez AWS Secrets Manager à pour ajouter vos informations d'authentification secrètes ou utilisez un Amazon Resource Name (ARN) existant pour le secret que vous avez créé. Votre code secret doit contenir le nom d'utilisateur et le mot de passe de l' SharePoint administrateur, ainsi que l'identifiant client et le secret client de l'application que vous avez enregistrés. Pour obtenir un exemple d’application, consultez [Inscrire une application cliente dans Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (anciennement Azure Active Directory) sur le site web Microsoft Learn.
+ (API) Voici un exemple d'utilisation de l'`CreateDataSource`API pour créer votre source de données avec vos informations de connexion pour OAuth2 .0.

  ```
  aws bedrock-agent create-data-source \
   --name "SharePoint Online connector" \
   --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \
   --knowledge-base-id "your-knowledge-base-id" \
   --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \
   --data-deletion-policy "DELETE"
  ```

  **Contenu de `sharepoint-bedrock-connector-configuration.json`**

  ```
  {
      "sharePointConfiguration": {
          "sourceConfiguration": {
              "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de",
              "hostType": "ONLINE",
              "domain": "yourdomain",
              "siteUrls": [
                  "https://yourdomain.sharepoint.com/sites/mysite"
              ],
              "authType": "OAUTH2_CLIENT_CREDENTIALS",
              "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint"
          },
          "crawlerConfiguration": {
              "filterConfiguration": {
                  "type": "PATTERN",
                  "patternObjectFilter": {
                      "filters": [
                          {
                              "objectType": "File",
                              "inclusionFilters": [
                                  ".*\\.pdf"
                              ],
                              "exclusionFilters": [
                                  ".*private.*\\.pdf"
                              ]
                          }
                      ]
                  }
              }
          }
      },
      "type": "SHAREPOINT"
  }
  ```

# Connexion à Salesforce pour votre base de connaissances
<a name="salesforce-data-source-connector"></a>

Salesforce est un outil de gestion de la relation client (CRM) permettant de gérer les équipes d’assistance, de vente et de marketing. Vous pouvez vous connecter à votre instance Salesforce pour votre base de connaissances Amazon Bedrock en utilisant la [console de gestion AWS pour Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) ou l’API [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) (consultez [les commandes de l’AWS CLI et les kits SDK pris en charge](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) par Amazon Bedrock).

**Note**  
Le connecteur de source de données Salesforce est proposé en version préliminaire et peut faire l’objet de modifications.  
Les sources de données Salesforce ne prennent pas en charge les données multimodales, telles que les tableaux, les graphiques, les diagrammes ou autres images.

Actuellement, seul le magasin de vecteurs Amazon OpenSearch sans serveur peut être utilisé avec cette source de données.

Il existe des limites au nombre de fichiers et de Mo par fichier pouvant être indexés. Consultez [Quotas pour les bases de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [

## Fonctionnalités prises en charge
](#supported-features-salesforce-connector)
+ [

## Conditions préalables
](#prerequisites-salesforce-connector)
+ [

## Configuration de la connexion
](#configuration-salesforce-connector)

## Fonctionnalités prises en charge
<a name="supported-features-salesforce-connector"></a>
+ Détection automatique des principaux champs d’un document
+ Filtres de contenu d’inclusion/exclusion
+ Synchronisation incrémentielle du contenu ajouté, mis à jour et supprimé
+ Authentification OAuth 2.0

## Conditions préalables
<a name="prerequisites-salesforce-connector"></a>

**Dans Salesforce** :
+ Assurez-vous de noter l’URL de votre instance Salesforce. Par exemple, *https://company.salesforce.com/*. L’instance doit exécuter une application connectée Salesforce.
+ Créez une application connectée Salesforce et configurez les informations d’identification client. Ensuite, pour l’application sélectionnée, copiez la clé consommateur (ID client) et le secret consommateur (secret client) à partir des paramètres OAuth. Pour plus d’informations, consultez [Create a Connected App](https://help.salesforce.com/s/articleView?id=sf.connected_app_create.htm&type=5) et [Configure a Connected App for the OAuth 2.0 Client Credentials Flow](https://help.salesforce.com/s/articleView?id=sf.connected_app_client_credentials_setup.htm&type=5) dans la documentation Salesforce.
**Note**  
Pour les applications connectées Salesforce, sous Flux d’informations d’identification client, assurez-vous de rechercher et de sélectionner le nom ou l’alias des informations d’identifications de votre client dans le champ « Exécuter sous ».

**Dans votre compte AWS** :
+ Pour l’authentification, assurez-vous de stocker vos informations d’identification dans un [secret AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) et notez l’Amazon Resource Name (ARN) du secret. Suivez les instructions de la section **Configuration de la connexion** sur cette page pour inclure les paires clé-valeur qui doivent être incluses dans votre secret.
+ Incluez dans votre politique de rôle/d’autorisations Gestion des identités et des accès AWS (IAM) les autorisations nécessaires afin de vous connecter à votre source de données pour votre base de connaissances. Pour en savoir plus sur les autorisations requises afin d’ajouter cette source de données à votre rôle IAM dans la base de connaissances, consultez [Autorisations d’accès aux sources de données](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Note**  
Si vous utilisez la console, vous pouvez accéder à AWS Secrets Manager pour ajouter votre secret ou utiliser un secret existant dans le cadre de l’étape de configuration de la source de données. Le rôle IAM possédant toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois votre source de données configurée et les autres configurations effectuées, le rôle IAM possédant toutes les autorisations requises est appliqué à votre base de connaissances spécifique.  
Nous vous recommandons d’actualiser ou de modifier régulièrement vos informations d’identification et votre secret. Pour votre propre sécurité, fournissez uniquement le niveau d’accès nécessaire. Nous vous recommandons de ne pas réutiliser vos informations d’identification et vos secrets d’une source de données à l’autre.

## Configuration de la connexion
<a name="configuration-salesforce-connector"></a>

Afin de vous connecter à votre instance Salesforce, vous devez fournir les informations de configuration nécessaires pour qu’Amazon Bedrock puisse accéder à vos données et les indexer. Vous devez également respecter les [Conditions préalables](#prerequisites-salesforce-connector).

Un exemple de configuration pour cette source de données est inclus dans cette section.

Pour plus d’informations sur la détection automatique des champs d’un document, les filtres d’inclusion/exclusion, la synchronisation incrémentielle, les informations d’identification secrètes et leur fonctionnement, développez les sections suivantes :

### Détection automatique des principaux champs d’un document
<a name="ds-salesforce-document-fields"></a>

Le connecteur de source de données détecte et indexe automatiquement les principaux champs de métadonnées de vos documents ou contenus. Par exemple, le connecteur de source de données peut indexer le contenu principal (ou son équivalent), le titre et la date de création ou de modification de vos documents, ou d’autres champs de base susceptibles de s’appliquer à ceux-ci.

**Important**  
Si votre contenu contient des informations sensibles, Amazon Bedrock peut répondre en utilisant des informations sensibles.

Vous pouvez appliquer des opérateurs de filtrage aux champs de métadonnées afin d’améliorer davantage la pertinence des réponses. Par exemple, « epoch\$1modification\$1time » pour connaître le nombre de secondes écoulées depuis le 1er janvier 1970 jusqu’au moment de la dernière mise à jour du document. Vous pouvez filtrer les données en fonction des plus récentes, pour lesquelles « epoch\$1modification\$1time » est *supérieur à* un certain nombre. Pour plus d’informations sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, consultez [Métadonnées et filtrage](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Filtres d’inclusion et d’exclusion
<a name="ds-salesforce-inclusion-exclusion"></a>

Vous pouvez inclure ou exclure l’indexation de certains contenus. Par exemple, vous pouvez spécifier un préfixe d’exclusion/un modèle d’expression régulière pour éviter d’indexer tout fichier dont le nom contient le mot « privé ». Vous pouvez également spécifier un préfixe d’inclusion/un modèle d’expression régulière pour inclure certaines entités ou certains types de contenu. Si vous spécifiez un filtre d’inclusion et un filtre d’exclusion et que les deux correspondent à un document, le filtre d’exclusion est prioritaire et le document n’est pas indexé.

Exemple de modèle d’expression régulière permettant d’exclure ou de filtrer les campagnes dont le nom contient « privé » : *".\$1privé.\$1"*

Vous pouvez appliquer des filtres d’inclusion/exclusion aux types de contenus suivants :
+ `Account` : numéro/identifiant de compte
+ `Attachment` : nom de fichier joint avec son extension
+ `Campaign` : nom de la campagne et identifiants associés
+ `ContentVersion` : Version du document et identifiants associés
+ `Partner` : champs d’informations sur les partenaires, y compris les identifiants associés
+ `Pricebook2` : nom de la liste de produits/prix
+ `Case` : numéro de demande/de problème d’un client et autres champs d’information, y compris les identifiants associés (Attention : peut contenir des informations personnelles que vous pouvez choisir d’exclure ou de filtrer)
+ `Contact` : champs d’informations d’un client (Attention : peut contenir des informations personnelles que vous pouvez choisir d’exclure ou de filtrer)
+ `Contract` : nom du contrat et identifiants associés
+ `Document` : nom de fichier avec son extension
+ `Idea` : champs d’informations d’une idée et identifiants associés
+ `Lead` : champs d’informations d’un nouveau client potentiel (Attention : peut contenir des informations personnelles que vous pouvez choisir d’exclure ou de filtrer)
+ `Opportunity` : champs d’informations d’une vente/affaire en attente et identifiants associés
+ `Product2` : champs d’informations d’un produit et identifiants associés
+ `Solution` : nom de la solution à la demande/au problème d’un client et identifiants associés
+ `Task` : champs d’informations d’une tâche et identifiants associés
+ `FeedItem` : identifiant d’une publication du flux Chatter
+ `FeedComment` : identifiant de la publication du flux Chatter à laquelle appartiennent les commentaires
+ `Knowledge__kav` : titre de l’article de la base de connaissances
+ `User` : alias utilisateur au sein de votre organisation
+ `CollaborationGroup` : nom du groupe Chatter (unique)

### Synchronisation incrémentielle
<a name="ds-salesforce-incremental-sync"></a>

Le connecteur de source de données indexe le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications et indexer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, l’ensemble du contenu est indexé par défaut.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l’API [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) ou sélectionnez votre base de connaissances dans la console, puis sélectionnez **Synchroniser** dans la section Vue d’ensemble des sources de données.

**Important**  
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à toute personne disposant des autorisations `bedrock:Retrieve` pour récupérer les données. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d’informations, consultez [Autorisations de la base de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Informations d’identification secrètes
<a name="ds-salesforce-secret-auth-credentials"></a>

(Pour l’authentification OAuth 2.0) Vos informations d’identification dans AWS Secrets Manager doivent inclure les paires clé-valeur suivantes :
+ `consumerKey` : *ID client de l’application*
+ `consumerSecret` : *secret client de l’application*
+ `authenticationUrl` : *URL de l’instance Salesforce ou URL à laquelle demander le jeton d’authentification*

**Note**  
Votre secret dans AWS Secrets Manager doit utiliser la même région que celle de votre base de connaissances.

------
#### [ Console ]

**Connexion d’une instance Salesforce à votre base de connaissances**

1. Suivez les étapes décrites dans [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et choisissez **Salesforce** comme source de données.

1. Indiquez un nom et une description facultative de la source de données.

1. Fournissez l’URL de votre instance Salesforce. Par exemple, *https://company.salesforce.com/*. L’instance doit exécuter une application connectée Salesforce.

1. Dans la section **Paramètres avancés**, vous pouvez éventuellement configurer les éléments suivants :
   + **Clé KMS pour le stockage de données transitoires**  : vous pouvez chiffrer les données transitoires lors de la conversion de vos données en vectorisations à l’aide de la Clé gérée par AWS par défaut ou de votre propre clé KMS. Pour plus d’informations, consultez [Chiffrement du stockage des données transitoires lors de l’ingestion de données](encryption-kb.md#encryption-kb-ingestion).
   + **Politique de suppression des données** : vous pouvez supprimer les vectorisations de votre source de données qui sont stockées dans le magasin de vecteurs par défaut, ou choisir de conserver les données du magasin de vecteurs.

1. Fournissez les informations d’authentification pour vous connecter à votre instance Salesforce :

   1. Pour l’authentification OAuth 2.0, rendez-vous sur AWS Secrets Manager pour ajouter vos informations d’identification secrètes ou utilisez un Amazon Resource Name (ARN) existant pour le secret que vous avez créé. Votre secret doit contenir la clé consommateur Salesforce Connected App (ID client), le secret consommateur (secret client) et l’URL d’instance Salesforce ou l’URL auprès de laquelle demander le jeton d’authentification. Pour plus d’informations, consultez [Create a Connected App](https://help.salesforce.com/s/articleView?id=sf.connected_app_create.htm&type=5) et [Configure a Connected App for the OAuth 2.0 Client Credentials Flow](https://help.salesforce.com/s/articleView?id=sf.connected_app_client_credentials_setup.htm&type=5) dans la documentation Salesforce.

1. (Facultatif) Dans la section **Analyse et découpage du contenu**, vous pouvez personnaliser le mode d’analyse et de découpage de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :
   + Pour plus d’informations sur les options d’analyse, consultez [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).
   + Pour plus d’informations sur les stratégies de découpage, consultez [Fonctionnement du découpage du contenu pour les bases de connaissances](kb-chunking.md).
**Avertissement**  
Une fois connecté à la source de données, vous ne pouvez plus modifier la stratégie de découpage.
   + Pour plus d’informations sur la façon de personnaliser le découpage de vos données et le traitement de vos métadonnées avec une fonction Lambda, consultez [Utilisation d’une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées](kb-custom-transformation.md).

1. Utilisez des filtres/modèles d’expressions régulières pour inclure ou exclure certains contenus. Autrement, l’ensemble du contenu standard est indexé.

1. Continuez en choisissant un modèle de vectorisation et un magasin de vecteurs. Pour voir les étapes restantes, revenez à [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et poursuivez après avoir connecté votre source de données.

------
#### [ API ]

Voici un exemple de configuration pour connecter votre base de connaissances Amazon Bedrock à Salesforce. Vous configurez votre source de données à l’aide de l’API avec l’AWS CLI ou d’un kit SDK compatible, tel que Python. Après avoir appelé [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), vous appelez [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) pour créer votre source de données contenant vos informations de connexion dans `dataSourceConfiguration`.

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l’ingestion en incluant le champ facultatif `vectorIngestionConfiguration`, consultez [Personnalisation de l’ingestion pour une source de données](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock create-data-source \
 --name "Salesforce connector" \
 --description "Salesforce data source connector for Amazon Bedrock to use content in Salesforce" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://salesforce-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'

salesforce-bedrock-connector-configuration.json
{
    "salesforceConfiguration": {
        "sourceConfiguration": {
            "hostUrl": "https://company.salesforce.com/",
            "authType": "OAUTH2_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Salesforce"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "Campaign",
                            "inclusionFilters": [
                                ".*public.*"
                            ],
                            "exclusionFilters": [
                                ".*private.*"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "SALESFORCE"
}
```

------

# Analyse de pages Web pour votre base de connaissances
<a name="webcrawl-data-source-connector"></a>

Le robot d’indexation fourni par Amazon Bedrock se connecte aux URL que vous avez sélectionnées pour les utiliser dans votre base de connaissances Amazon Bedrock et les analyse. Vous pouvez analyser les pages du site Web conformément à la portée ou aux limites que vous avez définies pour les URL sélectionnées. Vous pouvez analyser les pages d’un site Web à l’aide de la [console de gestion AWS pour Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) ou de l’API [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) (consultez [les commandes de l’AWS CLI et les kits SDK pris en charge](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) par Amazon Bedrock). Actuellement, seul le magasin de vecteurs Amazon OpenSearch sans serveur peut être utilisé avec cette source de données.

**Note**  
Le connecteur de source de données du robot d’indexation est en version préliminaire et peut faire l’objet de modifications.

Lorsque vous sélectionnez des sites Web à analyser, vous devez respecter la [Politique d’AWS en matière d’utilisation acceptable](https://aws.amazon.com/aup/) et toutes les autres conditions d’Amazon. N’oubliez pas que vous ne devez utiliser le robot d’indexation que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à indexer et que vous devez respecter les configurations robots.txt.

Le robot d’indexation respecte robots.txt conformément à la norme [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Le nombre d’éléments de contenu de page Web et le nombre de Mo par élément de contenu pouvant être analysés sont limités. Consultez [Quotas pour les bases de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [

## Fonctionnalités prises en charge
](#supported-features-webcrawl-connector)
+ [

## Conditions préalables
](#prerequisites-webcrawl-connector)
+ [

## Configuration de la connexion
](#configuration-webcrawl-connector)

## Fonctionnalités prises en charge
<a name="supported-features-webcrawl-connector"></a>

Le robot d’indexation se connecte aux pages HTML et les analyse à partir de l’URL d’origine, en parcourant tous les liens enfants sous le même domaine principal et le même chemin d’accès. Si l’une des pages HTML fait référence à des documents pris en charge, le robot d’indexation récupérera ces documents, qu’ils se trouvent ou non sous le même domaine principal. Vous pouvez modifier le comportement d’indexation en modifiant la configuration d’indexation. Consultez [Configuration de la connexion](#configuration-webcrawl-connector).

Les éléments suivants sont pris en charge pour vous permettre de :
+ sélectionner plusieurs URL sources à analyser et définir la portée des URL afin d’analyser uniquement l’hôte ou d’inclure également les sous-domaines ;
+ analyser les pages Web statiques qui font partie de vos URL sources ;
+ spécifier un suffixe agent utilisateur personnalisé pour définir les règles de votre propre robot ;
+ inclure ou exclure certaines URL qui correspondent à un modèle de filtre ;
+ respecter les directives standard de robots.txt telles que « Autoriser » et « Interdire » ;
+ limiter la portée des URL à analyser et exclure éventuellement les URL qui correspondent à un modèle de filtre ;
+ limiter le taux d’indexation des URL et le nombre maximum de pages à analyser ;
+ consulter l’état des URL indexées dans Amazon CloudWatch.

## Conditions préalables
<a name="prerequisites-webcrawl-connector"></a>

**Pour utiliser le robot d’indexation, assurez-vous de :**
+ vérifier que vous êtes autorisé à analyser vos URL sources ;
+ vérifier que le chemin d’accès à robots.txt correspondant à vos URL sources n’empêche pas l’analyse des URL. Le robot d’indexation respecte les normes de robots.txt : `disallow` par défaut si robots.txt n’est pas trouvé pour le site Web. Le robot d’indexation respecte robots.txt conformément à la norme [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html). Vous pouvez également spécifier un suffixe d’en-tête agent utilisateur personnalisé pour définir les règles de votre propre robot. Pour plus d’informations, consultez Accès à l’URL du robot d’indexation dans les instructions [Configuration de la connexion](#configuration-webcrawl-connector) de cette page ;
+ [activer la livraison des journaux CloudWatch Logs](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-bases-logging.html) et suivre des exemples de journaux du robot d’indexation pour connaître l’état de votre tâche d’ingestion de données pour l’ingestion de contenu Web et savoir si certaines URL ne peuvent pas être récupérées.

**Note**  
Lorsque vous sélectionnez des sites Web à analyser, vous devez respecter la [Politique d’AWS en matière d’utilisation acceptable](https://aws.amazon.com/aup/) et toutes les autres conditions d’Amazon. N’oubliez pas que vous ne devez utiliser le robot d’indexation que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à analyser.

## Configuration de la connexion
<a name="configuration-webcrawl-connector"></a>

Pour plus d’informations sur la portée de synchronisation pour l’indexation des URL, les filtres d’inclusion/exclusion, l’accès aux URL, la synchronisation incrémentielle et leur fonctionnement, sélectionnez les sections suivantes :

### Portée de synchronisation pour l’indexation des URL
<a name="ds-sync-scope"></a>

Vous pouvez limiter la portée des URL à analyser en fonction de la relation spécifique entre l’URL de chaque page et les URL d’origine. Pour accélérer les analyses, vous pouvez limiter les URL à celles qui ont le même hôte et le même chemin d’URL initial que l’URL d’origine. Pour des analyses plus étendues, vous pouvez choisir d’analyser les URL avec le même hôte ou dans n’importe quel sous-domaine de l’URL d’origine.

Choisissez parmi les options décrites ci-dessous.
+ Par défaut : limitez l’indexation aux pages Web qui appartiennent au même hôte et dont le chemin URL initial est le même. Par exemple, avec une URL d’origine « https://aws.amazon.com/bedrock/ », seuls ce chemin et les pages Web qui en découlent seront analysés, comme « https://aws.amazon.com/bedrock/agents/ ». Les URL sœurs telles que « https://aws.amazon.com/ec2/ » ne sont pas analysées, par exemple.
+ Hôte uniquement : limitez l’indexation aux pages Web appartenant au même hôte. Par exemple, si l’URL d’origine est « https://aws.amazon.com/bedrock/ », les pages Web contenant « https://aws.amazon.com » seront également analysées, comme « https://aws.amazon.com/ec2 ».
+ Sous-domaines : incluez l’indexation de toute page Web dont le domaine principal est celui de l’URL d’origine. Par exemple, si l’URL d’origine est « https://aws.amazon.com/bedrock/ », toute page Web contenant « amazon.com » (sous-domaine) sera analysée, comme « https://www.amazon.com ».

**Note**  
Assurez-vous de ne pas indexer un nombre potentiellement excessif de pages Web. Il n’est pas recommandé d’analyser des sites Web volumineux, tels que wikipedia.org, sans filtres ni limites de portée. L’indexation de sites Web volumineux prendra beaucoup de temps.  
Les [types de fichiers pris en charge](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) sont analysés quelle que soit leur portée et s’il n’existe aucun modèle d’exclusion pour le type de fichier.

Le robot d’indexation prend en charge les sites Web statiques.

Vous pouvez également limiter le taux d’indexation des URL afin de contrôler la limitation de la vitesse d’indexation. Vous définissez le nombre maximal d’URL à analyser par hôte et par minute. En outre, vous pouvez également définir le nombre maximal (jusqu’à 25 000) de pages Web à analyser. Notez que si le nombre total de pages Web provenant de vos URL sources dépasse le maximum défini, votre tâche de synchronisation/ingestion de sources de données échouera.

### Filtres d’inclusion et d’exclusion
<a name="ds-inclusion-exclusion"></a>

Vous pouvez inclure ou exclure certaines URL en fonction de votre portée. Les [types de fichiers pris en charge](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) sont analysés quelle que soit leur portée et s’il n’existe aucun modèle d’exclusion pour le type de fichier. Si vous spécifiez un filtre d’inclusion et un filtre d’exclusion et que les deux correspondent à une URL, le filtre d’exclusion est prioritaire et le contenu Web n’est pas analysé.

**Important**  
Les filtres de modèles d’expression régulière problématiques qui entraînent un [retour sur trace catastrophique](https://docs.aws.amazon.com/codeguru/detector-library/python/catastrophic-backtracking-regex/) et une vision prospective sont rejetés.

Exemple de modèle de filtre d’expression régulière pour exclure les URL se terminant par « .pdf » ou les pièces jointes de pages Web PDF : *« .\$1\$1.pdf\$1 »*

### Accès à l’URL du robot d’indexation
<a name="ds-webcrawl-identity-crawling"></a>

Vous pouvez utiliser le robot d’indexation pour explorer les pages des sites Web que vous êtes autorisé à analyser.

Lorsque vous sélectionnez des sites Web à analyser, vous devez respecter la [Politique d’AWS en matière d’utilisation acceptable](https://aws.amazon.com/aup/) et toutes les autres conditions d’Amazon. N’oubliez pas que vous ne devez utiliser le robot d’indexation que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à analyser.

Le robot d’indexation respecte robots.txt conformément à la norme [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Vous pouvez spécifier à certains robots Agent utilisateur « d’autoriser » ou de « refuser » à l’agent utilisateur d’analyser vos URL sources. Vous pouvez modifier le fichier robots.txt de votre site Web pour contrôler la façon dont le robot d’indexation explore vos URL sources. Le robot recherchera d’abord les règles `bedrockbot-UUID `, puis les règles `bedrockbot` génériques dans le fichier robots.txt.

Vous pouvez également ajouter un suffixe Agent utilisateur qui peut être utilisé pour autoriser votre robot à figurer sur la liste des systèmes de protection contre les robots. Notez qu’il n’est pas nécessaire d’ajouter ce suffixe au fichier `robots.txt` pour s’assurer que personne ne puisse usurper la chaîne Agent utilisateur. Par exemple, pour autoriser le robot d’indexation à indexer tout le contenu du site Web et interdire l’indexation à tout autre robot, utilisez la directive suivante :

```
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages
```

### Synchronisation incrémentielle
<a name="ds-incremental-sync"></a>

Chaque fois que le robot d’indexation s’exécute, il récupère le contenu de toutes les URL accessibles depuis les URL sources et qui correspondent à la portée et aux filtres. Pour les synchronisations incrémentielles après la première synchronisation de l’ensemble du contenu, Amazon Bedrock mettra à jour votre base de connaissances avec du contenu nouveau et modifié, et supprimera l’ancien contenu qui n’est plus présent. Parfois, le robot d’indexation peut ne pas être en mesure de savoir si le contenu a été supprimé du site Web ; dans ce cas, il préférera conserver l’ancien contenu de votre base de connaissances.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l’API [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) ou sélectionnez votre base de connaissances dans la console, puis sélectionnez **Synchroniser** dans la section Vue d’ensemble des sources de données.

**Important**  
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à toute personne disposant des autorisations `bedrock:Retrieve` pour récupérer les données. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d’informations, consultez [Autorisations de la base de connaissances](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Connexion d’une source de données du robot d’indexation à votre base de connaissances**

1. Suivez les étapes décrites dans [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et choisissez **Robot d’indexation** comme source de données.

1. Indiquez un nom et une description facultative de la source de données.

1. Indiquez les **URL source** des URL que vous souhaitez explorer. Vous pouvez ajouter jusqu’à 9 URL supplémentaires en sélectionnant **Ajouter des URL sources**. En fournissant une URL source, vous confirmez que vous êtes autorisé à analyser son domaine.

1. Dans la section **Paramètres avancés**, vous pouvez éventuellement configurer les éléments suivants :
   + **Clé KMS pour le stockage de données transitoires**  : vous pouvez chiffrer les données transitoires lors de la conversion de vos données en vectorisations à l’aide de la Clé gérée par AWS par défaut ou de votre propre clé KMS. Pour plus d’informations, consultez [Chiffrement du stockage des données transitoires lors de l’ingestion de données](encryption-kb.md#encryption-kb-ingestion).
   + **Politique de suppression des données** : vous pouvez supprimer les vectorisations de votre source de données qui sont stockées dans le magasin de vecteurs par défaut, ou choisir de conserver les données du magasin de vecteurs.

1. (Facultatif) Fournissez un suffixe Agent utilisateur pour **bedrock-UUID-** qui identifie le robot d’indexation ou le robot lorsqu’il accède à un serveur Web.

1. Configurez les éléments suivants dans la section **Portée de la synchronisation** :

   1. Sélectionnez une **gamme de domaines du site Web** pour indexer vos URL sources :
      + Par défaut : limitez l’indexation aux pages Web qui appartiennent au même hôte et dont le chemin URL initial est le même. Par exemple, avec une URL d’origine « https://aws.amazon.com/bedrock/ », seuls ce chemin et les pages Web qui en découlent seront analysés, comme « https://aws.amazon.com/bedrock/agents/ ». Les URL sœurs telles que « https://aws.amazon.com/ec2/ » ne sont pas analysées, par exemple.
      + Hôte uniquement : limitez l’indexation aux pages Web appartenant au même hôte. Par exemple, si l’URL d’origine est « https://aws.amazon.com/bedrock/ », les pages Web contenant « https://aws.amazon.com » seront également analysées, comme « https://aws.amazon.com/ec2 ».
      + Sous-domaines : incluez l’indexation de toute page Web dont le domaine principal est celui de l’URL d’origine. Par exemple, si l’URL d’origine est « https://aws.amazon.com/bedrock/ », toute page Web contenant « amazon.com » (sous-domaine) sera analysée, comme « https://www.amazon.com ».
**Note**  
Assurez-vous de ne pas indexer un nombre potentiellement excessif de pages Web. Il n’est pas recommandé d’analyser des sites Web volumineux, tels que wikipedia.org, sans filtres ni limites de portée. L’indexation de sites Web volumineux prendra beaucoup de temps.  
Les [types de fichiers pris en charge](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) sont analysés quelle que soit leur portée et s’il n’existe aucun modèle d’exclusion pour le type de fichier.

   1. Entrez la **limitation maximale de la vitesse d’indexation de site Web**. Ingérez entre 1 et 300 URL par hôte et par minute. Une vitesse d’indexation plus élevée augmente la charge, mais prend moins de temps.

   1. Entrez un **nombre maximum de pages pour la synchronisation des sources de données** compris entre 1 et 25 000. Limitez le nombre maximum de pages Web analysées à partir de vos URL sources. Si le nombre de pages Web dépasse ce nombre, la synchronisation des sources de données échouera et aucune page Web ne sera ingérée. 

   1. Pour les modèles **URL Regex** (facultatif), vous pouvez ajouter des **modèles d’inclusion** ou **modèles d’exclusion** en saisissant le modèle d’expression régulière dans le champ. Vous pouvez ajouter jusqu’à 25 modèles d’inclusion et 25 modèles d’exclusion en sélectionnant **Ajouter un nouveau modèle**. Les modèles d’inclusion et d’exclusion sont analysés en fonction de votre portée. En cas de conflit, le modèle d’exclusion est prioritaire.

1. (Facultatif) Dans la section **Analyse et découpage du contenu**, vous pouvez personnaliser le mode d’analyse et de découpage de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :
   + Pour plus d’informations sur les options d’analyse, consultez [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).
   + Pour plus d’informations sur les stratégies de découpage, consultez [Fonctionnement du découpage du contenu pour les bases de connaissances](kb-chunking.md).
**Avertissement**  
Une fois connecté à la source de données, vous ne pouvez plus modifier la stratégie de découpage.
   + Pour plus d’informations sur la façon de personnaliser le découpage de vos données et le traitement de vos métadonnées avec une fonction Lambda, consultez [Utilisation d’une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées](kb-custom-transformation.md).

1. Continuez en choisissant un modèle de vectorisation et un magasin de vecteurs. Pour voir les étapes restantes, revenez à [Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases](knowledge-base-create.md) et poursuivez après avoir connecté votre source de données.

------
#### [ API ]

Pour connecter une base de connaissances à une source de données à l’aide de WebCrawler, envoyez une demande [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) avec un [point de terminaison de compilation pour agents Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt), spécifiez `WEB` dans le champ `type` de [DataSourceConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_DataSourceConfiguration.html) et incluez le champ `webConfiguration`. Voici un exemple de configuration du robot d’indexation pour votre base de connaissances Amazon Bedrock.

```
{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}
```

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l’ingestion en incluant le champ facultatif `vectorIngestionConfiguration`, consultez [Personnalisation de l’ingestion pour une source de données](kb-data-source-customize-ingestion.md).

------

# Connexion de votre base de connaissances à une source de données personnalisée
<a name="custom-data-source-connector"></a>

Au lieu de choisir un service de source de données pris en charge, vous pouvez vous connecter à une source de données personnalisée pour bénéficier des avantages suivants :
+ Flexibilité et contrôle des types de données auxquels vous souhaitez que votre base de connaissances ait accès
+ Possibilité d’utiliser les opérations de l’API `KnowledgeBaseDocuments` pour ingérer ou supprimer directement les documents sans avoir à synchroniser les modifications
+ Possibilité de consulter les documents de votre source de données directement via l’API ou la console Amazon Bedrock
+ Possibilité de télécharger des documents dans la source de données directement dans le AWS Management Console ou de les ajouter en ligne.
+ Possibilité d’ajouter des métadonnées directement à chaque document lors de l’ajout ou de la mise à jour d’un document dans la source de données Pour plus d’informations sur l’utilisation des métadonnées pour le filtrage lors de l’extraction d’informations à partir d’une source de données, consultez l’onglet **Métadonnées et filtrage** dans [Configuration et personnalisation de la génération de requêtes et de réponses](kb-test-config.md).

**Support de contenu multimodal**  
Les sources de données personnalisées prennent en charge le contenu multimodal, notamment les images, les fichiers audio et vidéo codés en base64 jusqu'à 10 Mo. Pour des conseils complets sur l'utilisation de contenus multimodaux, voir[Création d'une base de connaissances pour le contenu multimodal](kb-multimodal.md).

Pour connecter une base de connaissances à une source de données personnalisée, envoyez une [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)demande à un point de terminaison [Agents for Amazon Bedrock Build-time](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt). Spécifiez l’ID de la base de connaissances (`knowledgeBaseId`) à laquelle vous souhaitez vous connecter, attribuez un `name` à la source de données, puis spécifiez le champ `type` dans `dataSourceConfiguration` sur `CUSTOM`. Voici un exemple minimal de création de cette source de données :

```
PUT /knowledgebases/KB12345678/datasources/ HTTP/1.1
Content-type: application/json

{
    "name": "MyCustomDataSource",
    "dataSourceConfiguration": {
        "type": "CUSTOM"
    }
}
```

Vous pouvez inclure l’un des champs facultatifs suivants pour configurer la source de données :


****  

| Champ | Cas d’utilisation | 
| --- | --- | 
| description | Pour fournir une description de la source de données. | 
| clientToken | Pour garantir que la demande d’API n’est exécutée qu’une seule fois. Pour plus d’informations, consultez [Garantie de l’idempotence](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 
| serverSideEncryptionConfiguration | Pour spécifier une clé KMS personnalisée pour le stockage de données transitoires lors de la conversion de vos données en vectorisations. Pour de plus amples informations, consultez [Chiffrement du stockage des données transitoires lors de l’ingestion de données](encryption-kb.md#encryption-kb-ingestion). | 
| dataDeletionPolicy | Pour configurer ce qu’il convient de faire avec les vectorisations de votre source de données dans votre magasin de vecteurs, si vous supprimez la source de données. Spécifiez RETAIN pour conserver les données dans le magasin de vecteurs ou l’option par défaut DELETE pour les supprimer. | 
| vectorIngestionConfiguration | Pour configurer les options d’ingestion de la source de données. Voir ci-dessous pour plus d’informations. | 

Le `vectorIngestionConfiguration` champ correspond à un [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)objet contenant les champs suivants :
+ chunkingConfiguration : pour configurer la stratégie à utiliser pour le découpage des documents de la source de données. Pour plus d’informations sur les stratégies de découpage, consultez [Fonctionnement du découpage du contenu pour les bases de connaissances](kb-chunking.md).
+ parsingConfiguration : pour configurer la stratégie à utiliser pour analyser la source de données. Pour plus d’informations sur les options d’analyse, consultez [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).
+ customTransformationConfiguration — Pour personnaliser la façon dont les données sont transformées et pour appliquer une fonction Lambda pour une meilleure personnalisation. Pour plus d’informations sur la façon de personnaliser le découpage de vos données et le traitement de vos métadonnées avec une fonction Lambda, consultez [Utilisation d’une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées](kb-custom-transformation.md).

Après avoir configuré votre source de données personnalisée, vous pouvez y ajouter des documents et les ingérer directement dans la base de connaissances. Contrairement à d’autres sources de données, vous n’avez pas besoin de synchroniser une source de données personnalisée. Pour découvrir comment ingérer directement des documents, consultez [Ingestion des modifications directement dans une base de connaissances](kb-direct-ingestion.md).

# Personnalisation de l’ingestion pour une source de données
<a name="kb-data-source-customize-ingestion"></a>

Vous pouvez personnaliser l'ingestion vectorielle lorsque vous connectez une source de données dans le AWS Management Console ou en modifiant la valeur du `vectorIngestionConfiguration` champ lors de l'envoi d'une [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)demande.

Sélectionnez une rubrique pour savoir comment inclure des configurations permettant de personnaliser l’ingestion lors de la connexion à une source de données :

**Topics**
+ [

## Choix de l’outil à utiliser pour l’analyse
](#kb-data-source-customize-parsing)
+ [

## Choix d’une stratégie de découpage
](#kb-data-source-customize-chunking)
+ [

## Utilisation d’une fonction Lambda lors de l’ingestion
](#kb-data-source-customize-lambda)

## Choix de l’outil à utiliser pour l’analyse
<a name="kb-data-source-customize-parsing"></a>

Vous pouvez personnaliser la façon dont les documents contenus dans vos données sont analysés. Pour en savoir plus sur les options d’analyse des données dans les bases de connaissances Amazon Bedrock, consultez [Options d’analyse structurée pour votre source de données](kb-advanced-parsing.md).

**Avertissement**  
Une fois connecté à la source de données, vous ne pouvez plus modifier la stratégie d’analyse. Pour utiliser une stratégie d’analyse différente, vous pouvez ajouter une nouvelle source de données.  
Vous ne pouvez pas ajouter d’emplacement S3 pour stocker des données multimodales (notamment des images, des figures, des graphiques et des tableaux) après avoir créé une base de connaissances. Si vous souhaitez inclure des données multimodales et utiliser un analyseur qui les prend en charge, vous devez créer une nouvelle base de connaissances.

Les étapes du choix d'une stratégie d'analyse varient selon que vous utilisez l'API Amazon Bedrock AWS Management Console ou l'API Amazon Bedrock et selon la méthode d'analyse que vous choisissez. Si vous choisissez une méthode d’analyse qui prend en charge les données multimodales, vous devez spécifier un URI S3 dans lequel stocker les données multimodales extraites de vos documents. Ces données peuvent être renvoyées dans une requête de la base de connaissances.
+ Dans le AWS Management Console, procédez comme suit :

  1. Sélectionnez la stratégie d’analyse lorsque vous vous connectez à une source de données lors de la configuration d’une base de connaissances ou lorsque vous ajoutez une nouvelle source de données à votre base de connaissances existante.

  1. (Si vous choisissez l’automatisation des données Amazon Bedrock ou un modèle de fondation comme stratégie d’analyse) Spécifiez un URI S3 dans lequel stocker les données multimodales extraites de vos documents dans la section **Destination de stockage multimodal** lorsque vous sélectionnez un modèle de vectorisation et configurez votre magasin de vecteurs. Vous pouvez également utiliser une clé gérée par le client pour chiffrer vos données S3.
+ Dans l’API Amazon Bedrock, procédez comme suit :

  1. (Si vous envisagez d'utiliser Amazon Bedrock Data Automation ou un modèle de base comme stratégie d'analyse) Incluez un [SupplementalDataStorageLocation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_SupplementalDataStorageLocation.html)dans une [VectorKnowledgeBaseConfiguration[CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html)](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorKnowledgeBaseConfiguration.html)demande.

  1. Incluez un [ParsingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ParsingConfiguration.html)dans le `parsingConfiguration` champ du [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)dans la [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)demande.
**Note**  
Si vous omettez cette configuration, les bases de connaissances Amazon Bedrock utilisent l’analyseur par défaut Amazon Bedrock.

Pour plus de détails sur la façon de spécifier une stratégie d’analyse dans l’API, développez la section correspondant à la stratégie d’analyse que vous souhaitez utiliser :

### Analyseur par défaut Amazon Bedrock
<a name="w2aac28c10c23c15c17c11c13b1"></a>

Pour utiliser l’analyseur par défaut, n’incluez aucun champ `parsingConfiguration` dans la `VectorIngestionConfiguration`.

### Analyseur d’automatisation des données Amazon Bedrock (version préliminaire)
<a name="w2aac28c10c23c15c17c11c13b3"></a>

Pour utiliser l'analyseur Amazon Bedrock Data Automation, spécifiez `BEDROCK_DATA_AUTOMATION` dans le `parsingStrategy` champ `ParsingConfiguration` et incluez un [BedrockDataAutomationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockDataAutomationConfiguration.html)dans le `bedrockDataAutomationConfiguration` champ, selon le format suivant :

```
{
    "parsingStrategy": "BEDROCK_DATA_AUTOMATION",
    "bedrockDataAutomationConfiguration": {
        "parsingModality": "string"
    }
}
```

### Modèle de fondation
<a name="w2aac28c10c23c15c17c11c13b5"></a>

Pour utiliser un modèle de base comme analyseur syntaxique, spécifiez le `BEDROCK_FOUNDATION_MODEL` dans le `parsingStrategy` champ `ParsingConfiguration` et incluez un [BedrockFoundationModelConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockFoundationModelConfiguration.html)dans le `bedrockFoundationModelConfiguration` champ, selon le format suivant :

```
{
    "parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
    "bedrockFoundationModelConfiguration": {
        "modelArn": "string",
        "parsingModality": "string",
        "parsingPrompt": {
            "parsingPromptText": "string"
        }
    }
}
```

## Choix d’une stratégie de découpage
<a name="kb-data-source-customize-chunking"></a>

Vous pouvez personnaliser la façon dont les documents contenus dans vos données sont découpés à des fins de stockage et d’extraction. Pour en savoir plus sur les options de découpage des données dans les bases de connaissances Amazon Bedrock, consultez [Fonctionnement du découpage du contenu pour les bases de connaissances](kb-chunking.md).

**Avertissement**  
Une fois connecté à la source de données, vous ne pouvez plus modifier la stratégie de découpage.

Dans le, AWS Management Console vous choisissez la stratégie de segmentation lorsque vous vous connectez à une source de données. Avec l'API Amazon Bedrock, vous incluez un [ChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ChunkingConfiguration.html)dans le `chunkingConfiguration` champ du [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html).

**Note**  
Si vous omettez cette configuration, Amazon Bedrock divise votre contenu en fragments d’environ 300 jetons, tout en préservant les limites de phrases.

Développez la section qui correspond à la stratégie d’analyse que vous souhaitez utiliser :

### Pas de découpage
<a name="w2aac28c10c23c15c17c13c13b1"></a>

Pour traiter chaque document de votre source de données comme un bloc source unique, spécifiez `NONE` dans le champ `chunkingStrategy` de la `ChunkingConfiguration`, au format suivant :

```
{
    "chunkingStrategy": "NONE"
}
```

### Découpage de taille fixe
<a name="w2aac28c10c23c15c17c13c13b3"></a>

Pour diviser chaque document de votre source de données en morceaux de taille approximativement identique, spécifiez `FIXED_SIZE` dans le `chunkingStrategy` champ du `ChunkingConfiguration` et incluez un [FixedSizeChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_FixedSizeChunkingConfiguration.html)dans le `fixedSizeChunkingConfiguration` champ, comme dans le format suivant :

```
{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}
```

### Découpage hiérarchique
<a name="w2aac28c10c23c15c17c13c13b5"></a>

Pour diviser chaque document de votre source de données en deux niveaux, la deuxième couche contenant de plus petits fragments dérivés de la première couche, spécifiez `HIERARCHICAL` dans le champ `chunkingStrategy` de la `ChunkingConfiguration` et incluez le champ `hierarchicalChunkingConfiguration`, au format suivant :

```
{
    "chunkingStrategy": "HIERARCHICAL",
    "hierarchicalChunkingConfiguration": {
        "levelConfigurations": [{
            "maxTokens": number
        }],
        "overlapTokens": number
    }
}
```

### Découpage sémantique
<a name="w2aac28c10c23c15c17c13c13b7"></a>

Pour diviser chaque document de votre source de données en fragments qui privilégient le sens sémantique par rapport à la structure syntaxique, spécifiez `SEMANTIC` dans le champ `chunkingStrategy` de la `ChunkingConfiguration` et incluez le champ `semanticChunkingConfiguration`, au format suivant :

```
{
    "chunkingStrategy": "SEMANTIC",
    "semanticChunkingConfiguration": {
        "breakpointPercentileThreshold": number,
        "bufferSize": number,
        "maxTokens": number
    }
}
```

## Utilisation d’une fonction Lambda lors de l’ingestion
<a name="kb-data-source-customize-lambda"></a>

Vous pouvez post-traiter la façon dont les blocs source de vos données sont écrits dans le magasin de vecteurs à l’aide d’une fonction Lambda de la manière suivante :
+ Incluez une logique de découpage pour fournir une stratégie de découpage personnalisée.
+ Incluez une logique pour spécifier les métadonnées au niveau des fragments.

Pour en savoir plus sur l’écriture d’une fonction Lambda personnalisée pour l’ingestion, consultez [Utilisation d’une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées](kb-custom-transformation.md). Dans le, AWS Management Console vous choisissez la fonction Lambda lorsque vous vous connectez à une source de données. Avec l'API Amazon Bedrock, vous incluez un [CustomTransformationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CustomTransformationConfiguration.html)dans le `CustomTransformationConfiguration` champ du Lambda [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)et spécifiez l'ARN du Lambda, comme dans le format suivant :

```
{
    "transformations": [{
        "transformationFunction": {
            "transformationLambdaConfiguration": {
                "lambdaArn": "string"
            }
        },
        "stepToApply": "POST_CHUNKING"
    }],
    "intermediateStorage": {
        "s3Location": {
            "uri": "string"
        }
    }
}
```

Vous spécifiez également l’emplacement S3 dans lequel stocker la sortie après avoir appliqué la fonction Lambda.

Vous pouvez inclure le champ `chunkingConfiguration` pour appliquer la fonction Lambda après avoir appliqué l’une des options de découpage proposées par Amazon Bedrock.

# Définition des configurations de sécurité pour votre base de connaissances
<a name="kb-create-security"></a>

Après avoir créé une base de connaissances, vous devrez peut-être définir les configurations de sécurité suivantes :

**Topics**
+ [

## Configuration de stratégies d’accès aux données pour votre base de connaissances
](#kb-create-security-data)
+ [

## Configurez des politiques d'accès réseau pour votre base de connaissances Amazon OpenSearch Serverless
](#kb-create-security-network)

## Configuration de stratégies d’accès aux données pour votre base de connaissances
<a name="kb-create-security-data"></a>

Si vous utilisez un [rôle personnalisé](kb-permissions.md), définissez des configurations de sécurité pour la base de connaissances que vous venez de créer. Si vous laissez Amazon Bedrock créer un rôle de service pour vous, vous pouvez ignorer cette étape. Suivez les étapes indiquées dans l’onglet correspondant à la base de données que vous avez configurée.

------
#### [ Amazon OpenSearch Serverless ]

Pour restreindre l'accès à la collection Amazon OpenSearch Serverless au rôle de service de base de connaissances, créez une politique d'accès aux données. Vous pouvez procéder de différentes manières :
+ Utilisez la console Amazon OpenSearch Service en suivant les étapes décrites dans la section [Création de politiques d'accès aux données (console)](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-data-access.html#serverless-data-access-console) dans le manuel Amazon OpenSearch Service Developer Guide.
+ Utilisez l'AWSAPI en envoyant une [CreateAccessPolicy](https://docs.aws.amazon.com/opensearch-service/latest/ServerlessAPIReference/API_CreateAccessPolicy.html)demande avec un point de [terminaison OpenSearch sans serveur](https://docs.aws.amazon.com/general/latest/gr/opensearch-service.html#opensearch-service-regions). Pour un AWS CLI exemple, voir [Création de politiques d'accès aux données (AWS CLI)](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-data-access.html#serverless-data-access-cli).

Appliquez la politique d'accès aux données suivante, en spécifiant la collection Amazon OpenSearch Serverless et votre rôle de service :

```
[
    {
        "Description": "${data access policy description}",
        "Rules": [
          {
            "Resource": [
              "index/${collection_name}/*"
            ],
            "Permission": [
                "aoss:DescribeIndex",
                "aoss:ReadDocument",
                "aoss:WriteDocument"
            ],
            "ResourceType": "index"
          }
        ],
        "Principal": [
            "arn:aws:iam::${account-id}:role/${kb-service-role}"
        ]
    }
]
```

------
#### [ Pinecone, Redis Enterprise Cloud or MongoDB Atlas ]

Pour intégrer un index vectoriel MongoDB Atlas PineconeRedis Enterprise Cloud, associez la politique d'identité suivante à votre rôle de service de base de connaissances afin de lui permettre d'accéder au AWS Secrets Manager secret de l'index vectoriel.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "bedrock:AssociateThirdPartyKnowledgeBase"
        ],
        "Resource": "*",
        "Condition": {
            "StringEquals": {
                "bedrock:ThirdPartyKnowledgeBaseCredentialsSecretArn": "arn:aws:secretsmanager:us-east-1:123456789012:secret:${secret-id}"
            }
        }
    }]
}
```

------

------

## Configurez des politiques d'accès réseau pour votre base de connaissances Amazon OpenSearch Serverless
<a name="kb-create-security-network"></a>

Si vous utilisez une collection Amazon OpenSearch Serverless privée pour votre base de connaissances, elle n'est accessible que via un point de terminaison AWS PrivateLink VPC. Vous pouvez créer une collection Amazon OpenSearch Serverless privée lorsque vous [configurez votre collection vectorielle Amazon OpenSearch Serverless ou vous pouvez rendre privée une collection](knowledge-base-setup.md) Amazon OpenSearch Serverless existante (y compris une collection créée pour vous par la console Amazon Bedrock) lorsque vous configurez sa politique d'accès au réseau.

Les ressources suivantes du manuel Amazon OpenSearch Service Developer Guide vous aideront à comprendre la configuration requise pour une collection Amazon OpenSearch Serverless privée :
+ Pour plus d'informations sur la configuration d'un point de terminaison VPC pour une collection privée Amazon Serverless, consultez Accéder à Amazon OpenSearch Serverless à l'[aide d'un point de terminaison d'interface](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-vpc.html) (). OpenSearch AWS PrivateLink
+ Pour plus d'informations sur les politiques d'accès au réseau dans Amazon OpenSearch Serverless, consultez la section [Accès réseau pour Amazon OpenSearch Serverless](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-network.html).

Pour autoriser une base de connaissances Amazon Bedrock à accéder à une collection privée Amazon OpenSearch Serverless, vous devez modifier la politique d'accès réseau de la collection Amazon OpenSearch Serverless afin d'autoriser Amazon Bedrock en tant que service source. Choisissez l’onglet correspondant à votre méthode préférée, puis suivez les étapes :

------
#### [ Console ]

1. Ouvrez la console Amazon OpenSearch Service à l'adresse [https://console.aws.amazon.com/aos/](https://console.aws.amazon.com/aos/).

1. Dans le volet de navigation de gauche, sélectionnez **Collections**. Choisissez ensuite votre collection.

1. Dans la section **Réseau**, sélectionnez la **stratégie associée**.

1. Choisissez **Modifier**.

1. Pour **Sélectionner une méthode de définition de stratégie**, effectuez l’une des opérations suivantes :
   + Laissez **Sélectionner une méthode de définition de stratégie** comme **éditeur visuel** et configurez les paramètres suivants dans la section **Règle 1** :

     1. (Facultatif) Dans le champ **Nom de la règle**, saisissez un nom pour la règle d’accès réseau.

     1. Sous **Accéder aux collections à partir de**, sélectionnez **Privé (recommandé)**.

     1. Sélectionnez **Accès privé au service AWS**. Saisissez **bedrock.amazonaws.com** dans la zone de texte.

     1. Désélectionnez **Activer l'accès aux OpenSearch tableaux de bord**.
   + Choisissez **JSON**, puis collez la stratégie suivante dans l’**éditeur JSON**.

     ```
     [
         {                                        
             "AllowFromPublic": false,
             "Description":"${network access policy description}",
             "Rules":[
                 {
                     "ResourceType": "collection",
                     "Resource":[
                         "collection/${collection-id}"
                     ]
                 }
             ],
             "SourceServices":[
                 "bedrock.amazonaws.com"
             ]
         }
     ]
     ```

1. Choisissez **Mettre à jour**.

------
#### [ API ]

Pour modifier la politique d'accès au réseau de votre collection Amazon OpenSearch Serverless, procédez comme suit :

1. Envoyez une [GetSecurityPolicy](https://docs.aws.amazon.com/opensearch-service/latest/ServerlessAPIReference/API_GetSecurityPolicy.html)demande avec un point de [terminaison OpenSearch sans serveur](https://docs.aws.amazon.com/general/latest/gr/opensearch-service.html#opensearch-service-regions). Renseignez `name` pour la stratégie, puis `network` comme `type`. Notez le `policyVersion` dans la réponse.

1. Envoyez une [UpdateSecurityPolicy](https://docs.aws.amazon.com/opensearch-service/latest/ServerlessAPIReference/API_UpdateSecurityPolicy.html)demande avec un point de [terminaison OpenSearch sans serveur](https://docs.aws.amazon.com/general/latest/gr/opensearch-service.html#opensearch-service-regions). Spécifiez les champs suivants de façon minimale :  
****    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/kb-create-security.html)

   ```
   [
       {                                        
           "AllowFromPublic": false,
           "Description":"${network access policy description}",
           "Rules":[
               {
                   "ResourceType": "collection",
                   "Resource":[
                       "collection/${collection-id}"
                   ]
               }
           ],
           "SourceServices":[
               "bedrock.amazonaws.com"
           ]
       }
   ]
   ```

Pour un AWS CLI exemple, voir [Création de politiques d'accès aux données (AWS CLI)](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-data-access.html#serverless-data-access-cli).

------
+ Utilisez la console Amazon OpenSearch Service en suivant les étapes de la section [Création de politiques réseau (console)](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-network.html#serverless-network-console). Au lieu de créer une stratégie réseau, notez la **stratégie associée** dans la sous-section **Réseau** des détails de la collection.