

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock
<a name="knowledge-base-create"></a>

Al crear una base de conocimiento conectándola a un origen de datos, debe configurar o especificar lo siguiente:
+ Información general que define e identifica la base de conocimiento
+ El rol de servicio con permisos para acceder a la base de conocimiento.
+ Configuraciones para la base de conocimiento, incluido el modelo de incrustaciones que se utilizará al convertir los datos del origen de datos, las configuraciones de almacenamiento del servicio en el que se almacenarán las incrustaciones y, opcionalmente, una ubicación de S3 para almacenar los datos multimodales

**nota**  
No puede crear una base de conocimientos con un usuario raíz. Inicie sesión con un usuario de IAM antes de realizar estos pasos.

Amplíe la sección que se corresponda con su caso de uso:

## Uso de la consola
<a name="knowledge-base-create-console"></a>

**Cómo configurar una base de conocimiento**

1. Inicie sesión Consola de administración de AWS con una identidad de IAM que tenga permisos para usar la consola Amazon Bedrock. A continuación, abra la consola de Amazon Bedrock en [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. En el panel de navegación izquierdo, elija **Bases de conocimientos**.

1. En la sección **Bases de conocimientos**, elija el botón Crear y, a continuación, elija una base de conocimiento con un almacén de vectores.

1. (Opcional) Cambie el nombre predeterminado y proporcione una descripción para la base de conocimiento.

1. Elija un rol AWS Identity and Access Management (IAM) que otorgue permiso a Amazon Bedrock para acceder a otros servicios necesariosAWS. Puede dejar que Amazon Bedrock cree el rol de servicio por usted o puede elegir usar el [rol personalizado que creó para Análisis por Amazon Neptune](kb-permissions.md#kb-permissions-neptune).

1. Elija el origen de datos al que desea conectar la base de conocimiento.

1. (Opcional) Añada etiquetas a la base de conocimientos. Para obtener más información, consulte [Etiquetado de los recursos de Amazon Bedrock](tagging.md).

1. (Opcional) Configure los servicios para entregar registros de actividad para su base de conocimiento.

1. Vaya a la siguiente sección y siga los pasos que se indican en [Conexión de un origen de datos a la base de conocimiento](data-source-connectors.md) para configurar un origen de datos.

1. En la sección **Modelo de inscrustaciones**, proceda de la forma siguiente:

   1. Elija un modelo de incrustaciones para convertir los datos en incrustaciones vectoriales. Para datos multimodales (imágenes, audio y vídeo), seleccione un modelo de incrustación multimodal como Amazon Titan Multimodal Embeddings G1 o Cohere Embed v3.
**nota**  
Al usar Amazon Titan Multimodal Embeddings G1, debe proporcionar un depósito de contenido S3 y solo puede usar el analizador predeterminado. Este modelo está optimizado para casos de uso de búsqueda de imágenes. Para obtener una guía completa sobre cómo elegir entre enfoques multimodales, consulte[Cree una base de conocimientos para contenido multimodal](kb-multimodal.md).

   1. (Opcional) Expanda la sección **Configuraciones adicionales** para ver las siguientes opciones de configuración (no todos los modelos admiten todas las configuraciones):
      + **Tipo de incrustaciones**: si desea convertir los datos en incrustaciones vectoriales de punto flotante (float32) (más precisas, pero más costosas) o incrustaciones vectoriales binarias (menos precisas, pero menos costosas). Para obtener información sobre qué modelos de incrustaciones admiten vectores binarios, consulte los [modelos de incrustaciones compatibles](knowledge-base-supported.md).
      + **Dimensiones vectoriales**: los valores más altos mejoran la precisión, pero aumentan el costo y la latencia.

1. En la sección **Base de datos vectorial**, proceda de la forma siguiente:

   1. Elija un almacén de vectores para almacenar las incrustaciones de vectores que se utilizarán en la consulta. Dispone de las opciones siguientes:
      + **Cree rápidamente un nuevo almacén de vectores**: elija uno de los almacenes de vectores disponibles para que Amazon Bedrock lo cree. Si lo desea, también puede configurar el cifrado de AWS KMS claves para su almacén de vectores.
**nota**  
Al utilizar esta opción, Amazon Bedrock gestiona automáticamente la ubicación de los metadatos de cada almacén de vectores.
        + **Amazon OpenSearch Serverless** — Amazon Bedrock Knowledge Bases crea un índice y una colección de búsquedas vectoriales de Amazon OpenSearch Serverless y los configura automáticamente con los campos obligatorios.
        + **Amazon Aurora PostgreSQL sin servidor**: Amazon Bedrock configura un almacén de vectores de Amazon Aurora PostgreSQL sin servidor. Este proceso toma datos de texto no estructurados de un bucket de Amazon S3, los transforma en fragmentos de texto y vectores y, a continuación, los almacena en una base de datos de PostgreSQL. Para obtener más información, consulte [Creación rápida de una base de conocimiento de Amazon Bedrock para Aurora PostgreSQL](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/AuroraPostgreSQL.quickcreatekb.html).
        + **Análisis por Amazon Neptune**: Amazon Bedrock utiliza técnicas de generación aumentada por recuperación (RAG) combinadas con gráficos para mejorar las aplicaciones de IA generativa, de modo que los usuarios finales puedan obtener respuestas más precisas y completas.
        + **Amazon S3 Vectors**: Bases de conocimiento de Amazon Bedrock crea un bucket de vectores de S3 y un índice vectorial que almacenarán las incrustaciones generadas a partir de sus orígenes de datos.

          Puede crear una base de conocimientos para Amazon S3 Vectors en todos los sitios en Región de AWS los que estén disponibles Amazon Bedrock y Amazon S3 Vectors. Para obtener más información, consulte [Amazon S3 Vectors](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-vectors.html) en la *Guía del usuario de Amazon S3*.
**nota**  
Al utilizar Amazon S3 Vectors con las bases de conocimiento de Amazon Bedrock, puede adjuntar hasta 1 KB de metadatos personalizados (incluidos los metadatos filtrables y no filtrables) y 35 claves de metadatos por vector. Para obtener información detallada sobre las limitaciones de los metadatos, consulte en. [Compatibilidad con metadatos](knowledge-base-setup.md#metadata-support) [Requisitos previos para usar un almacén de vectores que haya creado para una base de conocimiento](knowledge-base-setup.md)
      + **Elija un almacén de vectores que haya creado**: seleccione un almacén de vectores compatible e identifique los nombres de los campos de vectores y los nombres de los campos de metadatos en el índice vectorial. Para obtener más información, consulte [Requisitos previos para usar un almacén de vectores que haya creado para una base de conocimiento](knowledge-base-setup.md).
**nota**  
Si tu fuente de datos es una instancia de Confluence SharePoint, Microsoft o Salesforce, el único servicio de almacén vectorial compatible es Amazon OpenSearch Serverless.

   1. (Opcional) Amplíe la sección **Configuraciones adicionales** y modifique las configuraciones que correspondan.

1. Si su origen de datos contiene imágenes, especifique el URI de Amazon S3 en el que desee almacenar las imágenes que el analizador extraerá de los datos en el **destino de almacenamiento multimodal**. Las imágenes se pueden devolver durante la consulta. Si lo desea, también puede elegir una clave gestionada por el cliente en lugar de la predeterminada Clave administrada de AWS para cifrar los datos.
**nota**  
Los datos multimodales solo se admiten con Amazon S3 y orígenes de datos personalizados.
**nota**  
Cuando se utilizan modelos de incrustación multimodales:  
Amazon Titan Multimodal Embeddings G1 requiere un depósito de contenido S3 y funciona mejor con conjuntos de datos de solo imágenes que utilizan el analizador predeterminado
Cohere Embed v3 admite conjuntos de datos mixtos de texto e imágenes y se puede usar con cualquier configuración de analizador
Para los casos prácticos de búsqueda de imágenes, evite utilizar Bedrock Data Automation (BDA) o analizadores de modelos básicos con Titan G1 debido a las limitaciones de los tokens
El destino de almacenamiento multimodal crea copias de los archivos con fines de recuperación, lo que puede generar cargos de almacenamiento adicionales

1. Seleccione **Siguiente** y revise los detalles de la base de conocimiento. Puede editar cualquier sección antes de continuar con la creación de la base de conocimientos.
**nota**  
El tiempo que tarde en crearse la base de conocimientos dependerá de las configuraciones específicas. Una vez finalizada la creación de la base de conocimientos, su estado cambiará a Lista o Disponible.  
Cuando la base de conocimientos esté lista y disponible, sincronice el origen de datos por primera vez y siempre que desee mantener el contenido actualizado. Seleccione la base de conocimientos en la consola y **Sincronizar** en la sección de información general del origen de datos.

## Uso de la API de
<a name="knowledge-base-create-api"></a>

Para crear una base de conocimiento, envíe una solicitud [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html) con un [punto de conexión en tiempo de compilación de Agentes para Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt).

**nota**  
Si prefiere dejar que Amazon Bedrock cree y administre un almacén de vectores por usted, utilice la consola. Para obtener más información, amplíe la sección **Uso de la consola** de este tema.

Los siguientes campos son obligatorios:


****  

| Campo | Descripción básica | 
| --- | --- | 
| name | Un nombre para la base de conocimiento | 
| roleArn | El ARN de un [rol de servicio para Bases de conocimiento de Amazon Bedrock](kb-permissions.md) | 
| knowledgeBaseConfiguration | Contiene configuraciones para la base de conocimiento. Consulte los detalles que se indican a continuación. | 
| storageConfiguration | (Solo es necesario si se conecta a un origen de datos no estructurados). Contiene las configuraciones para el servicio de origen de datos que elija. | 

Los siguientes campos son opcionales:


****  

| Campo | Caso de uso | 
| --- | --- | 
| description | Una descripción de la base de conocimiento. | 
| clientToken | Para garantizar que la solicitud de la API se complete solo una vez. Para obtener más información, consulte [Ensuring idempotency](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 
| etiquetas | Para asociar etiquetas con el flujo. Para obtener más información, consulte [Etiquetado de los recursos de Amazon Bedrock](tagging.md). | 

En el `knowledgeBaseConfiguration` campo, que se asigna a un [KnowledgeBaseConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_KnowledgeBaseConfiguration.html)objeto, especifique `VECTOR` en el `type` campo e incluya un objeto. [VectorKnowledgeBaseConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorKnowledgeBaseConfiguration.html) En el objeto, incluya los siguientes campos:
+ `embeddingModelArn`: el ARN del modelo de incrustación que se va a utilizar.
+ `embeddingModelConfiguration`: configuraciones del modelo de incrustación. Para ver los valores posibles que puede especificar para cada modelo compatible, consulte [Modelos y regiones admitidos para las bases de conocimiento de Amazon Bedrock](knowledge-base-supported.md).
+ (Si planea incluir datos multimodales, que incluyen imágenes, figuras, gráficos o tablas, en su base de conocimientos)`supplementalDataStorageConfiguration`: se asigna a un [SupplementalDataStorageLocation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_SupplementalDataStorageLocation.html)objeto, en el que se especifica la ubicación de S3 en la que se almacenarán los datos extraídos. Para obtener más información, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).

En el `storageConfiguration` campo, que se asigna a un [StorageConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StorageConfiguration.html)objeto, especifique el almacén de vectores al que se va a conectar en el `type` campo e incluya el campo que corresponda a ese almacén de vectores. Consulte cada tipo de configuración de almacén de vectores en [StorageConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StorageConfiguration.html)para obtener detalles sobre la información que debe proporcionar.

A continuación, se muestra un ejemplo de solicitud para crear una base de conocimientos conectada a una colección de Amazon OpenSearch Serverless. Los datos de las fuentes de datos conectadas se convertirán en incrustaciones de vectores binarios con Amazon Titan Text Embeddings V2 y los datos multimodales extraídos por el analizador se configurarán para almacenarse en un depósito llamado. *MyBucket*

```
PUT /knowledgebases/ HTTP/1.1
Content-type: application/json

{
   "name": "MyKB",
   "description": "My knowledge base",
   "roleArn": "arn:aws:iam::111122223333:role/service-role/AmazonBedrockExecutionRoleForKnowledgeBase_123",
   "knowledgeBaseConfiguration": {
      "type": "VECTOR",
      "vectorKnowledgeBaseConfiguration": { 
         "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.titan-embed-text-v2:0",
         "embeddingModelConfiguration": { 
            "bedrockEmbeddingModelConfiguration": { 
               "dimensions": 1024,
               "embeddingDataType": "BINARY"
            }
         },
         "supplementalDataStorageConfiguration": { 
            "storageLocations": [ 
               { 
                  "s3Location": { 
                     "uri": "arn:aws:s3:::MyBucket"
                  },
                  "type": "S3"
               }
            ]
         }
      }
   },
   "storageConfiguration": { 
      "opensearchServerlessConfiguration": { 
         "collectionArn": "arn:aws:aoss:us-east-1:111122223333:collection/abcdefghij1234567890",
         "fieldMapping": { 
            "metadataField": "metadata",
            "textField": "text",
            "vectorField": "vector"
         },
         "vectorIndexName": "MyVectorIndex"
      }
   }
}
```

**Topics**
+ [Conexión de un origen de datos a la base de conocimiento](data-source-connectors.md)
+ [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md)
+ [Configuraciones de seguridad para la base de conocimientos](kb-create-security.md)

# Conexión de un origen de datos a la base de conocimiento
<a name="data-source-connectors"></a>

Una vez finalizadas las configuraciones de la base de conocimiento, debe conectar un origen de datos compatible a la base de conocimiento.

Las bases de conocimiento de Amazon Bedrock permiten la conexión a orígenes de datos no estructurados o a almacenes de datos estructurados mediante un motor de consultas. Seleccione un tema para obtener información sobre cómo conectarse a ese tipo de origen de datos:

**Soporte de contenido multimodal**  
El contenido multimodal (archivos de imágenes, audio y vídeo) solo es compatible con Amazon S3 y las fuentes de datos personalizadas. Otros tipos de fuentes de datos omitirán los archivos multimodales durante la ingesta. Para obtener una guía completa sobre cómo trabajar con contenido multimodal, consulte. [Cree una base de conocimientos para contenido multimodal](kb-multimodal.md)

Para obtener información sobre cómo conectarse a un origen de datos mediante la consola de Amazon Bedrock, seleccione el tema que corresponda a su tipo de origen de datos en la parte inferior de esta página:

Para conectarse a una fuente de datos mediante la API de Amazon Bedrock, envíe una [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)solicitud con un punto de [ejecución de Agents for Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-rt).

Los siguientes campos son obligatorios:


****  

| Campo | Descripción básica | 
| --- | --- | 
| knowledgeBaseId | El ID de la base de conocimientos. | 
| name | Un nombre para la base de conocimiento. | 
| dataSourceConfiguration | Especifique el tipo o servicio del origen de datos en el campo type e incluya el campo correspondiente. Para obtener más información sobre las configuraciones específicas de un servicio, seleccione el tema del servicio en los temas que aparecen al final de esta página. | 

Los siguientes campos son opcionales:


****  

| Campo | Caso de uso | 
| --- | --- | 
| description | Proporcionar una descripción del origen de datos. | 
| vectorIngestionConfiguration | Contiene configuraciones para personalizar el proceso de ingesta. Para obtener más información, consulte [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md). | 
| dataDeletionPolicy | Especificar si se van a mantener (RETAIN) las incrustaciones de vectores en el almacén de vectores o si se van a eliminar (DELETE). | 
| serverSideEncryptionConfiguración | Para cifrar los datos transitorios durante la sincronización de datos con una clave administrada por el cliente, especifique su ARN en el campo kmsKeyArn. | 
| clientToken | Para garantizar que la solicitud de la API se complete solo una vez. Para obtener más información, consulte [Ensuring idempotency](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 

Seleccione un tema para obtener más información sobre un servicio y cómo configurarlo.

**Topics**
+ [Conexión a Amazon S3 para la base de conocimiento](s3-data-source-connector.md)
+ [Conexión a Confluence para la base de conocimiento](confluence-data-source-connector.md)
+ [Conéctese a Microsoft SharePoint para su base de conocimientos](sharepoint-data-source-connector.md)
+ [Conexión a Salesforce para su base de conocimiento](salesforce-data-source-connector.md)
+ [Rastreo de páginas web para la base de conocimiento](webcrawl-data-source-connector.md)
+ [Conexión de una base de conocimiento a un origen de datos personalizado](custom-data-source-connector.md)

# Conexión a Amazon S3 para la base de conocimiento
<a name="s3-data-source-connector"></a>

Amazon S3 es un servicio de almacenamiento de objetos que almacena datos como objetos dentro de buckets. Puede conectarse a su bucket de Amazon S3 para su base de conocimientos de Amazon Bedrock mediante la [consola de AWS administración de Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) o la [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)API (consulte Amazon Bedrock [compatible SDKs ](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) y). AWS CLI

**Soporte de contenido multimodal**  
Las fuentes de datos de Amazon S3 admiten contenido multimodal, incluidos archivos de imágenes, audio y vídeo. Para obtener una guía completa sobre cómo trabajar con contenido multimodal, consulte. [Cree una base de conocimientos para contenido multimodal](kb-multimodal.md)

Puede cargar un lote pequeño de archivos en un bucket de Amazon S3 con la consola o la API de Amazon S3. También puede usarlo [AWS DataSync](https://docs.aws.amazon.com/datasync/latest/userguide/create-s3-location.html)para cargar varios archivos a S3 de forma continua y transferir archivos de forma programada desde una ubicación local, perimetral, otra nube o AWS almacenamiento.

Actualmente, solo se admiten los buckets de S3 de uso general.

Existen límites en cuanto al número de archivos y MB por archivo que pueden rastrearse. Consulte [Cuotas de las bases de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Características admitidas](#supported-features-s3-connector)
+ [Requisitos previos](#prerequisites-s3-connector)
+ [Configuración de la conexión](#configuration-s3-connector)

## Características admitidas
<a name="supported-features-s3-connector"></a>
+ Campos de metadatos del documento
+ Prefijos de inclusión
+ El contenido incremental se sincroniza para añadir, actualizar o eliminar contenido

## Requisitos previos
<a name="prerequisites-s3-connector"></a>

**En Amazon S3, asegúrese de**:
+ Tomar nota del URI del bucket de Amazon S3, el nombre de recurso de Amazon (ARN) y el ID de la cuenta de AWS del propietario del bucket. Puede encontrar el URI y el ARN en la sección de propiedades de la consola de Amazon S3. Su bucket debe estar en la misma región que su base de conocimiento de Amazon Bedrock. Debe disponer de permiso para acceder al bucket.

**En tu AWS cuenta, asegúrate de**:
+ Incluya los permisos necesarios para conectarse a su fuente de datos en la role/permissions política AWS Identity and Access Management (IAM) de su base de conocimientos. Para obtener información sobre los permisos necesarios para que esta fuente de datos se añada a su IAM función de base de conocimientos, consulte [Permisos para acceder a las fuentes de datos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**nota**  
Si usa la consola, puede crear automáticamente el IAM rol con todos los permisos necesarios como parte de los pasos para crear una base de conocimientos. Una vez que haya configurado el origen de datos y otras configuraciones, el rol de IAM con todos los permisos necesarios se aplicará a su base de conocimientos específica.

## Configuración de la conexión
<a name="configuration-s3-connector"></a>

Para conectarse al bucket de Amazon S3, debe proporcionar la información de configuración necesaria para que Amazon Bedrock pueda acceder a sus datos y rastrearlos. También debe seguir los [Requisitos previos](#prerequisites-s3-connector).

En esta sección se incluye un ejemplo de configuración para este origen de datos.

Para obtener más información sobre los filtros de inclusión o exclusión, los campos de metadatos del documento, la sincronización incremental y su funcionamiento, seleccione lo siguiente:

### Campos de metadatos del documento
<a name="ds-s3-metadata-fields"></a>

Puede incluir un archivo independiente que especifique los metadatos del documento fields/attributes para cada archivo de la fuente de datos de Amazon S3 y si desea incluirlos en las incrustaciones al indexar la fuente de datos en el almacén vectorial. Por ejemplo, puede crear un archivo con el siguiente formato, asignarle un nombre *fileName.extension.metadata.json* y subirlo a su bucket de S3.

```
{
  "metadataAttributes": {
    "company": {
      "value": {
        "type": "STRING",
        "stringValue": "BioPharm Innovations"
      },
      "includeForEmbedding": true
    },
    "created_date": {
      "value": {
        "type": "NUMBER",
        "numberValue": 20221205
      },
      "includeForEmbedding": true
    },
    "author": {
      "value": {
        "type": "STRING",
        "stringValue": "Lisa Thompson"
      },
      "includeForEmbedding": true
    },
    "origin": {
      "value": {
        "type": "STRING",
        "stringValue": "Overview"
      },
      "includeForEmbedding": true
    }
  }
}
```

El archivo de metadatos debe usar el mismo nombre que el archivo de documento de origen asociado, con `.metadata.json` adjunto al final del nombre del archivo. El archivo de metadatos debe estar almacenado en la misma carpeta o ubicación que el archivo de origen en su bucket de Amazon S3. El archivo no debe superar el límite de 10 KB. Para obtener información sobre los tipos de attribute/field datos compatibles y los operadores de filtrado que puede aplicar a sus campos de metadatos, consulte [Metadatos y filtrado](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Prefijos de inclusión
<a name="ds-s3-inclusion-exclusion"></a>

Puede especificar un prefijo de inclusión, que es un prefijo de ruta de Amazon S3, donde puede usar un archivo o una carpeta de S3 en lugar de todo el bucket para crear el conector de origen de datos de S3.

### Sincronización incremental
<a name="ds-s3-incremental-sync"></a>

El conector de fuentes de datos rastrea el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincroniza con la base de conocimientos. Amazon Bedrockpuede utilizar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido y rastrear el contenido modificado desde la última sincronización. Al sincronizar el origen de datos con la base de conocimientos por primera vez, todo el contenido se rastrea de forma predeterminada.

Para sincronizar la fuente de datos con la base de conocimientos, usa la [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API o selecciona tu base de conocimientos en la consola y selecciona **Sincronizar** en la sección de información general de la fuente de datos.

**importante**  
Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos `bedrock:Retrieve` para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte [Permisos de la base de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Cómo conectar un bucket de Amazon S3 a su base de conocimiento**

1. Siga los pasos que se indican en [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y elija **Amazon S3** como el origen de datos.

1. Proporcione un nombre para el origen de datos.

1. Especifique si el bucket de Amazon S3 está en su AWS cuenta corriente o en otra AWS cuenta. Su bucket debe estar en la misma región que la base de conocimiento.

1. (Opcional) Si el bucket de Amazon S3 está cifrado con una clave de KMS, incluya la clave. Para obtener más información, consulte [Permisos para descifrar la AWS KMS clave de las fuentes de datos en Amazon S3](encryption-kb.md#encryption-kb-ds).

1. (Opcional) En la sección **Análisis y fragmentación del contenido**, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:
   + Para obtener más información sobre las opciones de análisis, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).
   + Para obtener más información sobre las estrategias de fragmentación, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).
**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.
   + Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md).

1. En la sección **Configuración avanzada**, si lo desea, puede configurar lo siguiente:
   + **Clave de KMS para el almacenamiento de datos transitorios:** — Puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la clave KMS predeterminada Clave administrada de AWS o con su propia clave KMS. Para obtener más información, consulte [Cifrado del almacenamiento de datos transitorios durante la ingesta de datos](encryption-kb.md#encryption-kb-ingestion).
   + **Política de eliminación de datos**: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

1. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y continúe desde allí después de conectar el origen de datos.

------
#### [ API ]

El siguiente es un ejemplo de una configuración para conectarse a Amazon S3 para la base de conocimientos de Amazon Bedrock. La fuente de datos se configura mediante la API con el SDK compatible AWS CLI o compatible, como Python. Después de llamar [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), llamas [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)para crear tu fuente de datos con la información de conexión`dataSourceConfiguration`.

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo `vectorIngestionConfiguration` opcional, consulte [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://s3-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}'
                    
s3-bedrock-connector-configuration.json
{
    "s3Configuration": {
	    "bucketArn": "arn:aws:s3:::bucket-name",
	    "bucketOwnerAccountId": "000000000000",
	    "inclusionPrefixes": [
	        "documents/"
	    ]
    },
    "type": "S3"	
}
```

------

# Conexión a Confluence para la base de conocimiento
<a name="confluence-data-source-connector"></a>

Atlassian Confluence is es una herramienta colaborativa de administración del trabajo diseñada para compartir, almacenar y trabajar en la planificación de proyectos, el desarrollo de software y la administración de productos. Puede conectarse a la instancia de Confluence para su base de conocimientos de Amazon Bedrock mediante la [Consola de administración de AWS de Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) o la API de [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) (consulte los [SDK compatibles con Amazon Bedrock y AWS CLI](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html)).

**nota**  
El conector del origen de datos de Confluence está en versión preliminar y sujeta a cambios.  
Los orígenes de datos de Confluence no admiten datos multimodales, como tablas, gráficos, diagramas u otras imágenes.

Amazon Bedrock admite la conexión a instancias de Confluence Cloud. Actualmente, solo el almacén vectorial de Amazon OpenSearch sin servidor se puede usar con este origen de datos.

Existen límites en cuanto al número de archivos y MB por archivo que pueden rastrearse. Consulte [Cuotas de las bases de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Características admitidas](#supported-features-confluence-connector)
+ [Requisitos previos](#prerequisites-confluence-connector)
+ [Configuración de la conexión](#configuration-confluence-connector)

## Características admitidas
<a name="supported-features-confluence-connector"></a>
+ Detección automática de los campos principales del documento
+ Filtros de inclusión o exclusión de contenido
+ El contenido incremental se sincroniza para añadir, actualizar o eliminar contenido
+ Autenticación OAuth 2.0, autenticación con token de la API de Confluence

## Requisitos previos
<a name="prerequisites-confluence-connector"></a>

**En Confluence, asegúrese de**:
+ Tomar nota de la dirección URL de la instancia de Confluence. Por ejemplo, para Confluence Cloud, *https://example.atlassian.net*. La URL de Confluence Cloud debe ser la URL básica y terminar en *.atlassian.net*.
+ Configure las credenciales de autenticación básicas que contengan un nombre de usuario (correo electrónico de la cuenta de administrador) y una contraseña (token de API de Confluence) para permitir que Amazon Bedrock se conecte a su instancia de Confluence Cloud. Para obtener más información sobre cómo crear un token de la API de Confluence, consulte [Manage API tokens for your Atlassian account](https://support.atlassian.com/atlassian-account/docs/manage-api-tokens-for-your-atlassian-account/#Create-an-API-token) en el sitio web de Atlassian.
+ (Opcional) Configure una aplicación OAuth 2.0 con las credenciales de una clave de aplicación, un secreto de aplicación, un token de acceso y un token de actualización. Para obtener más información, consulte [OAuth 2.0 apps](https://developer.atlassian.com/cloud/confluence/oauth-2-3lo-apps/) en el sitio web de Atlassian.
+ Debe activar ciertos permisos de lectura o ámbitos para que la aplicación de OAuth 2.0 se conecte a Confluence.

  API de Confluence:
  + offline\$1access
  + read:content:confluence: muestra contenido detallado 
  + read:content-details:confluence: muestra los detalles del contenido 
  + read:space-details:confluence: muestra los detalles del espacio
  + read:audit-log:confluence: muestra los registros de auditoría 
  + read:page:confluence: muestra las páginas 
  + read:attachment:confluence: muestra y descarga los archivos adjuntos de contenido 
  + read:blogpost:confluence: muestra las publicaciones de blog 
  + read:custom-content:confluence: muestra el contenido personalizado 
  + read:comment:confluence: muestra los comentarios 
  + read:template:confluence: muestra las plantillas de contenido 
  + read:label:confluence: muestra las etiquetas 
  + read:watcher:confluence: muestra los observadores de contenido 
  + read:relation:confluence: muestra las relaciones entre entidades 
  + read:user:confluence: muestra los detalles del usuario 
  + read:configuration:confluence: muestra la configuración de Confluence 
  + read:space:confluence: muestra los detalles del espacio 
  + read:space.property:confluence: muestra las propiedades del espacio 
  + read:user.property:confluence: muestra las propiedades del usuario 
  + read:space.setting:confluence: muestra la configuración del espacio 
  + read:analytics.content:confluence: muestra el análisis de contenido
  + read:content.property:confluence: muestra las propiedades del contenido
  + read:content.metadata:confluence: muestra los resúmenes de contenido 
  + read:inlinetask:confluence: muestra las tareas 
  + read:task:confluence: muestra las tareas 
  + read:whiteboard:confluence: muestra las pizarras 
  + read:app-data:confluence: lee los datos de la aplicación 
  + read:folder:confluence: muestra las carpetas
  + read:embed:confluence: muestra los datos de Smart Link

**En la cuenta de AWS, asegúrese de**:
+ Almacenar sus credenciales de autenticación en un [secreto de AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) y tomar nota del nombre de recurso de Amazon (ARN) del secreto. Siga las instrucciones de la sección **Configuración de la conexión** que aparecen en esta página para incluir los pares clave-valor que deben incluirse en el secreto.
+ Incluir los permisos necesarios para conectarse al origen de datos en la política de roles y permisos de AWS Identity and Access Management (IAM) de su base de conocimientos. Para obtener más información sobre los permisos necesarios para que este origen de datos se añada a su rol de IAM en la base de conocimientos, consulte [Permisos para acceder a los orígenes de datos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**nota**  
Si utiliza la consola, puede ir a AWS Secrets Manager para agregar el secreto o usar un secreto existente como parte del paso de configuración del origen de datos. El rol de IAM con todos los permisos necesarios se puede crear automáticamente como parte de los pasos de la consola para crear una base de conocimientos. Una vez que haya configurado el origen de datos y otras configuraciones, el rol de IAM con todos los permisos necesarios se aplicará a su base de conocimientos específica.  
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No recomendamos reutilizar las credenciales y los secretos en distintos orígenes de datos.

## Configuración de la conexión
<a name="configuration-confluence-connector"></a>

Para conectarse a la instancia de Confluence, debe proporcionar la información de configuración necesaria para que Amazon Bedrock pueda acceder a sus datos y rastrearlos. También debe seguir los [Requisitos previos](#prerequisites-confluence-connector).

En esta sección se incluye un ejemplo de configuración para este origen de datos.

Para obtener más información sobre la detección de campos de documento, los filtros de inclusión o exclusión, la sincronización incremental, las credenciales de autenticación secretas y su funcionamiento, seleccione lo siguiente:

### Detección automática de los campos principales del documento
<a name="ds-confluence-document-fields"></a>

El conector del origen de datos detecta y rastrea automáticamente todos los campos de metadatos principales de sus documentos o del contenido. Por ejemplo, el conector del origen de datos puede rastrear el equivalente del cuerpo del documento de sus documentos, el título del documento, la fecha de creación o modificación del documento u otros campos principales que puedan aplicarse a los documentos.

**importante**  
Si el contenido incluye información confidencial, Amazon Bedrock podría responder utilizando información confidencial.

Puede aplicar operadores de filtrado a los campos de metadatos para mejorar aún más la relevancia de las respuestas. Por ejemplo, documente “epoch\$1modification\$1time” o el número de segundos transcurridos desde el 1 de enero de 1970 hasta que se actualizó el documento por última vez. Puede filtrar por los datos más recientes, donde “epoch\$1modification\$1time” es *mayor que* un número determinado. Para obtener más información sobre los operadores de filtrado que puede aplicar a los campos de metadatos, consulte [Metadatos y filtrado](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Filtros de inclusión/exclusión
<a name="ds-confluence-inclusion-exclusion"></a>

Puede incluir o excluir el rastreo de determinado contenido. Por ejemplo, puede especificar un patrón de exclusión de prefijo o expresión regular para evitar el rastreo de cualquier archivo que contenga la palabra “privado” en el nombre del archivo. También puede especificar un patrón de exclusión de prefijo o expresión regular para incluir determinadas entidades o tipos de contenido. Si especifica un filtro de inclusión y exclusión y ambos coinciden con un documento, el filtro de exclusión tiene prioridad y el documento no se rastrea.

Un ejemplo de patrón de expresiones regulares para excluir o filtrar archivos PDF que contienen la palabra “privado” en el nombre del archivo: *".\$1private.\$1\$1\$1.pdf"*.

Puede aplicar filtros de inclusión o exclusión a los siguientes tipos de contenido:
+ `Space`: tecla de espacio única
+ `Page`: título de la página principal
+ `Blog`: título principal del blog
+ `Comment`: comentarios que pertenecen a una determinada página o blog. Especifique *Re: Page/Blog Title*.
+ `Attachment`: nombre del archivo asociado con su extensión

### Sincronización incremental
<a name="ds-confluence-incremental-sync"></a>

El conector del origen de datos rastrea el contenido nuevo, modificado y eliminado cada vez que el origen de datos se sincroniza con la base de conocimientos. Amazon Bedrock puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido y rastrear el contenido modificado desde la última sincronización. Al sincronizar el origen de datos con la base de conocimientos por primera vez, todo el contenido se rastrea de forma predeterminada.

Para sincronizar el origen de datos con la base de conocimientos, utilice la API de [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) o seleccione su base de conocimientos en la consola y seleccione **Sincronizar** en la sección de información general del origen de datos.

**importante**  
Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos `bedrock:Retrieve` para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte [Permisos de la base de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Credenciales de autenticación secretas
<a name="ds-confluence-secret-auth-credentials"></a>

(Si utiliza la autenticación básica) Las credenciales de autenticación secretas en AWS Secrets Manager deben incluir los siguientes pares clave-valor:
+ `username`: *dirección de correo electrónico del usuario administrador de la cuenta de Atlassian*
+ `password`: *token de la API de Confluence*

(Si utiliza la autenticación OAuth 2.0) Las credenciales de autenticación secretas en AWS Secrets Manager deben incluir los siguientes pares clave-valor:
+ `confluenceAppKey`: *clave de aplicación*
+ `confluenceAppSecret`: *secreto de aplicación*
+ `confluenceAccessToken`: *token de acceso a la aplicación*
+ `confluenceRefreshToken`: *token de actualización de la aplicación*

**nota**  
El token de **acceso** a OAuth 2.0 de Confluence tiene un período de caducidad predeterminado de 60 minutos. Si este token caduca mientras se está sincronizando el origen de datos (trabajo de sincronización), Amazon Bedrock utilizará el token de **actualización** proporcionado para regenerar este token. Esta regeneración actualiza los tokens de acceso y de actualización. Para mantener los tokens actualizados desde el trabajo de sincronización actual al siguiente trabajo de sincronización, Amazon Bedrock necesita permisos de escritura o colocación para las credenciales secretas como parte del rol de IAM en la base de conocimientos.

**nota**  
Su secreto en AWS Secrets Manager debe usar la misma región que su base de conocimiento.

------
#### [ Console ]

**Conexión de una instancia de Confluence a la base de conocimiento**

1. Siga los pasos que se indican en [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y elija **Confluence** como el origen de datos.

1. Proporcione un nombre y una descripción opcional para el origen de datos.

1. Proporcione la URL de la instancia de Confluence. Por ejemplo, para Confluence Cloud, *https://example.atlassian.net*. La URL de Confluence Cloud debe ser la URL básica y terminar en *.atlassian.net*.

1. En la sección **Configuración avanzada**, si lo desea, puede configurar lo siguiente:
   + **Clave de KMS para el almacenamiento de datos transitorios:** puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la Clave administrada de AWS predeterminada o con su propia clave de KMS. Para obtener más información, consulte [Cifrado del almacenamiento de datos transitorios durante la ingesta de datos](encryption-kb.md#encryption-kb-ingestion).
   + **Política de eliminación de datos**: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

1. Proporcione la información de autenticación para conectarse a la instancia de Confluence:
   + Para la autenticación básica, vaya a AWS Secrets Manager para añadir sus credenciales de autenticación secretas o utilice un nombre de recurso de Amazon (ARN) existente para el secreto que ha creado. El secreto debe contener la dirección de correo electrónico del usuario administrador de la cuenta de Atlassian como nombre de usuario y un token de la API de Confluence en lugar de una contraseña. Para obtener más información sobre cómo crear un token de la API de Confluence, consulte [Manage API tokens for your Atlassian account](https://support.atlassian.com/atlassian-account/docs/manage-api-tokens-for-your-atlassian-account/#Create-an-API-token) en el sitio web de Atlassian.
   + Para la autenticación OAuth 2.0, vaya a AWS Secrets Manager para añadir sus credenciales de autenticación secretas o utilice un nombre de recurso de Amazon (ARN) existente para el secreto que ha creado. El secreto debe contener la clave de la aplicación de Confluence, el secreto de la aplicación, el token de acceso y el token de actualización. Para obtener más información, consulte [OAuth 2.0 apps](https://developer.atlassian.com/cloud/confluence/oauth-2-3lo-apps/) en el sitio web de Atlassian.

1. (Opcional) En la sección **Análisis y fragmentación del contenido**, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:
   + Para obtener más información sobre las opciones de análisis, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).
   + Para obtener más información sobre las estrategias de fragmentación, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).
**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.
   + Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte. [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md)

1. Elija usar patrones de filtros o expresiones regulares para incluir o excluir determinado contenido. De lo contrario, se rastreará todo el contenido estándar.

1. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y continúe desde allí después de conectar el origen de datos.

------
#### [ API ]

El siguiente es un ejemplo de una configuración para conectarse a Confluence Cloud para la base de conocimientos de Amazon Bedrock. El origen de datos se configura mediante la API con la AWS CLI o un SDK compatible, como Python. Después de llamar a [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), llame a [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) para crear el origen de datos con la información de conexión en `dataSourceConfiguration`.

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo `vectorIngestionConfiguration` opcional, consulte [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock create-data-source \
 --name "Confluence Cloud/SaaS connector" \
 --description "Confluence Cloud/SaaS data source connector for Amazon Bedrock to use content in Confluence" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://confluence-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'

confluence-bedrock-connector-configuration.json
{
    "confluenceConfiguration": {
        "sourceConfiguration": {
            "hostUrl": "https://example.atlassian.net",
            "hostType": "SAAS",
            "authType": "OAUTH2_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Confluence"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "Attachment",
                            "inclusionFilters": [
                                ".*\\.pdf"
                            ],
                            "exclusionFilters": [
                                ".*private.*\\.pdf"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "CONFLUENCE"
}
```

------

# Conéctese a Microsoft SharePoint para su base de conocimientos
<a name="sharepoint-data-source-connector"></a>

Microsoft SharePoint es un servicio colaborativo basado en la web para trabajar en documentos, páginas web, sitios web, listas y mucho más. Puede conectarse a su SharePoint instancia para su base de conocimientos de Amazon Bedrock mediante la [consola de AWS administración de Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) o la [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)API (consulte Amazon Bedrock [compatible SDKs ](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) y). AWS CLI

**nota**  
SharePoint El conector de la fuente de datos se encuentra en versión preliminar y está sujeto a cambios.  
Las fuentes de SharePoint datos de Microsoft no admiten datos multimodales, como tablas, gráficos, diagramas u otras imágenes.

Amazon Bedrock admite la conexión a instancias SharePoint en línea. Actualmente, no se OneNote admite el rastreo de documentos. Actualmente, solo el almacén vectorial Amazon OpenSearch Serverless está disponible para su uso con esta fuente de datos.

Existen límites en cuanto al número de archivos y MB por archivo que pueden rastrearse. Consulte [Cuotas de las bases de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Características admitidas](#supported-features-sharepoint-connector)
+ [Requisitos previos](#prerequisites-sharepoint-connector)
+ [Configuración de la conexión](#configuration-sharepoint-connector)

## Características admitidas
<a name="supported-features-sharepoint-connector"></a>
+ Detección automática de los campos principales del documento
+ Filtros de inclusión o exclusión de contenido
+ El contenido incremental se sincroniza para añadir, actualizar o eliminar contenido
+ SharePoint Autenticación solo mediante aplicaciones

## Requisitos previos
<a name="prerequisites-sharepoint-connector"></a>

### SharePoint (En línea)
<a name="prerequisites-sharepoint-connector-online"></a>

**En su cuenta SharePoint (en línea), complete los siguientes pasos para usar la autenticación SharePoint solo mediante aplicaciones:**
+ Tome nota de la URL/ de su sitio SharePoint en línea. URLs Por ejemplo, *https://yourdomain.sharepoint.com/sites/mysite*. La URL debe empezar por *https* y contener *sharepoint.com*. La URL de su sitio debe ser el SharePoint sitio real, no *sharepoint.com/* o *sites/mysite/home.aspx*
+ Toma nota del nombre de dominio de la URL de tu instancia SharePoint online/URLs.
+ Copie su ID de inquilino de Microsoft 365. Puede encontrar su ID de inquilino en las propiedades de su portal de Microsoft Entra. Consulte [Find your Microsoft 365 tenant ID](https://learn.microsoft.com/en-us/sharepoint/find-your-office-365-tenant-id) para obtener más información.
**nota**  
Para ver un ejemplo de aplicación, consulte [Registro de una aplicación cliente en Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (anteriormente conocido como Azure Active Directory) en el sitio web de Microsoft Learn. 
+ Configura las credenciales exclusivas de la SharePoint aplicación.
+ Copie el ID del cliente y el valor del secreto del cliente al conceder el permiso a SharePoint App-Only. Para obtener más información, consulte [Concesión de acceso mediante SharePoint ](https://learn.microsoft.com/en-us/sharepoint/dev/solution-guidance/security-apponly-azureacs) App-Only.
**nota**  
No necesita configurar ningún permiso de API para App-Only. SharePoint Sin embargo, debes configurar los permisos de la APLICACIÓN de forma paralela. SharePoint Para obtener más información sobre los permisos de aplicación necesarios, consulte la documentación de Microsoft sobre cómo [conceder acceso mediante solo SharePoint aplicaciones.](https://learn.microsoft.com/en-us/sharepoint/dev/solution-guidance/security-apponly-azureacs)

### Cuenta de AWS
<a name="prerequisites-sharepoint-connector-account"></a>

**En tu AWS cuenta, asegúrate de**:
+ Almacenar sus credenciales de autenticación en un [secreto de AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) y tomar nota del nombre de recurso de Amazon (ARN) del secreto. Siga las instrucciones de la sección **Configuración de la conexión** que aparecen en esta página para incluir los pares clave-valor que deben incluirse en el secreto.
+ Incluya los permisos necesarios para conectarse a su fuente de datos en la role/permissions política AWS Identity and Access Management (IAM) de su base de conocimientos. Para obtener información sobre los permisos necesarios para que esta fuente de datos se añada a su IAM función de base de conocimientos, consulte [Permisos para acceder a las fuentes de datos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**nota**  
Si usa la consola, puede ir AWS Secrets Manager a para agregar su secreto o usar uno existente como parte del paso de configuración de la fuente de datos. El IAM rol con todos los permisos necesarios se puede crear automáticamente como parte de los pasos de la consola para crear una base de conocimientos. Una vez que haya configurado la fuente de datos y otras configuraciones, el IAM rol con todos los permisos necesarios se aplicará a su base de conocimientos específica.  
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No recomendamos reutilizar las credenciales y los secretos en distintos orígenes de datos.

## Configuración de la conexión
<a name="configuration-sharepoint-connector"></a>

Para conectarse a su SharePoint instancia, debe proporcionar la información de configuración necesaria para que Amazon Bedrock pueda acceder a sus datos y rastrearlos. También debe seguir los [Requisitos previos](#prerequisites-sharepoint-connector).

En esta sección se incluye un ejemplo de configuración para este origen de datos.

Para obtener más información sobre la detección de campos de documento, los filtros de inclusión o exclusión, la sincronización incremental, las credenciales de autenticación secretas y su funcionamiento, seleccione lo siguiente:

### Detección automática de los campos principales del documento
<a name="ds-sharepoint-document-fields"></a>

El conector del origen de datos detecta y rastrea automáticamente todos los campos de metadatos principales de sus documentos o del contenido. Por ejemplo, el conector del origen de datos puede rastrear el equivalente del cuerpo del documento de sus documentos, el título del documento, la fecha de creación o modificación del documento u otros campos principales que puedan aplicarse a los documentos.

**importante**  
Si su contenido incluye información confidencial, Amazon Bedrock podría responder utilizando información confidencial.

Puede aplicar operadores de filtrado a los campos de metadatos para mejorar aún más la relevancia de las respuestas. Por ejemplo, documente “epoch\$1modification\$1time” o el número de segundos transcurridos desde el 1 de enero de 1970 hasta que se actualizó el documento por última vez. Puede filtrar por los datos más recientes, donde “epoch\$1modification\$1time” es *mayor que* un número determinado. Para obtener más información sobre los operadores de filtrado que puede aplicar a los campos de metadatos, consulte [Metadatos y filtrado](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Filtros de inclusión/exclusión
<a name="ds-sharepoint-inclusion-exclusion"></a>

Puede incluir o excluir el rastreo de determinado contenido. Por ejemplo, puedes especificar un patrón de prefix/regular expresión de exclusión para evitar el rastreo de cualquier archivo que contenga la palabra «privado» en el nombre del archivo. También puede especificar un patrón de prefix/regular expresión de inclusión para incluir determinadas entidades o tipos de contenido. Si especifica un filtro de inclusión y exclusión y ambos coinciden con un documento, el filtro de exclusión tiene prioridad y el documento no se rastrea.

Un ejemplo de patrón de expresiones regulares para excluir o filtrar archivos PDF que contienen la palabra “privado” en el nombre del archivo: *".\$1private.\$1\$1\$1.pdf"*.

Puede aplicar inclusion/exclusion filtros a los siguientes tipos de contenido:
+ `Page`: título de la página principal
+ `Event`: nombre del evento
+ `File`: nombre del archivo con su extensión para los archivos adjuntos y todos los archivos del documento

Actualmente, no se admite el rastreo de OneNote documentos.

### Sincronización incremental
<a name="ds-sharepoint-incremental-sync"></a>

El conector de fuentes de datos rastrea el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincroniza con la base de conocimientos. Amazon Bedrock puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido y rastrear el contenido que ha cambiado desde la última sincronización. Al sincronizar el origen de datos con la base de conocimientos por primera vez, todo el contenido se rastrea de forma predeterminada.

Para sincronizar la fuente de datos con la base de conocimientos, usa la [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API o selecciona tu base de conocimientos en la consola y selecciona **Sincronizar** en la sección de información general de la fuente de datos.

**importante**  
Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos `bedrock:Retrieve` para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte [Permisos de la base de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Credenciales de autenticación secretas
<a name="ds-sharepoint-secret-auth-credentials"></a>

Cuando utilices la autenticación SharePoint solo por aplicación, tus credenciales de autenticación secretas AWS Secrets Manager deben incluir los siguientes pares clave-valor:
+ `clientId`: *client ID associated with your Microsoft Entra SharePoint application*
+ `clientSecret`: *client secret associated with your Microsoft Entra SharePoint application*
+ `sharePointClientId`: *client ID generated when registering your SharePoint app for App-Only authentication*
+ `sharePointClientSecret`: *client secret generated when registering your SharePoint app for App-Only authentication*

**nota**  
Su clave secreta AWS Secrets Manager debe usar la misma región de su base de conocimientos.

------
#### [ Console ]

**Conecta una SharePoint instancia a tu base de conocimientos**<a name="connect-sharepoint-console"></a>

1. Siga los pasos que se indican en [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y elija **SharePoint**la fuente de datos.

1. Proporcione un nombre y una descripción opcional para el origen de datos.

1. Proporcione la URL de su SharePoint sitio web/URLs. Por ejemplo, para SharePoint Online,*https://yourdomain.sharepoint.com/sites/mysite*. La URL debe empezar por *https* y contener *sharepoint.com*. La URL de su sitio debe ser el SharePoint sitio real, no *sharepoint.com/* o *sites/mysite/home.aspx*

1. Proporcione el nombre de dominio de la SharePoint instancia.

1. En la sección **Configuración avanzada**, si lo desea, puede configurar lo siguiente:
   + **Clave de KMS para el almacenamiento de datos transitorios:** — Puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la clave KMS predeterminada Clave administrada de AWS o con su propia clave KMS. Para obtener más información, consulte [Cifrado del almacenamiento de datos transitorios durante la ingesta de datos](encryption-kb.md#encryption-kb-ingestion).
   + **Política de eliminación de datos**: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

1. Proporcione la información de autenticación para conectarse a la instancia. SharePoint Para la SharePoint autenticación solo mediante aplicaciones:

   1. Proporcione el ID de inquilino. Puede encontrar su ID de inquilino en las propiedades del portal de Azure Active Directory.

   1. Vaya AWS Secrets Manager a para añadir sus credenciales secretas o utilice un nombre de recurso de Amazon (ARN) existente para el secreto que ha creado. Su secreto debe contener el ID de SharePoint cliente y el secreto de SharePoint cliente generados al registrar la aplicación Solo a nivel de inquilino o sitio, y el ID de cliente de Entra y el secreto de cliente de Entra generados al registrar la aplicación en Entra.

1. (Opcional) En la sección **Análisis y fragmentación del contenido**, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:
   + Para obtener más información sobre las opciones de análisis, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).
   + Para obtener más información sobre las estrategias de fragmentación, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).
**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.
   + Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md).

1. Elija usar patrones de filters/regular expresiones para incluir o excluir cierto contenido. De lo contrario, se rastreará todo el contenido estándar.

1. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y continúe desde allí después de conectar el origen de datos.

------
#### [ API ]

El siguiente es un ejemplo de una configuración para conectarse a SharePoint Online para su base de conocimiento de Amazon Bedrock. La fuente de datos se configura mediante la API con el SDK compatible AWS CLI o compatible, como Python. Después de llamar [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), llamas [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)para crear tu fuente de datos con la información de conexión`dataSourceConfiguration`.

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo `vectorIngestionConfiguration` opcional, consulte [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock-agent create-data-source \
 --name "SharePoint Online connector" \
 --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE"
```

**Contenido de `sharepoint-bedrock-connector-configuration.json`**

```
{
    "sharePointConfiguration": {
        "sourceConfiguration": {
            "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de",
            "hostType": "ONLINE",
            "domain": "yourdomain",
            "siteUrls": [
                "https://yourdomain.sharepoint.com/sites/mysite"
            ],
            "authType": "OAUTH2_SHAREPOINT_APP_ONLY_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "File",
                            "inclusionFilters": [
                                ".*\\.pdf"
                            ],
                            "exclusionFilters": [
                                ".*private.*\\.pdf"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "SHAREPOINT"
}
```

------

**importante**  
No se recomienda la autenticación OAuth2 2.0. Se recomienda utilizar la autenticación solo por SharePoint aplicación.

## Uso de 0. OAuth2
<a name="sharepoint-connector-oauth"></a>

Con la OAuth versión 2.0, puede autenticar y autorizar el acceso a SharePoint los recursos de los SharePoint conectores integrados en las bases de conocimiento.

### Requisitos previos
<a name="sharepoint-connector-oauth-prereq"></a>

**En SharePoint, para la autenticación OAuth 2.0, asegúrese de**:
+ Tome nota de la URL/ URLs de su sitio SharePoint en línea. Por ejemplo, *https://yourdomain.sharepoint.com/sites/mysite*. La URL debe empezar por *https* y contener *sharepoint.com*. La URL de su sitio debe ser el SharePoint sitio real, no *sharepoint.com/* o *sites/mysite/home.aspx*
+ Toma nota del nombre de dominio de la URL de tu instancia SharePoint online/URLs.
+ Copie su ID de inquilino de Microsoft 365. Puede encontrar su ID de inquilino en las propiedades de su portal Microsoft Entra o en su OAuth aplicación.

  Tome nota del nombre de usuario y la contraseña de la SharePoint cuenta de administrador y copie el ID de cliente y el valor secreto del cliente al registrar una aplicación.
**nota**  
Para ver un ejemplo de aplicación, consulte [Registro de una aplicación cliente en Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (anteriormente conocido como Azure Active Directory) en el sitio web de Microsoft Learn. 
+ Se requieren ciertos permisos de lectura para poder conectarse SharePoint cuando se registra una aplicación.
  + SharePoint: AllSites .Read (delegado): lee los elementos de todas las colecciones de sitios
+ Es posible que tenga que desactivar **Valores predeterminados de seguridad** en el portal de Azure mediante un usuario administrador. Para obtener más información sobre la administración de la configuración predeterminada de seguridad en el portal de Azure, consulte la [documentación de Microsoft sobre cómo establecer la configuración predeterminada enable/disable de seguridad](https://learn.microsoft.com/en-us/microsoft-365/business-premium/m365bp-conditional-access?view=o365-worldwide&tabs=secdefaults#security-defaults-1).
+ Es posible que tengas que desactivar la autenticación multifactor (MFA) en SharePoint tu cuenta para que Amazon Bedrock no pueda rastrear tu contenido. SharePoint 

Para cumplir los requisitos previos, asegúrese de haber realizado los pasos que se detallan en [Cuenta de AWS](#prerequisites-sharepoint-connector-account).

### Credenciales de autenticación secretas
<a name="sharepoint-secret-auth-credentials-oauth"></a>

Para configurar la conexión para OAuth2 .0, puede realizar los mismos pasos para la detección automática de los campos principales del documento, los inclusion/exclusion filtros y la sincronización incremental, tal como se describe en. [Configuración de la conexión](#configuration-sharepoint-connector)

**Para la autenticación OAuth 2.0, sus credenciales de autenticación secretas AWS Secrets Manager deben incluir estos pares clave-valor**.
+ `username`: *SharePoint admin username*
+ `password`: *SharePoint admin password*
+ `clientId`: *OAuth app client ID*
+ `clientSecret`: *OAuth app client secret*

### Conecta una SharePoint instancia a tu base de conocimientos
<a name="sharepoint-connector-oauth-using"></a>

Para conectar una SharePoint instancia a tu base de conocimientos cuando utilices OAuth2 .0:
+ (consola) En la consola, sigue los mismos pasos que se describen en [Conectar una SharePoint instancia a la base de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/sharepoint-data-source-connector.html#connect-sharepoint-console). Cuando quieras proporcionar la información de autenticación para conectarte a tu SharePoint instancia.
  + Proporcione el ID de inquilino. Puede encontrar su ID de inquilino en las propiedades del portal de Azure Active Directory.
  + Vaya AWS Secrets Manager a para añadir sus credenciales de autenticación secretas o utilice un nombre de recurso de Amazon (ARN) existente para el secreto que ha creado. Su secreto debe contener el nombre de usuario y la contraseña del SharePoint administrador, así como el ID de cliente y el secreto de cliente de la aplicación registrados. Para ver un ejemplo de aplicación, consulte [Registro de una aplicación cliente en Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (anteriormente conocido como Azure Active Directory) en el sitio web de Microsoft Learn.
+ (API) A continuación, se muestra un ejemplo del uso de la `CreateDataSource` API para crear la fuente de datos con la información de conexión de OAuth2 .0.

  ```
  aws bedrock-agent create-data-source \
   --name "SharePoint Online connector" \
   --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \
   --knowledge-base-id "your-knowledge-base-id" \
   --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \
   --data-deletion-policy "DELETE"
  ```

  **Contenido de `sharepoint-bedrock-connector-configuration.json`**

  ```
  {
      "sharePointConfiguration": {
          "sourceConfiguration": {
              "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de",
              "hostType": "ONLINE",
              "domain": "yourdomain",
              "siteUrls": [
                  "https://yourdomain.sharepoint.com/sites/mysite"
              ],
              "authType": "OAUTH2_CLIENT_CREDENTIALS",
              "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint"
          },
          "crawlerConfiguration": {
              "filterConfiguration": {
                  "type": "PATTERN",
                  "patternObjectFilter": {
                      "filters": [
                          {
                              "objectType": "File",
                              "inclusionFilters": [
                                  ".*\\.pdf"
                              ],
                              "exclusionFilters": [
                                  ".*private.*\\.pdf"
                              ]
                          }
                      ]
                  }
              }
          }
      },
      "type": "SHAREPOINT"
  }
  ```

# Conexión a Salesforce para su base de conocimiento
<a name="salesforce-data-source-connector"></a>

Salesforce es una herramienta de gestión de relaciones con los clientes (CRM) para administrar los equipos de soporte, ventas y marketing. Puede conectarse a la instancia de Salesforce para su base de conocimientos de Amazon Bedrock mediante la [Consola de administración de AWS de Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) o la API de [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) (consulte los [SDK compatibles con Amazon Bedrock y AWS CLI](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html)).

**nota**  
El conector del origen de datos de Salesforce está en versión preliminar y sujeta a cambios.  
Los orígenes de datos de Salesforce no admiten datos multimodales, como tablas, gráficos, diagramas u otras imágenes.

Actualmente, solo el almacén vectorial de Amazon OpenSearch sin servidor se puede usar con este origen de datos.

Existen límites en cuanto al número de archivos y MB por archivo que pueden rastrearse. Consulte [Cuotas de las bases de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Características admitidas](#supported-features-salesforce-connector)
+ [Requisitos previos](#prerequisites-salesforce-connector)
+ [Configuración de la conexión](#configuration-salesforce-connector)

## Características admitidas
<a name="supported-features-salesforce-connector"></a>
+ Detección automática de los campos principales del documento
+ Filtros de inclusión o exclusión de contenido
+ El contenido incremental se sincroniza para añadir, actualizar o eliminar contenido
+ Autenticación OAuth 2.0

## Requisitos previos
<a name="prerequisites-salesforce-connector"></a>

**En Salesforce, asegúrese de**:
+ Tomar nota de la URL de su instancia de Salesforce. Por ejemplo, *https://company.salesforce.com/*. La instancia debe ejecutar una aplicación conectada de Salesforce.
+ Crear una aplicación conectada de Salesforce y configurar las credenciales del cliente. A continuación, para la aplicación que haya seleccionado, copie la clave de consumidor (ID de cliente) y el secreto de consumidor (secreto de cliente) de la configuración de OAuth. Para obtener más información, consulte la documentación de Salesforce sobre cómo [Create a Connected App](https://help.salesforce.com/s/articleView?id=sf.connected_app_create.htm&type=5) y [Configure a Connected App for the OAuth 2.0 Client Credentials](https://help.salesforce.com/s/articleView?id=sf.connected_app_client_credentials_setup.htm&type=5).
**nota**  
En el caso de las aplicaciones conectadas de Salesforce, en Flujo de credenciales de cliente, asegúrese de buscar y seleccionar el nombre de usuario o el alias para las credenciales de sus clientes en el campo Ejecutar como.

**En la cuenta de AWS, asegúrese de**:
+ Almacenar sus credenciales de autenticación en un [secreto de AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) y tomar nota del nombre de recurso de Amazon (ARN) del secreto. Siga las instrucciones de la sección **Configuración de la conexión** que aparecen en esta página para incluir los pares clave-valor que deben incluirse en el secreto.
+ Incluir los permisos necesarios para conectarse al origen de datos en la política de roles y permisos de AWS Identity and Access Management (IAM) de su base de conocimientos. Para obtener más información sobre los permisos necesarios para que este origen de datos se añada a su rol de IAM en la base de conocimientos, consulte [Permisos para acceder a los orígenes de datos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**nota**  
Si utiliza la consola, puede ir a AWS Secrets Manager para agregar el secreto o usar un secreto existente como parte del paso de configuración del origen de datos. El rol de IAM con todos los permisos necesarios se puede crear automáticamente como parte de los pasos de la consola para crear una base de conocimientos. Una vez que haya configurado el origen de datos y otras configuraciones, el rol de IAM con todos los permisos necesarios se aplicará a su base de conocimientos específica.  
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No recomendamos reutilizar las credenciales y los secretos en distintos orígenes de datos.

## Configuración de la conexión
<a name="configuration-salesforce-connector"></a>

Para conectarse a la instancia de Salesforce, debe proporcionar la información de configuración necesaria para que Amazon Bedrock pueda acceder a sus datos y rastrearlos. También debe seguir los [Requisitos previos](#prerequisites-salesforce-connector).

En esta sección se incluye un ejemplo de configuración para este origen de datos.

Para obtener más información sobre la detección de campos de documento, los filtros de inclusión o exclusión, la sincronización incremental, las credenciales de autenticación secretas y su funcionamiento, seleccione lo siguiente:

### Detección automática de los campos principales del documento
<a name="ds-salesforce-document-fields"></a>

El conector del origen de datos detecta y rastrea automáticamente todos los campos de metadatos principales de sus documentos o del contenido. Por ejemplo, el conector del origen de datos puede rastrear el equivalente del cuerpo del documento de sus documentos, el título del documento, la fecha de creación o modificación del documento u otros campos principales que puedan aplicarse a los documentos.

**importante**  
Si el contenido incluye información confidencial, Amazon Bedrock podría responder utilizando información confidencial.

Puede aplicar operadores de filtrado a los campos de metadatos para mejorar aún más la relevancia de las respuestas. Por ejemplo, documente “epoch\$1modification\$1time” o el número de segundos transcurridos desde el 1 de enero de 1970 hasta que se actualizó el documento por última vez. Puede filtrar por los datos más recientes, donde “epoch\$1modification\$1time” es *mayor que* un número determinado. Para obtener más información sobre los operadores de filtrado que puede aplicar a los campos de metadatos, consulte [Metadatos y filtrado](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Filtros de inclusión/exclusión
<a name="ds-salesforce-inclusion-exclusion"></a>

Puede incluir o excluir el rastreo de determinado contenido. Por ejemplo, puede especificar un patrón de exclusión de prefijo o expresión regular para evitar el rastreo de cualquier archivo que contenga la palabra “privado” en el nombre del archivo. También puede especificar un patrón de exclusión de prefijo o expresión regular para incluir determinadas entidades o tipos de contenido. Si especifica un filtro de inclusión y exclusión y ambos coinciden con un documento, el filtro de exclusión tiene prioridad y el documento no se rastrea.

Un ejemplo de patrón de expresiones regulares para excluir o filtrar campañas que contienen la palabra “privado” en el nombre del archivo: *“.\$1privado.\$1”*.

Puede aplicar filtros de inclusión o exclusión a los siguientes tipos de contenido:
+ `Account`: número o identificador de la cuenta
+ `Attachment`: nombre del archivo asociado con su extensión
+ `Campaign`: nombre de la campaña e identificadores asociados
+ `ContentVersion`: versión del documento e identificadores asociados
+ `Partner`: campos de información sobre los socios, incluidos los identificadores asociados
+ `Pricebook2`: nombre de la lista de productos o precios
+ `Case`: número de consulta o problema del cliente y otros campos de información, incluidos los identificadores asociados (tenga en cuenta que pueden contener información personal y que puede optar por excluirla o filtrarla)
+ `Contact`: campos de información del cliente (tenga en cuenta que pueden contener información personal y que puede optar por excluirla o filtrarla)
+ `Contract`: nombre del contrato e identificadores asociados
+ `Document`: nombre del archivo con su extensión
+ `Idea`: campos de información de la idea e identificadores asociados
+ `Lead`: campos de información del nuevo cliente potencial (tenga en cuenta que pueden contener información personal y que puede optar por excluirla o filtrarla)
+ `Opportunity`: campos de información de la idea o venta pendientes e identificadores asociados
+ `Product2`: campos de información del producto e identificadores asociados
+ `Solution`: nombre de la solución para una consulta o problema de un cliente e identificadores asociados
+ `Task`: campos de información de la tarea e identificadores asociados
+ `FeedItem`: identificador de la publicación del feed de conversación
+ `FeedComment`: identificador de la publicación del feed de chat a la que pertenecen los comentarios
+ `Knowledge__kav`: título del artículo de conocimiento
+ `User`: alias de usuario dentro de su organización
+ `CollaborationGroup`: nombre del grupo de chat (único)

### Sincronización incremental
<a name="ds-salesforce-incremental-sync"></a>

El conector del origen de datos rastrea el contenido nuevo, modificado y eliminado cada vez que el origen de datos se sincroniza con la base de conocimientos. Amazon Bedrock puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido y rastrear el contenido modificado desde la última sincronización. Al sincronizar el origen de datos con la base de conocimientos por primera vez, todo el contenido se rastrea de forma predeterminada.

Para sincronizar el origen de datos con la base de conocimientos, utilice la API de [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) o seleccione su base de conocimientos en la consola y seleccione **Sincronizar** en la sección de información general del origen de datos.

**importante**  
Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos `bedrock:Retrieve` para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte [Permisos de la base de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Credenciales de autenticación secretas
<a name="ds-salesforce-secret-auth-credentials"></a>

(Si utiliza la autenticación OAuth 2.0) Las credenciales de autenticación secretas en AWS Secrets Manager deben incluir los siguientes pares clave-valor:
+ `consumerKey`: *ID de cliente de la aplicación*
+ `consumerSecret`: *secreto del cliente de la aplicación*
+ `authenticationUrl`: *URL de la instancia de Salesforce o URL desde la que se solicita el token de autenticación*

**nota**  
Su secreto en AWS Secrets Manager debe usar la misma región que su base de conocimiento.

------
#### [ Console ]

**Conexión de una instancia de Salesforce para la base de conocimiento**

1. Siga los pasos que se indican en [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y elija **Salesforce** como el origen de datos.

1. Proporcione un nombre y una descripción opcional para el origen de datos.

1. Proporcione la URL de su instancia de Salesforce. Por ejemplo, *https://company.salesforce.com/*. La instancia debe ejecutar una aplicación conectada de Salesforce.

1. En la sección **Configuración avanzada**, si lo desea, puede configurar lo siguiente:
   + **Clave de KMS para el almacenamiento de datos transitorios:** : puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la Clave administrada de AWS predeterminada o con su propia clave de KMS. Para obtener más información, consulte [Cifrado del almacenamiento de datos transitorios durante la ingesta de datos](encryption-kb.md#encryption-kb-ingestion).
   + **Política de eliminación de datos**: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

1. Proporcione la información de autenticación para conectarse a la instancia de Salesforce:

   1. Para la autenticación OAuth 2.0, vaya a AWS Secrets Manager para añadir sus credenciales de autenticación secretas o utilice un nombre de recurso de Amazon (ARN) existente para el secreto que ha creado. Su secreto debe contener la clave de consumidor de la aplicación conectada de Salesforce (ID de cliente), el secreto de consumidor (secreto de cliente) y la URL de la instancia de Salesforce o la URL para solicitar el token de autenticación. Para obtener más información, consulte la documentación de Salesforce sobre cómo [Create a Connected App](https://help.salesforce.com/s/articleView?id=sf.connected_app_create.htm&type=5) y [Configure a Connected App for the OAuth 2.0 Client Credentials](https://help.salesforce.com/s/articleView?id=sf.connected_app_client_credentials_setup.htm&type=5).

1. (Opcional) En la sección **Análisis y fragmentación del contenido**, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:
   + Para obtener más información sobre las opciones de análisis, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).
   + Para obtener más información sobre las estrategias de fragmentación, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).
**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.
   + Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md).

1. Elija usar patrones de filtros o expresiones regulares para incluir o excluir determinado contenido. De lo contrario, se rastreará todo el contenido estándar.

1. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y continúe desde allí después de conectar el origen de datos.

------
#### [ API ]

El siguiente es un ejemplo de una configuración para conectarse a Salesforce para la base de conocimientos de Amazon Bedrock. El origen de datos se configura mediante la API con la AWS CLI o un SDK compatible, como Python. Después de llamar a [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), llame a [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) para crear el origen de datos con la información de conexión en `dataSourceConfiguration`.

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo `vectorIngestionConfiguration` opcional, consulte [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock create-data-source \
 --name "Salesforce connector" \
 --description "Salesforce data source connector for Amazon Bedrock to use content in Salesforce" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://salesforce-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'

salesforce-bedrock-connector-configuration.json
{
    "salesforceConfiguration": {
        "sourceConfiguration": {
            "hostUrl": "https://company.salesforce.com/",
            "authType": "OAUTH2_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Salesforce"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "Campaign",
                            "inclusionFilters": [
                                ".*public.*"
                            ],
                            "exclusionFilters": [
                                ".*private.*"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "SALESFORCE"
}
```

------

# Rastreo de páginas web para la base de conocimiento
<a name="webcrawl-data-source-connector"></a>

El rastreador web proporcionado por Amazon Bedrock se conecta con y rastrea las URL que ha seleccionado para usarlas en su base de conocimientos de Amazon Bedrock. Puede rastrear las páginas de sitios web de acuerdo con el alcance o los límites que ha establecido para las URL que ha seleccionado. Puede rastrear páginas de sitios web mediante la [Consola de administración de AWS para Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) o la API [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) (consulte los [SDK y la AWS CLI compatibles](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) con Amazon Bedrock). Actualmente, solo el almacén vectorial de Amazon OpenSearch sin servidor se puede usar con este origen de datos.

**nota**  
El conector del origen de datos del Rastreador web está en versión preliminar y sujeto a cambios.

Al seleccionar los sitios web que se van a rastrear, se debe respetar la [Política de uso aceptable de Amazon](https://aws.amazon.com/aup/) y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el Rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para rastrear, y que debe respetar las configuraciones de robots-txt.

El rastreador web respeta robots.txt de acuerdo con [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Hay límites en cuanto al número de elementos de contenido de una página web y a los MB por elemento de contenido que se pueden rastrear. Consulte [Cuotas de las bases de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Características admitidas](#supported-features-webcrawl-connector)
+ [Requisitos previos](#prerequisites-webcrawl-connector)
+ [Configuración de la conexión](#configuration-webcrawl-connector)

## Características admitidas
<a name="supported-features-webcrawl-connector"></a>

El rastreador web se conecta a las páginas HTML y las rastrea a partir de la URL inicial, recorriendo todos los enlaces secundarios situados bajo el mismo dominio principal y la misma ruta. Si alguna de las páginas HTML hace referencia a documentos compatibles, el rastreador web obtendrá estos documentos, independientemente de si se encuentran dentro del mismo dominio primario superior. Puede modificar el comportamiento de rastreo cambiando la configuración del rastreo. Para ello, consulte [Configuración de la conexión](#configuration-webcrawl-connector).

Se admite lo siguiente:
+ Seleccionar varias URL de origen para rastrearlas y establecer el alcance de las URL para que rastreen solo el host o también incluyan subdominios
+ Rastrear las páginas web estáticas que forman parte de las URL de origen
+ Especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador
+ Incluir o excluir determinadas URL que coincidan con un patrón de filtro
+ Respete las directivas estándar de robots.txt como “Allow” y “Disallow”.
+ Limite el alcance de las URL al rastreo y, si lo desea, excluya las URL que coincidan con un patrón de filtro.
+ Limitar la velocidad de rastreo de las URL y el número máximo de páginas que se rastrean
+ Ver el estado de las URL rastreadas en Amazon CloudWatch

## Requisitos previos
<a name="prerequisites-webcrawl-connector"></a>

**Para usar el rastreador web, asegúrese de**:
+ Comprobar que tiene autorización para rastrear las URL de origen.
+ Comprobar que la ruta a robots.txt correspondiente a las URL de origen no impida el rastreo de las URL. El rastreador web sigue los estándares de robots.txt: `disallow` de forma predeterminada si no se encuentra robots.txt en el sitio web. El rastreador web respeta robots.txt de acuerdo con [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html). También puede especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador. Para obtener más información, consulte el acceso a la URL del Rastreador web en las instrucciones de [Configuración de la conexión](#configuration-webcrawl-connector) de esta página.
+ [Activar la entrega de Registros de CloudWatch](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-bases-logging.html) y seguir los ejemplos de registros del Rastreador web para ver el estado de su trabajo de ingesta de datos al ingerir contenido web y si no se pueden recuperar determinadas URL

**nota**  
Al seleccionar los sitios web que se van a rastrear, se debe respetar la [Política de uso aceptable de Amazon](https://aws.amazon.com/aup/) y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para indexar.

## Configuración de la conexión
<a name="configuration-webcrawl-connector"></a>

Para obtener más información sobre el alcance de la sincronización para el rastreo de URL, los filtros de inclusión y exclusión, el acceso a URL, la sincronización incremental y su funcionamiento, seleccione lo siguiente:

### Ámbito de sincronización de las URL de rastreo
<a name="ds-sync-scope"></a>

Puede limitar el alcance de las URL a rastrear en función de la relación específica de cada URL de página con las URL semilla. Para que los rastreos sean más rápidos, puede limitar las URL a las que tengan el mismo host y la misma ruta URL inicial que la URL semilla. Para rastreos más amplios, puede elegir rastrear las URL con el mismo host o dentro de cualquier subdominio de la URL semilla.

Puede elegir entre las siguientes opciones.
+ Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo host y con la misma ruta URL inicial. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, solo se rastreará esta ruta y las páginas web que se extiendan a partir de dicha ruta, como “https://aws.amazon.com/bedrock/agents/”. Por ejemplo, las URL hermanas, como “https://aws.amazon.com/ec2/”, no se rastrean.
+ Solo host: limita el rastreo a las páginas web que pertenecen al mismo host. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, también se rastrearán las páginas web “https://aws.amazon.com”, como “https://aws.amazon.com/ec2”.
+ Subdominios: incluyen el rastreo de cualquier página web que tenga el mismo dominio principal que la URL semilla. Por ejemplo, si la URL semilla es “https://aws.amazon.com/bedrock/”, se rastreará cualquier página web que contenga “amazon.com” (subdominio), como “https://www.amazon.com”.

**nota**  
Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño puede llevar mucho tiempo.  
Los [tipos de archivos compatibles](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

El Rastreador web admite sitios web estáticos.

También puede limitar la velocidad de rastreo de las URL para controlar la limitación de velocidad de rastreo. Puede definir el número de direcciones URL rastreadas por host por minuto. Además, también puede establecer el número máximo (hasta 25 000) de páginas web totales que se van a rastrear. Tenga en cuenta que si el número total de páginas web de las URL de origen supera el máximo establecido, el trabajo de sincronización o ingesta del origen de datos fallará.

### Filtros de inclusión/exclusión
<a name="ds-inclusion-exclusion"></a>

Puede incluir o excluir determinadas URL de acuerdo con su alcance. Los [tipos de archivos compatibles](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo. Si especifica un filtro de inclusión y exclusión, y ambos coinciden con una URL, el filtro de exclusión tiene prioridad y el documento no se rastrea.

**importante**  
Se rechazan los filtros de patrones de expresiones regulares problemáticos que provocan [retrocesos catastróficos](https://docs.aws.amazon.com/codeguru/detector-library/python/catastrophic-backtracking-regex/) y búsquedas anticipadas.

Se muestra un ejemplo de un patrón de filtro de expresiones regulares para excluir las direcciones URL que terminan en “.pdf” o los archivos adjuntos de páginas web en PDF: *“.\$1\$1.pdf\$1”*.

### Acceso del rastreador web a URL
<a name="ds-webcrawl-identity-crawling"></a>

Puede utilizar el rastreador web para rastrear las páginas de los sitios web que está autorizado a rastrear.

Al seleccionar los sitios web que se van a rastrear, se debe respetar la [Política de uso aceptable de Amazon](https://aws.amazon.com/aup/) y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para indexar.

El rastreador web respeta robots.txt de acuerdo con [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Puede especificar que algunos bots del agente de usuario “permitan” o “no permitan” que el agente de usuario rastree las URL de origen. Puede modificar el archivo robots.txt de su sitio web para controlar la forma en que el Rastreador web rastrea las URL de origen. El rastreador buscará primero las reglas `bedrockbot-UUID ` y, después, las reglas `bedrockbot` genéricas en el archivo robots.txt.

También puede añadir un sufijo User-Agent para incluir su rastreador en una lista de rastreadores permitidos en los sistemas de protección contra bots. Tenga en cuenta que no es necesario añadir este sufijo al archivo `robots.txt` para garantizar que nadie pueda suplantar la cadena User Agent. Para permitir que el Rastreador web rastree todo el contenido del sitio web e impedir que otros robots lo rastreen, utilice la siguiente directiva:

```
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages
```

### Sincronización incremental
<a name="ds-incremental-sync"></a>

Cada vez que se ejecuta el rastreador web, recupera el contenido de todas las URL a las que se puede acceder desde las URL de origen que coinciden con el alcance y los filtros. Para las sincronizaciones incrementales después de la primera sincronización de todo el contenido, Amazon Bedrock actualizará su base de conocimientos con contenido nuevo y modificado y eliminará el contenido antiguo que ya no esté presente. En ocasiones, es posible que el rastreador no pueda distinguir si el contenido se ha eliminado del sitio web y, en ese caso, conservará el contenido antiguo de su base de conocimientos.

Para sincronizar el origen de datos con la base de conocimientos, utilice la API de [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) o seleccione su base de conocimientos en la consola y seleccione **Sincronizar** en la sección de información general del origen de datos.

**importante**  
Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos `bedrock:Retrieve` para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte [Permisos de la base de conocimientos](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Conexión de un origen de datos del Rastreador web a la base de conocimiento**

1. Siga los pasos que se indican en [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y elija **Rastreador web** como el origen de datos.

1. Proporcione un nombre y una descripción opcional para el origen de datos.

1. Escriba las **URL de origen** de las URL que desea rastrear. Puede añadir hasta nueve direcciones URL adicionales seleccionando **Agregar URL de origen**. Al proporcionar una URL de origen, confirma que tiene autorización para rastrear su dominio.

1. En la sección **Configuración avanzada**, si lo desea, puede configurar lo siguiente:
   + **Clave de KMS para el almacenamiento de datos transitorios:** : puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la Clave administrada de AWS predeterminada o con su propia clave de KMS. Para obtener más información, consulte [Cifrado del almacenamiento de datos transitorios durante la ingesta de datos](encryption-kb.md#encryption-kb-ingestion).
   + **Política de eliminación de datos**: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

1. (Opcional) Proporcione un sufijo de agente de usuario para **bedrock-UUID-** que identifique el rastreador o el bot cuando accede a un servidor web.

1. Configure lo siguiente en la sección **Alcance de sincronización**:

   1. Seleccione un **intervalo de dominios de sitios web** para rastrear las URL de origen:
      + Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo host y con la misma ruta URL inicial. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, solo se rastreará esta ruta y las páginas web que se extiendan a partir de dicha ruta, como “https://aws.amazon.com/bedrock/agents/”. Por ejemplo, las URL hermanas, como “https://aws.amazon.com/ec2/”, no se rastrean.
      + Solo host: limita el rastreo a las páginas web que pertenecen al mismo host. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, también se rastrearán las páginas web “https://aws.amazon.com”, como “https://aws.amazon.com/ec2”.
      + Subdominios: incluyen el rastreo de cualquier página web que tenga el mismo dominio principal que la URL semilla. Por ejemplo, si la URL semilla es “https://aws.amazon.com/bedrock/”, se rastreará cualquier página web que contenga “amazon.com” (subdominio), como “https://www.amazon.com”.
**nota**  
Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño puede llevar mucho tiempo.  
Los [tipos de archivos compatibles](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

   1. Introduzca la **Limitación máxima de la velocidad de rastreo**. Introduzca entre 1 y 300 URL por host y por minuto. Una velocidad de rastreo más alta aumenta la carga, pero lleva menos tiempo.

   1. Introduzca un valor en **Cantidad máxima de páginas para la sincronización de orígenes de datos** comprendido entre 1 y 25 000. Limite el número máximo de páginas web rastreadas desde las URL de origen. Si las páginas web superan este número, se producirá un error en la sincronización del origen de datos y no se ingerirá ninguna página web. 

   1. Para los patrones de **expresiones regulares de URL** (opcional), puede añadir **patrones de inclusión** o de **exclusión**. Para ello, introduzca el patrón de expresión regular en el cuadro. Puede añadir hasta 25 patrones de filtro de inclusión y 25 de exclusión seleccionando **Agregar nuevo patrón**. Los patrones de inclusión y exclusión se rastrean de acuerdo con su alcance. Si hay un conflicto, prevalece el patrón de exclusión.

1. (Opcional) En la sección **Análisis y fragmentación del contenido**, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:
   + Para obtener más información sobre las opciones de análisis, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).
   + Para obtener más información sobre las estrategias de fragmentación, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).
**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.
   + Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md).

1. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a [Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock](knowledge-base-create.md) y continúe desde allí después de conectar el origen de datos.

------
#### [ API ]

Para conectar una base de conocimiento a un origen de datos mediante WebCrawler, envíe una solicitud [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) con un [punto de conexión en tiempo de compilación de Agentes para Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt), especifique `WEB` en el campo `type` de [DataSourceConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_DataSourceConfiguration.html) e incluya el campo `webConfiguration`. El siguiente ejemplo muestra la configuración del rastreador web para su base de conocimientos de Amazon Bedrock.

```
{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}
```

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo `vectorIngestionConfiguration` opcional, consulte [Personalización de la ingesta de un origen de datos](kb-data-source-customize-ingestion.md).

------

# Conexión de una base de conocimiento a un origen de datos personalizado
<a name="custom-data-source-connector"></a>

En lugar de elegir un servicio de origen de datos compatible, puede conectarse a un origen de datos personalizado para disfrutar de las siguientes ventajas:
+ Flexibilidad y control sobre los tipos de datos a los que desea que tenga acceso su base de conocimiento
+ La capacidad de utilizar las operaciones de la API `KnowledgeBaseDocuments` para ingerir o eliminar documentos directamente sin necesidad de sincronizar los cambios
+ La capacidad de ver los documentos de su origen de datos directamente a través de la consola o la API de Amazon Bedrock
+ La posibilidad de cargar documentos en la fuente de datos directamente en la fuente de datos Consola de administración de AWS o agregarlos en línea.
+ La capacidad de añadir metadatos directamente a cada documento para añadir o actualizar un documento en el origen de datos Para obtener más información sobre cómo utilizar los metadatos para filtrar al recuperar información de un origen de datos, consulte la pestaña **Metadatos y filtrado** en [Configuración y personalización de las consultas y la generación de respuestas](kb-test-config.md).

**Soporte de contenido multimodal**  
Las fuentes de datos personalizadas admiten contenido multimodal, incluidos archivos de imágenes, audio y vídeo de hasta 10 MB codificados en base64. Para obtener una guía completa sobre cómo trabajar con contenido multimodal, consulte. [Cree una base de conocimientos para contenido multimodal](kb-multimodal.md)

Para conectar una base de conocimientos a una fuente de datos personalizada, envíe una [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)solicitud a un punto límite de tiempo de [compilación de Agents for Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt). Especifique el `knowledgeBaseId` de la base de conocimiento a la que desea conectarse, asigne un `name` al origen de datos y especifique el campo `type` en `dataSourceConfiguration` como `CUSTOM`. A continuación, se muestra un ejemplo mínimo para crear este origen de datos:

```
PUT /knowledgebases/KB12345678/datasources/ HTTP/1.1
Content-type: application/json

{
    "name": "MyCustomDataSource",
    "dataSourceConfiguration": {
        "type": "CUSTOM"
    }
}
```

Puede incluir cualquiera de los siguientes campos opcionales para configurar el origen de datos:


****  

| Campo | Caso de uso | 
| --- | --- | 
| description | Proporcionar una descripción del origen de datos. | 
| clientToken | Para garantizar que la solicitud de la API se complete solo una vez. Para obtener más información, consulte [Ensuring idempotency](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 
| serverSideEncryptionConfiguración | Especificar una clave de KMS personalizada para el almacenamiento de datos transitorios y, al mismo tiempo, convertir los datos en incrustaciones. Para obtener más información, consulte [Cifrado del almacenamiento de datos transitorios durante la ingesta de datos](encryption-kb.md#encryption-kb-ingestion) | 
| dataDeletionPolicy | Configurar lo que se debe hacer con las incrustaciones vectoriales del origen de datos en el almacén de vectores si se elimina el origen de datos. Especifique RETAIN si desea conservar los datos en el almacén de vectores o la opción predeterminada DELETE para eliminarlos. | 
| vectorIngestionConfiguration | Configurar las opciones de ingesta del origen de datos. Para obtener más información, consulte las secciones siguientes. | 

El `vectorIngestionConfiguration` campo se asigna a un [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)objeto que contiene los siguientes campos:
+ chunkingConfiguration: para configurar la estrategia que se utilizará para fragmentar los documentos del origen de datos. Para obtener más información sobre las estrategias de fragmentación, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).
+ parsingConfiguration: para configurar la estrategia que se utilizará para analizar el origen de datos. Para obtener más información sobre las opciones de análisis, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).
+ customTransformationConfiguration — Para personalizar la forma en que se transforman los datos y aplicar una función Lambda para una mayor personalización. Para obtener más información acerca de cómo personalizar la fragmentación de datos y el procesamiento de los metadatos con una función de Lambda, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md).

Tras configurar el origen de datos personalizado, puede añadirle documentos e ingerirlos directamente en la base de conocimiento. A diferencia de otros orígenes de datos, no es necesario sincronizar un origen de datos personalizado. Para obtener información sobre cómo ingerir documentos directamente, consulte [Ingesta de cambios directamente en una base de conocimiento](kb-direct-ingestion.md).

# Personalización de la ingesta de un origen de datos
<a name="kb-data-source-customize-ingestion"></a>

Puede personalizar la ingesta de vectores al conectar una fuente de datos Consola de administración de AWS o al modificar el valor del `vectorIngestionConfiguration` campo al enviar una [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)solicitud.

Seleccione un tema para obtener información acerca de cómo incluir configuraciones para personalizar la ingesta al conectarse a un origen de datos:

**Topics**
+ [Selección de la herramienta que se utilizará para el análisis](#kb-data-source-customize-parsing)
+ [Selección de una estrategia de fragmentación](#kb-data-source-customize-chunking)
+ [Uso de una función de Lambda durante la ingesta](#kb-data-source-customize-lambda)

## Selección de la herramienta que se utilizará para el análisis
<a name="kb-data-source-customize-parsing"></a>

Puede personalizar la forma en que se analizan los documentos en sus datos. Para obtener más información sobre las opciones de análisis de datos en Bases de conocimiento de Amazon Bedrock, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).

**aviso**  
No puede cambiar la configuración de análisis después de conectarse al origen de datos. Para usar una estrategia de análisis diferente, puede añadir un nuevo origen de datos.  
No puede añadir una ubicación de S3 para almacenar datos multimodales (incluidas imágenes, figuras, gráficos y tablas) después de haber creado una base de conocimiento. Si desea incluir datos multimodales y usar un analizador que los admita, debe crear una base de conocimiento nueva.

Los pasos necesarios para elegir una estrategia de análisis dependen de si utiliza la API Consola de administración de AWS o la de Amazon Bedrock y del método de análisis que elija. Si elige un método de análisis que admite datos multimodales, debe especificar un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos. Estos datos se pueden devolver en una consulta a la base de conocimiento.
+ En el Consola de administración de AWS, haga lo siguiente:

  1. Seleccione la estrategia de análisis cuando se conecte a un origen de datos mientras configura una base de conocimiento o cuando añada un nuevo origen de datos a su base de conocimiento existente.

  1. (Si elige Automatización de Datos de Amazon Bedrock o un modelo fundacional como estrategia de análisis) Especifique un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos en la sección **Destino de almacenamiento multimodal** cuando seleccione un modelo de incrustaciones y configure su almacén de vectores. Si lo desea, también puede utilizar una clave administrada por el cliente para cifrar sus datos de S3 en este paso.
+ En la API de Amazon Bedrock, haga lo siguiente:

  1. (Si planea utilizar Amazon Bedrock Data Automation o un modelo básico como estrategia de análisis) Incluya un [SupplementalDataStorageLocation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_SupplementalDataStorageLocation.html)en [VectorKnowledgeBaseConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorKnowledgeBaseConfiguration.html)la solicitud. [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html)

  1. Incluya una [ParsingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ParsingConfiguration.html)en el `parsingConfiguration` campo de [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)la [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)solicitud.
**nota**  
Si omite esta configuración, Bases de conocimiento de Amazon Bedrock utilizará el analizador predeterminado de Amazon Bedrock.

Para obtener más información sobre cómo especificar una estrategia de análisis en la API, amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:

### Analizador predeterminado de Amazon Bedrock
<a name="w2aac28c10c23c15c17c11c13b1"></a>

Para usar el analizador predeterminado, no incluya ningún campo `parsingConfiguration` dentro de `VectorIngestionConfiguration`.

### Analizador de Automatización de Datos de Amazon Bedrock (versión preliminar)
<a name="w2aac28c10c23c15c17c11c13b3"></a>

Para utilizar el analizador de Amazon Bedrock Data Automation, especifique `BEDROCK_DATA_AUTOMATION` en el `parsingStrategy` campo `ParsingConfiguration` e incluya una [BedrockDataAutomationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockDataAutomationConfiguration.html)en el `bedrockDataAutomationConfiguration` campo, con el siguiente formato:

```
{
    "parsingStrategy": "BEDROCK_DATA_AUTOMATION",
    "bedrockDataAutomationConfiguration": {
        "parsingModality": "string"
    }
}
```

### Modelo fundacional
<a name="w2aac28c10c23c15c17c11c13b5"></a>

Para utilizar un modelo base como analizador, especifique el `BEDROCK_FOUNDATION_MODEL` en el `parsingStrategy` campo del `ParsingConfiguration` e incluya un [BedrockFoundationModelConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockFoundationModelConfiguration.html)en el `bedrockFoundationModelConfiguration` campo, como en el siguiente formato:

```
{
    "parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
    "bedrockFoundationModelConfiguration": {
        "modelArn": "string",
        "parsingModality": "string",
        "parsingPrompt": {
            "parsingPromptText": "string"
        }
    }
}
```

## Selección de una estrategia de fragmentación
<a name="kb-data-source-customize-chunking"></a>

Puede personalizar la forma en que se fragmentan los documentos de sus datos para su almacenamiento y recuperación. Para obtener más información sobre las opciones de fragmentación de datos en Bases de conocimiento de Amazon Bedrock, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).

**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.

En el Consola de administración de AWS , usted elige la estrategia de fragmentación al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un [ChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ChunkingConfiguration.html)en el `chunkingConfiguration` campo de. [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)

**nota**  
Si omite esta configuración, Amazon Bedrock divide el contenido en fragmentos de aproximadamente 300 tokens, preservando los límites de las oraciones.

Amplíe la sección correspondiente a la estrategia de análisis que desea utilizar:

### Sin fragmentación
<a name="w2aac28c10c23c15c17c13c13b1"></a>

Para tratar cada documento del origen de datos como un fragmento de origen único, especifique `NONE` en el campo `chunkingStrategy` de `ChunkingConfiguration`, como en el siguiente formato:

```
{
    "chunkingStrategy": "NONE"
}
```

### Fragmentación de tamaño fijo
<a name="w2aac28c10c23c15c17c13c13b3"></a>

Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique `FIXED_SIZE` en el `chunkingStrategy` campo `ChunkingConfiguration` e incluya una [FixedSizeChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_FixedSizeChunkingConfiguration.html)en el `fixedSizeChunkingConfiguration` campo, con el siguiente formato:

```
{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}
```

### Fragmentación jerárquica
<a name="w2aac28c10c23c15c17c13c13b5"></a>

Para dividir cada documento del origen de datos en dos niveles, donde la segunda capa contenga fragmentos más pequeños obtenidos de la primera capa, especifique `HIERARCHICAL` en el campo `chunkingStrategy` de `ChunkingConfiguration` e incluya el campo `hierarchicalChunkingConfiguration`, como en el siguiente formato:

```
{
    "chunkingStrategy": "HIERARCHICAL",
    "hierarchicalChunkingConfiguration": {
        "levelConfigurations": [{
            "maxTokens": number
        }],
        "overlapTokens": number
    }
}
```

### Fragmentación semántica
<a name="w2aac28c10c23c15c17c13c13b7"></a>

Para dividir cada documento del origen de datos en fragmentos que prioricen el significado semántico sobre la estructura sintáctica, especifique `SEMANTIC` en el campo `chunkingStrategy` de `ChunkingConfiguration` e incluya el campo `semanticChunkingConfiguration`, como en el siguiente formato:

```
{
    "chunkingStrategy": "SEMANTIC",
    "semanticChunkingConfiguration": {
        "breakpointPercentileThreshold": number,
        "bufferSize": number,
        "maxTokens": number
    }
}
```

## Uso de una función de Lambda durante la ingesta
<a name="kb-data-source-customize-lambda"></a>

Puede posprocesar la forma en que se escriben los fragmentos de origen de sus datos en el almacén de vectores con una función de Lambda de las siguientes maneras:
+ Incluya una lógica de fragmentación para proporcionar una estrategia de fragmentación personalizada.
+ Incluya la lógica para especificar los metadatos de nivel de fragmento.

Para obtener información acerca de cómo escribir una función de Lambda personalizada para ingesta, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md). En el Consola de administración de AWS , elige la función Lambda al conectarse a una fuente de datos. Con la API de Amazon Bedrock, debe incluir un [CustomTransformationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CustomTransformationConfiguration.html)en el `CustomTransformationConfiguration` campo [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)y especificar el ARN de la Lambda, con el siguiente formato:

```
{
    "transformations": [{
        "transformationFunction": {
            "transformationLambdaConfiguration": {
                "lambdaArn": "string"
            }
        },
        "stepToApply": "POST_CHUNKING"
    }],
    "intermediateStorage": {
        "s3Location": {
            "uri": "string"
        }
    }
}
```

También debe especificar la ubicación de S3 en la que se almacenará la salida después de aplicar la función de Lambda.

Puede incluir el campo `chunkingConfiguration` para aplicar la función de Lambda después de aplicar una de las opciones de fragmentación que ofrece Amazon Bedrock.

# Configuraciones de seguridad para la base de conocimientos
<a name="kb-create-security"></a>

Después de crear una base de conocimientos, es posible que tenga que configurar los siguientes ajustes de seguridad:

**Topics**
+ [Configuración de políticas de acceso a datos para la base de conocimientos](#kb-create-security-data)
+ [Configure políticas de acceso a la red para su base de conocimiento de Amazon OpenSearch Serverless](#kb-create-security-network)

## Configuración de políticas de acceso a datos para la base de conocimientos
<a name="kb-create-security-data"></a>

Si utiliza un [rol personalizado](kb-permissions.md), establezca las configuraciones de seguridad para la base de conocimientos recién creada. Si permite que Amazon Bedrock cree un rol de servicio para usted, puede omitir este paso. Siga los pasos de la pestaña correspondiente a la base de datos que configuró.

------
#### [ Amazon OpenSearch Serverless ]

Para restringir el acceso a la colección Amazon OpenSearch Serverless a la función de servicio de la base de conocimientos, cree una política de acceso a los datos. Puede hacerlo de las siguientes maneras:
+ Usa la consola de Amazon OpenSearch Service siguiendo los pasos que se indican en [Creación de políticas de acceso a datos (consola)](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-data-access.html#serverless-data-access-console) en la Guía para desarrolladores de Amazon OpenSearch Service.
+ Usa la AWS API enviando una [CreateAccessPolicy](https://docs.aws.amazon.com/opensearch-service/latest/ServerlessAPIReference/API_CreateAccessPolicy.html)solicitud con un [punto final OpenSearch sin servidor](https://docs.aws.amazon.com/general/latest/gr/opensearch-service.html#opensearch-service-regions). Para ver un AWS CLI ejemplo, consulte [Creación de políticas de acceso a datos (AWS CLI).](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-data-access.html#serverless-data-access-cli)

Utilice la siguiente política de acceso a datos, especificando la recopilación de Amazon OpenSearch Serverless y su función de servicio:

```
[
    {
        "Description": "${data access policy description}",
        "Rules": [
          {
            "Resource": [
              "index/${collection_name}/*"
            ],
            "Permission": [
                "aoss:DescribeIndex",
                "aoss:ReadDocument",
                "aoss:WriteDocument"
            ],
            "ResourceType": "index"
          }
        ],
        "Principal": [
            "arn:aws:iam::${account-id}:role/${kb-service-role}"
        ]
    }
]
```

------
#### [ Piña, Redis Enterprise Cloud or MongoDB Atlas ]

Para integrar un Pinecone índice vectorial de MongoDB Atlas, adjunte la siguiente política basada en la identidad a su rol de servicio de la base de conocimientos para permitirle acceder al secreto AWS Secrets Manager del índice vectorial. Redis Enterprise Cloud

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "bedrock:AssociateThirdPartyKnowledgeBase"
        ],
        "Resource": "*",
        "Condition": {
            "StringEquals": {
                "bedrock:ThirdPartyKnowledgeBaseCredentialsSecretArn": "arn:aws:secretsmanager:us-east-1:123456789012:secret:${secret-id}"
            }
        }
    }]
}
```

------

------

## Configure políticas de acceso a la red para su base de conocimiento de Amazon OpenSearch Serverless
<a name="kb-create-security-network"></a>

Si utiliza una colección privada de Amazon OpenSearch Serverless para su base de conocimientos, solo podrá acceder a ella a través de un punto de enlace de AWS PrivateLink VPC. Puede crear una colección privada de Amazon OpenSearch Serverless al [configurar su colección vectorial de Amazon OpenSearch Serverless o puede hacer que una colección](knowledge-base-setup.md) Amazon OpenSearch Serverless existente (incluida una que la consola de Amazon Bedrock haya creado para usted) sea privada al configurar su política de acceso a la red.

Los siguientes recursos de la Guía para desarrolladores de Amazon OpenSearch Service le ayudarán a comprender la configuración necesaria para las colecciones privadas de Amazon OpenSearch Serverless:
+ Para obtener más información sobre cómo configurar un punto de enlace de VPC para una colección privada de Amazon OpenSearch Serverless, consulte Acceder a [Amazon OpenSearch Serverless mediante un punto de enlace de interfaz](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-vpc.html) (). AWS PrivateLink
+ Para obtener más información sobre las políticas de acceso a la red en Amazon OpenSearch Serverless, consulte [Acceso a la red para Amazon OpenSearch Serverless](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-network.html).

Para permitir que una base de conocimiento de Amazon Bedrock acceda a una colección privada de Amazon OpenSearch Serverless, debe editar la política de acceso a la red de la colección Amazon OpenSearch Serverless para permitir que Amazon Bedrock sea un servicio de origen. Elija la pestaña del método que prefiera y siga estos pasos:

------
#### [ Console ]

1. Abre la consola OpenSearch de Amazon Service en [https://console.aws.amazon.com/aos/](https://console.aws.amazon.com/aos/).

1. En el panel de navegación de la izquierda, seleccione **Colecciones**. A continuación, elija su colección.

1. En la sección **Red**, seleccione **Política asociada**.

1. Elija **Edit (Edición de)**.

1. Para **Seleccionar método de definición de política**, realice una de las siguientes acciones:
   + Deje **Seleccionar método de definición de política** como **Editor visual** y configure los siguientes ajustes en la sección **Regla 1**:

     1. (Opcional) En el campo **Nombre de la regla**, introduzca un nombre para la regla de acceso a la red.

     1. En **Obtener acceso a las colecciones desde**, seleccione **Privado (recomendado)**.

     1. Seleccione **Acceso privado a los servicios de AWS**. Escriba **bedrock.amazonaws.com** en el cuadro de texto.

     1. Anule la selección de **Habilitar el acceso a los OpenSearch paneles de control**.
   + Elija **JSON** y pegue la siguiente política en el **Editor JSON**.

     ```
     [
         {                                        
             "AllowFromPublic": false,
             "Description":"${network access policy description}",
             "Rules":[
                 {
                     "ResourceType": "collection",
                     "Resource":[
                         "collection/${collection-id}"
                     ]
                 }
             ],
             "SourceServices":[
                 "bedrock.amazonaws.com"
             ]
         }
     ]
     ```

1. Elija **Actualizar**.

------
#### [ API ]

Para editar la política de acceso a la red de su colección de Amazon OpenSearch Serverless, haga lo siguiente:

1. Envíe una [GetSecurityPolicy](https://docs.aws.amazon.com/opensearch-service/latest/ServerlessAPIReference/API_GetSecurityPolicy.html)solicitud con un punto final [OpenSearch sin servidor](https://docs.aws.amazon.com/general/latest/gr/opensearch-service.html#opensearch-service-regions). Especifique el `name` de la política y el `type` como `network`. Tenga en cuenta los `policyVersion` en la respuesta.

1. Envíe una [UpdateSecurityPolicy](https://docs.aws.amazon.com/opensearch-service/latest/ServerlessAPIReference/API_UpdateSecurityPolicy.html)solicitud con un punto final [OpenSearch sin servidor](https://docs.aws.amazon.com/general/latest/gr/opensearch-service.html#opensearch-service-regions). Debe especificar al menos los siguientes campos:  
****    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/kb-create-security.html)

   ```
   [
       {                                        
           "AllowFromPublic": false,
           "Description":"${network access policy description}",
           "Rules":[
               {
                   "ResourceType": "collection",
                   "Resource":[
                       "collection/${collection-id}"
                   ]
               }
           ],
           "SourceServices":[
               "bedrock.amazonaws.com"
           ]
       }
   ]
   ```

Para ver un AWS CLI ejemplo, consulte [Creación de políticas de acceso a datos (AWS CLI).](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-data-access.html#serverless-data-access-cli)

------
+ Usa la consola de Amazon OpenSearch Service siguiendo los pasos que se indican en [Creación de políticas de red (consola)](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/serverless-network.html#serverless-network-console). En lugar de crear una política de red, tome nota de la **política asociada** de la subsección **Red** en los detalles de la colección.