Rastrea páginas web para tu base de conocimientos de Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Rastrea páginas web para tu base de conocimientos de Amazon Bedrock

El rastreador web proporcionado por Amazon Bedrock se conecta a los rastreadores URLs que ha seleccionado para usarlos en su base de conocimientos de Amazon Bedrock. Puede rastrear las páginas del sitio web de acuerdo con el alcance o los límites que haya establecido para usted. URLs Puedes rastrear las páginas de un sitio web utilizando cualquiera de las dos AWS Consola de administración para Amazon Bedrock o CreateDataSourceAPI(consulte Amazon Bedrock compatible y SDKs AWS CLI).

nota

El rastreo de la web URLs como fuente de datos está en versión preliminar y está sujeto a cambios.

Al seleccionar sitios web para rastrear, debes cumplir con la Política de uso aceptable de Amazon y todos los demás términos de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o páginas web para las que tenga autorización para rastrear.

El Web Crawler respeta el archivo robots.txt de acuerdo con la versión 9309 RFC

Hay límites en cuanto al número de elementos de contenido de una página web y a los MB por elemento de contenido que se pueden rastrear. Consulte Cuotas para ver las bases de conocimiento.

Características admitidas

El rastreador web se conecta a HTML las páginas y las rastrea partiendo de la semillaURL, recorriendo todos los enlaces secundarios situados bajo el mismo dominio principal y la misma ruta. Si alguna de las HTML páginas hace referencia a documentos compatibles, el rastreador web buscará estos documentos, independientemente de si se encuentran dentro del mismo dominio principal principal. Puede modificar el comportamiento de rastreo cambiando la configuración de rastreo; consulte. Configuración de la conexión

Se admite lo siguiente:

  • Selecciona varios URLs para rastrearlos

  • Respeta las directivas estándar de robots.txt, como «Permitir» y «No permitir»

  • Limite el alcance del rastreo y, si URLs lo desea, excluya las URLs que coincidan con un patrón de filtro

  • Limite la velocidad de rastreo URLs

  • Ver el estado de las URLs visitas mientras se rastrea en Amazon CloudWatch

Requisitos previos

Para usar el rastreador web, asegúrate de:.

  • Compruebe que está autorizado a rastrear su fuente. URLs

  • Comprueba que la ruta al archivo robots.txt correspondiente a tu fuente URLs no URLs impida su rastreo. El rastreador web sigue los estándares de robots.txt: de forma disallow predeterminada si no encuentra robots.txt en el sitio web. El Web Crawler respeta robots.txt de acuerdo con la 9309. RFC

  • Compruebe si URL las páginas de origen se generan de JavaScript forma dinámica, ya que actualmente no se admite el rastreo del contenido generado de forma dinámica. Para comprobarlo, introduce lo siguiente en tu navegador: view-source:https://examplesite.com/site/. Si el body elemento contiene solo un div elemento y pocos a href elementos o ninguno, es probable que la página se genere de forma dinámica. Puedes desactivarlo JavaScript en tu navegador, volver a cargar la página web y comprobar si el contenido se muestra correctamente y si contiene enlaces a las páginas web que te interesen.

  • Active la entrega de CloudWatch registros para ver el estado de su trabajo de ingesta de datos al ingerir contenido web y, si algunos URLs no se pueden recuperar.

nota

Al seleccionar sitios web para rastrear, debes cumplir con la Política de uso aceptable de Amazon y todos los demás términos de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o páginas web para las que tenga autorización para rastrear.

Configuración de la conexión

Para obtener más información sobre el alcance de la sincronización del rastreoURLs, los filtros de inclusión/exclusión, el URL acceso, la sincronización incremental y su funcionamiento, selecciona lo siguiente:

Puedes limitar el alcance del URLs rastreo en función de la relación específica URL de cada página con la semilla. URLs Para que los rastreos sean más rápidos, puedes limitarlos URLs a aquellos que tengan el mismo anfitrión y la misma URL ruta inicial que la semilla. URL Para rastreos más amplios, puedes elegir rastrearlos URLs con el mismo anfitrión o dentro de cualquier subdominio de la semilla. URL

Puede elegir entre las siguientes opciones.

  • Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo servidor y con la misma ruta inicial. URL Por ejemplo, si el valor inicial URL es «https://aws.amazon.com/bedrock/», solo se rastreará esta ruta y las páginas web que se extiendan desde ella, como «https://aws.amazon.com/bedrock/agents/». Por ejemplo, no se rastrean hermanos URLs como https://aws.amazon.com/ec2/ «».

  • Solo alojamiento: limite el rastreo a las páginas web que pertenezcan al mismo servidor. Por ejemplo, con una semilla URL de https://aws.amazon.com/bedrock/ ««, también se rastrearán las páginas web con https://aws.amazon.com «», como «https://aws.amazon.com/ec2».

  • Subdominios: incluye el rastreo de cualquier página web que tenga el mismo dominio principal que la raíz. URL Por ejemplo, si el valor inicial URL es «https://aws.amazon.com/bedrock/», se rastreará cualquier página web que contenga el subdominio «amazon.com», como «». https://www.amazon.com

nota

Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño tardará mucho tiempo en rastrearse.

Los tipos de archivos compatibles se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

Puede incluir o excluir algunos de ellos URLs de acuerdo con su ámbito. Los tipos de archivos compatibles se rastrean independientemente del ámbito y si no existe un patrón de exclusión para el tipo de archivo. Si especificas un filtro de inclusión y exclusión y ambos coinciden con unURL, el filtro de exclusión tiene prioridad y el contenido web no se rastrea.

importante

Se rechazan los filtros de patrones de expresiones regulares problemáticos que provocan un retroceso catastrófico y una visión prospectiva catastrófica.

Un ejemplo de patrón de filtro de expresiones regulares para excluir URLs ese extremo con «.pdf» o archivos adjuntos a páginas PDF web: «.*\ .pdf$»

Puede utilizar el rastreador web para rastrear las páginas de los sitios web que está autorizado a rastrear.

Al seleccionar sitios web para rastrear, debes cumplir con la Política de uso aceptable de Amazon y todos los demás términos de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o páginas web para las que tenga autorización para rastrear.

El Web Crawler respeta el archivo robots.txt de acuerdo con la versión 9309 RFC

Cada vez que se ejecuta el Web Crawler, recupera el contenido de todo aquello al URLs que se puede acceder desde la fuente URLs y que coincide con el alcance y los filtros. Para las sincronizaciones incrementales después de la primera sincronización de todo el contenido, Amazon Bedrock actualizará su base de conocimientos con contenido nuevo y modificado y eliminará el contenido antiguo que ya no esté presente. En ocasiones, es posible que el rastreador no sepa si el contenido se ha eliminado del sitio web y, en ese caso, se equivoca al conservar el contenido antiguo en su base de conocimientos.

Para sincronizar la fuente de datos con la base de conocimientos, utilice StartIngestionJobAPIo seleccione la base de conocimientos en la consola y seleccione Sincronizar en la sección de información general de la fuente de datos.

importante

Todos los datos que sincronice desde su fuente de datos estarán disponibles para cualquier persona con bedrock:Retrieve permisos para recuperarlos. Esto también puede incluir cualquier dato con permisos de fuente de datos controlados. Para obtener más información, consulte Permisos de la base de conocimientos.

Console

Los siguientes pasos configuran Web Crawler para su base de conocimiento de Amazon Bedrock. Web Crawler se configura como parte de los pasos de creación de la base de conocimientos en la consola.

  1. Inicie sesión en AWS Management Console utilice un IAMrol con permisos de Amazon Bedrock y abra la consola de Amazon Bedrock en. https://console.aws.amazon.com/bedrock/

  2. En el panel de navegación izquierdo, seleccione Bases de conocimiento.

  3. En la sección Bases de conocimiento, selecciona Crear base de conocimiento.

  4. Proporcione los detalles de la base de conocimientos.

    1. Proporcione el nombre de la base de conocimientos y la descripción opcional.

    2. Proporcione el AWS Identity and Access Management rol para los permisos de acceso necesarios para crear una base de conocimientos.

      nota

      La IAM se puede crear un rol con todos los permisos necesarios como parte de los pasos de la consola para crear una base de conocimientos. Una vez que haya completado los pasos para crear una base de conocimientos, el IAM el rol con todos los permisos necesarios se aplica a su base de conocimientos específica.

    3. Cree las etiquetas que desee asignar a su base de conocimientos.

    Vaya a la siguiente sección para configurar su fuente de datos.

  5. Elija Web Crawler como fuente de datos y proporcione los detalles de configuración.

    (Opcional) Cambie el nombre predeterminado de la fuente de datos e introduzca una descripción.

  6. Indique la fuente URLs de la que URLs desea rastrear. Puedes añadir hasta 9 adicionales URLs seleccionando Añadir fuente URLs. Al proporcionar una fuenteURL, confirmas que estás autorizado a rastrear su dominio.

  7. Comprueba la configuración avanzada. Si lo desea, puede cambiar la configuración seleccionada por defecto.

    En KMS key En su configuración, puede elegir una clave personalizada o utilizar la clave de cifrado de datos proporcionada por defecto.

    Al convertir sus datos en incrustaciones, Amazon Bedrock cifra sus datos transitorios con una clave que AWS posee y administra, de forma predeterminada. Puedes usar tu propia KMS clave. Para obtener más información, consulte Cifrado del almacenamiento de datos transitorios durante la ingesta de datos.

    Para configurar la política de eliminación de datos, puede elegir entre las siguientes opciones:

    • Eliminar: elimina todos los datos de la fuente de datos que se convierten en incrustaciones vectoriales al eliminar una base de conocimientos o un recurso de fuente de datos. Tenga en cuenta que el almacén de vectores en sí no se elimina, solo se eliminan los datos. Este indicador se ignora si un AWS se elimina la cuenta.

    • Conservar: conserva todos los datos de la fuente de datos que se convierten en incrustaciones vectoriales al eliminar una base de conocimientos o un recurso de fuente de datos. Tenga en cuenta que el almacén de vectores en sí no se elimina si elimina una base de conocimientos o un recurso de fuente de datos.

  8. Seleccione una opción según el alcance del rastreo de su fuenteURLs.

    • Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo servidor y con la misma ruta inicialURL. Por ejemplo, si el valor inicial URL es «https://aws.amazon.com/bedrock/», solo se rastreará esta ruta y las páginas web que se extiendan desde ella, como «https://aws.amazon.com/bedrock/agents/». Por ejemplo, no se rastrean hermanos URLs como https://aws.amazon.com/ec2/ «».

    • Solo alojamiento: limite el rastreo a las páginas web que pertenezcan al mismo servidor. Por ejemplo, con una semilla URL de https://aws.amazon.com/bedrock/ ««, también se rastrearán las páginas web con https://aws.amazon.com «», como «https://aws.amazon.com/ec2».

    • Subdominios: incluye el rastreo de cualquier página web que tenga el mismo dominio principal que la raíz. URL Por ejemplo, si el valor inicial URL es «https://aws.amazon.com/bedrock/», se rastreará cualquier página web que contenga el subdominio «amazon.com», como «». https://www.amazon.com

    nota

    Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño tardará mucho tiempo en rastrearse.

    Los tipos de archivos compatibles se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

  9. Introduzca el límite máximo de velocidad de arrastre. Ingiera URLs entre 1 y 300 URLs por anfitrión por minuto. A mayor velocidad de arrastre se incrementa la carga pero se tarda menos tiempo.

  10. Para los patrones de URLexpresiones regulares (opcional), puede añadir patrones de inclusión o exclusión introduciendo el patrón de expresión regular en el cuadro. Puede añadir hasta 25 patrones de filtro de inclusión y 25 de exclusión seleccionando Añadir nuevo patrón. Los patrones de inclusión y exclusión se rastrean de acuerdo con su alcance. Si hay un conflicto, prevalece el patrón de exclusión.

  11. Elija las configuraciones de fragmentación y análisis predeterminadas o personalizadas.

    1. Si elige una configuración personalizada, seleccione una de las siguientes opciones de fragmentación:

      • Fragmentación de tamaño fijo: el contenido se divide en fragmentos de texto del tamaño aproximado que hayas establecido. Puedes establecer el número máximo de fichas que no debe superar un fragmento y el porcentaje de superposición entre fragmentos consecutivos.

      • Fragmentación predeterminada: el contenido se divide en fragmentos de texto de hasta 300 fichas. Si un solo documento o contenido contiene menos de 300 fichas, el documento no se divide más.

      • Fragmentación jerárquica: contenido organizado en estructuras anidadas de fragmentos principales e secundarios. Usted establece el tamaño máximo del token del fragmento principal y el tamaño máximo del token del fragmento secundario. También ha establecido el número absoluto de fichas superpuestas entre los fragmentos principales consecutivos y los fragmentos secundarios consecutivos.

      • Fragmentación semántica: contenido organizado en fragmentos de texto o grupos de oraciones semánticamente similares. Establece el número máximo de oraciones que rodean a la oración objetiva/actual para agruparlas (tamaño del búfer). También estableces el umbral del percentil del punto de interrupción para dividir el texto en fragmentos significativos. La fragmentación semántica utiliza un modelo básico. Vista de Amazon Bedrock precios para obtener información sobre el costo de los modelos básicos.

      • Sin fragmentación: cada documento se trata como un único fragmento de texto. Es posible que desee preprocesar los documentos dividiéndolos en archivos separados.

      nota

      No puede cambiar la estrategia de fragmentación después de haber creado la fuente de datos.

    2. Puede optar por utilizar Amazon Bedrock es el modelo básico para analizar documentos con el fin de analizar más que el texto estándar. Puede analizar los datos tabulares de los documentos con su estructura intacta, por ejemplo. Vista de Amazon Bedrock precios para obtener información sobre el costo de los modelos básicos.

    3. Puede optar por utilizar un AWS Lambda función para personalizar su estrategia de fragmentación y la forma en que se tratan e ingieren los atributos/campos de los metadatos del documento. Proporcione el Amazon S3 ubicación del depósito para la entrada y salida de la función Lambda.

    Vaya a la siguiente sección para configurar su almacén de vectores.

  12. Elige un modelo para convertir tus datos en incrustaciones vectoriales.

    Cree una tienda vectorial para permitir que Amazon Bedrock almacene, actualice y gestione las incrustaciones. Puede crear rápidamente un nuevo almacén vectorial o seleccionar uno de los almacenes vectoriales compatibles que haya creado. Si crea un nuevo almacén de vectores, se configurará automáticamente una colección e índice de búsqueda vectorial de Amazon OpenSearch Serverless con los campos obligatorios. Si selecciona uno de los almacenes vectoriales compatibles, debe mapear los nombres de los campos vectoriales y los nombres de los campos de metadatos.

    Vaya a la siguiente sección para revisar las configuraciones de la base de conocimientos.

  13. Compruebe los detalles de su base de conocimientos. Puede editar cualquier sección antes de continuar con la creación de su base de conocimientos.

    nota

    El tiempo que se tarda en crear la base de conocimientos depende de las configuraciones específicas. Una vez finalizada la creación de la base de conocimientos, el estado de la base de conocimientos cambia al estado de lista o disponible.

    Cuando la base de conocimientos esté lista y disponible, sincronice la fuente de datos por primera vez y siempre que desee mantener el contenido actualizado. Selecciona tu base de conocimientos en la consola y selecciona Sincronizar en la sección de información general sobre la fuente de datos.

CLI

El siguiente es un ejemplo de una configuración de Web Crawler para su base de conocimiento de Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ] } }, "type": "WEB" }