View a markdown version of this page

Integración de Web Crawler - Amazon Quick

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Integración de Web Crawler

Con la integración de Web Crawler en Amazon Quick, puede crear bases de conocimiento a partir del contenido del sitio web rastreando e indexando páginas web. Esta integración admite las capacidades de ingesta de datos con diferentes opciones de autenticación.

Capacidades de Web Crawler

Los usuarios de Web Crawler pueden hacer preguntas sobre el contenido almacenado en sitios web y páginas web. Por ejemplo, los usuarios pueden buscar sitios de documentación, bases de conocimiento o información específica en varias páginas web.

La integración ayuda a los usuarios a acceder y comprender el contenido web, independientemente de su ubicación o tipo. Proporciona detalles contextuales, como las fechas de publicación, el historial de modificaciones y la propiedad de la página, para descubrir la información de forma más eficiente.

nota

La integración de Web Crawler solo admite la ingesta de datos. No proporciona funciones de acción para administrar sitios web o servicios web.

Requisitos previos

Antes de configurar la integración de Web Crawler, asegúrese de disponer de lo siguiente:

  • URL de sitios web para rastrear e indexar.

  • Una suscripción a Amazon Quick Enterprise.

  • Un sitio web que no esté protegido por un firewall y que no requiera complementos de navegador especiales para conectarse.

Prepare el acceso y la autenticación del sitio web

Antes de configurar la integración en Amazon Quick, prepare las credenciales de acceso a su sitio web. La integración de Web Crawler admite diferentes métodos de autenticación:

Sin autenticación

Se utiliza para rastrear sitios web que no requieren autenticación.

Autenticación básica

Autenticación básica HTTP estándar para sitios web seguros. Cuando visita un sitio protegido, el navegador muestra un cuadro de diálogo en el que se le solicitan sus credenciales.

Credenciales requeridas:

  • URL de la página de inicio de sesión: la URL de la página de inicio de sesión

  • Nombre de usuario: nombre de usuario de autenticación básico

  • Contraseña: contraseña de autenticación básica

Autenticación de formulario

Para sitios web que utilizan páginas de inicio de sesión basadas en formularios HTML. Las expresiones de XPath se especifican para identificar los campos del formulario en la página de inicio de sesión.

XPath (lenguaje de rutas XML) es un lenguaje de consulta para navegar por los elementos de un documento HTML o XML. Para buscar un XPath para un elemento de una página web, haga clic con el botón derecho en el elemento en el navegador y seleccione Inspeccionar. En las herramientas para desarrolladores, haga clic con el botón derecho en el código HTML resaltado, seleccione Copiar y, a continuación, elija Copiar XPath.

Información requerida:

  • URL de la página de inicio de sesión: URL del formulario de inicio de sesión (por ejemplo,https://example.com/login)

  • Nombre de usuario: nombre de usuario de inicio

  • Contraseña: contraseña de inicio de sesión

  • Campo de nombre de usuario XPath: campo de entrada de XPath al nombre de usuario (por ejemplo,) //input[@id='username']

  • Botón de nombre de usuario XPath (opcional): campo de botón XPath a nombre de usuario (por ejemplo,) //input[@id='username_button']

  • Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,) //input[@id='password']

  • Botón de contraseña XPath: botón XPath a contraseña (por ejemplo,) //button[@type='password']

Autenticación SAML

Para sitios web que utilizan la autenticación de inicio de sesión SAML-based único (SSO).

La autenticación SAML (lenguaje de marcado de aserciones de seguridad) es un estándar de identidad federado que permite el SSO. Los usuarios se autentican a través de un proveedor de identidad centralizado (como Microsoft Azure AD u Okta) en lugar de introducir las credenciales directamente en cada aplicación. El proveedor de identidad devuelve un token seguro a la aplicación para conceder el acceso.

Información requerida:

  • URL de la página de inicio de sesión: URL de la página de inicio de sesión de SAML

  • Nombre de usuario: nombre de usuario de SAML

  • Contraseña: contraseña SAML

  • Campo de nombre de usuario XPath: campo de entrada de XPath al nombre de usuario (por ejemplo,) //input[@id='username']

  • Botón de nombre de usuario XPath (opcional): campo de botón XPath a nombre de usuario (por ejemplo,) //input[@id='username_button']

  • Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,) //input[@id='password']

  • Botón de contraseña XPath: botón XPath a contraseña (por ejemplo,) //button[@type='password']

Ejemplos de configuración de XPath

Utilice estos ejemplos de XPath para configurar la autenticación de formularios y SAML:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Configure la integración de Web Crawler

Tras preparar los requisitos de acceso a su sitio web, cree la integración de Web Crawler en Amazon Quick.

  1. En la consola Amazon Quick, selecciona Knowledge.

  2. Busque Web Crawler y elija el icono Añadir (+).

  3. Selecciona Acceder a los datos desde Web Crawler. La integración de Web Crawler solo permite el acceso a los datos; la ejecución de acciones no está disponible para el rastreo web.

  4. Configure los detalles de la integración y el método de autenticación y, a continuación, cree bases de conocimiento según sea necesario.

    1. Elija el tipo de autenticación para la integración de su rastreador web.

    2. Introduzca los detalles necesarios en función del método de autenticación que haya elegido.

    3. (Opcional) Elija una conexión de VPC para rastrear los sitios alojados en su red privada. La conexión de VPC debe configurarse en los ajustes de administración para poder elegirla aquí. Para obtener más información, consulte Configuración de una VPC para usarla con Amazon Quick.

      nota

      No puedes cambiar la conexión de la VPC una vez creada la integración. Para usar una conexión de VPC diferente, cree una nueva integración.

    4. Seleccione Crear y continuar.

    5. Introduzca el nombre y la descripción de su base de conocimientos.

    6. Añada las direcciones URL del contenido que desee rastrear.

    7. Seleccione Crear.

Tras seleccionar Crear, la sincronización de datos se iniciará automáticamente.

Configura el rastreo

Puede configurar qué sitios web y páginas rastrear y cómo filtrar el contenido.

Configura las direcciones URL y las fuentes de contenido

Configura los sitios web y las páginas que deseas rastrear:

URL directas

Especifique las URL individuales que desee rastrear:

https://example.com/docs https://example.com/blog https://example.com/support

Límite: máximo 10 URL por conjunto de datos

Filtros de contenido y configuración de rastreo

Configuración del ámbito de rastreo

Para ver esta configuración, primero debe configurar una base de conocimientos y, a continuación, examinar la opción de configuración avanzada.

Profundidad de rastreo
  • Rango: 0-10 (predeterminado: 1)

  • 0 = rastrea solo las URL especificadas

  • 1 = incluye páginas enlazadas con un nivel de profundidad

  • Los valores más altos hacen que los enlaces se adentren más profundamente en el sitio

Número máximo de enlaces por página
  • Predeterminado: 1000

  • Máximo: 1000

  • Controla el número de enlaces que se deben seguir desde cada página

Tiempo de espera
  • Valor predeterminado: 1

  • El tiempo (en segundos) que el rastreador web espera a cada página una vez que la página esté lista. Aumente este valor para las páginas con JavaScript contenido dinámico que se cargue después de la plantilla principal.

Gestione las bases de conocimiento

Tras configurar la integración del rastreador web, puede crear y gestionar bases de conocimiento a partir del contenido del sitio web rastreado.

Edite las bases de conocimiento existentes

Puede modificar sus bases de conocimiento de Web Crawler existentes:

  1. En la consola Amazon Quick, selecciona Bases de conocimiento.

  2. Elija la base de conocimientos de Web Crawler de la lista.

  3. Selecciona el icono de tres puntos en Acciones y, a continuación, selecciona Editar base de conocimientos.

  4. Actualice los ajustes de configuración según sea necesario y seleccione Guardar.

Rastreo de archivos adjuntos y archivos

Controle si el sistema procesa los archivos y adjuntos enlazados desde páginas web:

  • Habilitar el rastreo de archivos adjuntos: seleccione esta opción para rastrear e indexar los archivos y adjuntos que se encuentran en páginas web, como archivos PDF, documentos y archivos multimedia.

Comportamiento de rastreo y configuración de sincronización

La integración de Web Crawler sigue estas prácticas de rastreo:

  • Modelo de sincronización incremental: la primera sincronización realiza un rastreo completo. Las sincronizaciones posteriores solo capturan los cambios.

  • Reintento automático: lógica de Built-in reintento para las solicitudes fallidas.

  • Gestión de duplicados: detección y deduplicación automáticas de las URL.

  • Identificación del rastreador: <UUID>se identifica con la cadena de agente de usuario «aws-quick-on-behalf-of-» en los encabezados de las solicitudes.

Descubrimiento de un mapa

Web Crawler comprueba automáticamente los mapas de sitio añadiendo rutas de mapa de sitio comunes a las URL iniciales. No es necesario que proporciones las URL de los mapas del sitio por separado. Están marcadas las siguientes rutas:

sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml

Por ejemplo, si tu URL inicial eshttps://example.com/docs, el rastreador la busca https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, y así sucesivamente.

nota

Web Crawler no sigue las referencias recursivas a los índices de los mapas del sitio. Solo se utilizan las URL que aparecen directamente en un mapa del sitio descubierto. Las directivas de mapas de sitio de robots.txt no se utilizan para la detección de mapas de sitio.

Conformidad de Robots.txt

Web Crawler respeta el protocolo robots.txt y respeta las directivas y el agente de usuario. allow/disallow Esto le permite controlar la forma en que el rastreador accede a su sitio.

Cómo funciona la comprobación de robots.txt
  • Host-level comprobando: Web Crawler lee los archivos robots.txt en el nivel de host (por ejemplo, por ejemplo). com/robots.txt)

  • Soporte para varios hosts: para los dominios con varios hosts, Web Crawler respeta las reglas de robots para cada host por separado

  • Comportamiento alternativo: si Web Crawler no puede recuperar el archivo robots.txt debido a un bloqueo, a errores de análisis o a tiempos de espera, se comporta como si robots.txt no existiera. En este caso, el rastreador procede a rastrear el sitio.

Campos de robots.txt compatibles

Web Crawler reconoce estos campos de robots.txt (los nombres de los campos no distinguen entre mayúsculas y minúsculas, los valores distinguen entre mayúsculas y minúsculas):

user-agent

Identifica a qué rastreador se aplican las reglas.

allow

Una ruta URL que se puede rastrear.

disallow

Una ruta URL que no se puede rastrear.

crawl-delay

El tiempo (en segundos) de espera entre las solicitudes a tu sitio web.

Soporte para metaetiquetas

Web Crawler admite metaetiquetas de robots a nivel de página que puede utilizar para controlar el uso de sus datos. Puede especificar la configuración a nivel de página incluyendo una metaetiqueta en las páginas HTML o en un encabezado HTTP.

Metaetiquetas compatibles
noindex

No indexe la página. Si no especificas esta regla, es posible que la página esté indexada y apta para aparecer en las experiencias.

nofollow

No sigas los enlaces de esta página. Si no especificas esta regla, Web Crawler puede usar los enlaces de la página para descubrir esas páginas enlazadas.

Puede combinar varios valores mediante una coma (por ejemplo, «noindex, nofollow»).

nota

Para detectar las metaetiquetas, Web Crawler debe acceder a tu página. No bloquee la página con el archivo robots.txt, ya que esto impedirá que se vuelva a rastrear.

Resolución de problemas

Utilice esta sección para resolver problemas habituales relacionados con la integración de Web Crawler.

Errores de autenticación

Síntomas:

  • Mensajes de error que indican que no se puede autenticar

  • 401/403 Respuestas HTTP

  • Bucles de redirección de páginas de inicio

  • Errores de tiempo de espera de la sesión

Pasos de resolución:

  1. Comprueba que se pueda acceder al sitio desde la AWS región en la que está configurada la instancia de Amazon Quick.

  2. Compruebe que sus credenciales son correctas y no han caducado.

  3. Comprueba la disponibilidad y accesibilidad de los terminales de autenticación.

  4. Valide las configuraciones de XPath probándolas en las herramientas para desarrolladores de navegadores.

  5. Revise los registros de red del navegador para comprender el flujo de autenticación.

  6. Asegúrese de que la URL de la página de inicio de sesión sea correcta y accesible.

  7. Pruebe la autenticación manualmente con las mismas credenciales.

Problemas de acceso y conectividad

Síntomas:

  • Tiempos de espera de conexión y errores de red

  • Errores de red inalcanzables

  • Fallos en la resolución de DNS

Pasos de resolución:

  1. Compruebe la conectividad de la red con los sitios web de destino.

  2. Valide la accesibilidad del sitio:

    • Compruebe la resolución de DNS de los dominios de destino.

    • Compruebe SSL/TLS la configuración y los certificados.

    • Si es posible, pruebe el acceso desde diferentes redes.

Resolución de los DNS

El rastreador web utiliza el DNS para convertir los nombres de host de los sitios web (por ejemplowww.example.com) en direcciones IP. De forma predeterminada, utiliza una resolución de DNS pública.

Al rastrear sitios dentro de una VPC, es posible que deba configurar un servidor DNS privado para que el rastreador pueda resolver los nombres de host de los sitios internos. Elija una de las siguientes opciones en función de la configuración de la VPC:

  1. Use el servidor VPC-provided DNS: si su VPC tiene habilitados tanto los nombres de host DNS como la resolución de DNS, puede usar el solucionador de DNS de VPC predeterminado (normalmente 10.0.0.2 o, de manera más general, el CIDR base+2 de la VPC). Para obtener más información, consulte VPC.

  2. Usa un servidor DNS personalizado: si tu VPC usa un solucionador de DNS personalizado, proporciona la dirección IP del servidor DNS interno de tu organización. Trabaje con el administrador de la red para obtener esta dirección.

Si no configura un servidor DNS, el rastreador solo resolverá los nombres de host registrados públicamente.

JavaScript-dependent navegación

Síntomas:

  • Solo se indexa la URL inicial, no se descubren páginas adicionales

  • El rastreo se completa correctamente, pero solo devuelve un documento

Pasos de resolución:

  1. Web Crawler ejecuta JavaScript y representa el contenido de la página, pero no simula las interacciones del usuario, como los clics, los desplazamientos o las acciones de desplazamiento del ratón. Si tu sitio carga enlaces de navegación a través de la interacción del usuario (por ejemplo, mediante controladores de clics, desplazamiento infinito o menús dinámicos), el rastreador no podrá detectar esos enlaces.

  2. Inspecciona tu página en las herramientas de desarrollo del navegador para comprobar si los enlaces de navegación utilizan elementos estándar<a href="...">. Si los enlaces se conectan a través de controladores de JavaScript eventos, el rastreador no los seguirá.

  3. Si tu sitio proporciona un mapa del sitio, Web Crawler comprueba automáticamente las rutas de mapa del sitio más comunes en las URL iniciales. Asegúrese de que su mapa del sitio esté disponible en una ubicación estándar (por ejemplo/sitemap.xml) para que el rastreador pueda descubrir otras URL sin tener que recurrir a la extracción de enlaces de la página.

  4. Como alternativa, proporciona todas las URL de las páginas de destino directamente como URL iniciales.

  5. Si el contenido se puede exportar como archivos HTML, PDF o de texto, considere utilizar el conector Amazon S3 como fuente de datos.

Problemas de rastreo y contenido

Síntomas:

  • Contenido faltante o incompleto

  • Rastreos incompletos o finalización anticipada

  • Errores de limitación de velocidad (429 respuestas)

  • El contenido no se indexa correctamente

Pasos de resolución:

  1. Revise las restricciones de robots.txt:

    • Compruebe las restricciones de rastreo en el archivo robots.txt.

    • Compruebe que el rastreador pueda acceder a las rutas de destino.

    • Asegúrese de que el cumplimiento de robots.txt no bloquee el contenido.

  2. Comprueba la limitación y la regulación de la velocidad:

    • Supervisa los encabezados de respuesta para obtener información sobre los límites de velocidad.

    • Implemente los retrasos de rastreo adecuados.

  3. Verifica los patrones y filtros de URL:

    • Pruebe los patrones de expresiones regulares para comprobar su precisión.

    • Comprueba el formato y la estructura de las URL.

    • Valide la lógica de los include/exclude patrones.

  4. Revisa las restricciones de contenido:

    • Comprueba si hay metaetiquetas noindex en las páginas.

    • Verifica la compatibilidad con los tipos de contenido.

    • Asegúrese de que el tamaño del contenido esté dentro de los límites.

  5. Actualice el tiempo de espera para que el contenido se cargue en la página antes de que el rastreador comience a rastrearlo.

Limitaciones conocidas

La integración de Web Crawler tiene las siguientes limitaciones:

  • Límites de URL: máximo 10 URL iniciales por conjunto de datos. No puedes proporcionar las URL del mapa del sitio en el campo URL inicial.

  • Profundidad de rastreo: profundidad de rastreo máxima de 10 niveles

  • Requisitos de seguridad: se requiere HTTPS para las configuraciones de proxy web

Cuando se utiliza el Web Crawler con una conexión de VPC, se aplican las siguientes limitaciones:

  • Sin soporte HTTP/3 (QUIC): no HTTP/3 es compatible. La mayoría de los sitios volverán a funcionar HTTP/2 automáticamente, pero no se podrá acceder a los sitios configurados HTTP/3 únicamente para ello.

  • Se requiere DNS a través de TCP: la resolución de DNS debe usar TCP. Compruebe que su servidor DNS admite DNS a través de TCP antes de configurar el rastreo de VPC.

  • Se requieren certificados SSL de confianza pública: los sitios internos deben usar un certificado de una entidad de certificación conocida (por ejemplo, Let's Encrypt o). DigiCert Los sitios que utilizan certificados de CA privados o autofirmados no se conectarán.

  • Solo IPv4: solo se admiten direcciones IPv4. Los sitios a los que se puede acceder exclusivamente a través de IPv6 no se pueden rastrear.