Uso de su propio orquestador para las evaluaciones de los agentes de varios turnos

Aprendizaje por refuerzo

nota

Recibirá la documentación detallada cuando se suscriba.

Nova Forge proporciona capacidades avanzadas de aprendizaje por refuerzo con la opción de utilizar funciones de recompensa remotas en su propio entorno. Los clientes pueden optar por integrar su propio punto de conexión para ejecutar la validación y obtener información real inmediata o, incluso, utilizar su propio orquestador para coordinar las evaluaciones de los agentes de varios turnos en su entorno.

Uso de su propio orquestador para las evaluaciones de los agentes de varios turnos

Para los usuarios de Forge que requieren conversaciones de varios turnos o funciones de recompensa que superen los tiempos de espera de 15 minutos, Nova Forge ofrece la función Uso de su propia orquestación (BYOO). Esto le permite coordinar las evaluaciones de los agentes de varios turnos en su entorno (por ejemplo, con herramientas químicas para puntuar los diseños moleculares o simulaciones robóticas que recompensan la ejecución eficiente de las tareas y penalizan las colisiones).

Información general de la arquitectura

La arquitectura BYOO proporciona un control total sobre el proceso de implementación y generación a través de una infraestructura administrada por el cliente.

VPC de entrenamiento:

Despliegue: coordina el entrenamiento al delegar la generación del despliegue en la infraestructura del cliente.
Entrenador: actualiza el peso del modelo en función de los despliegues recibidos.

VPC del cliente (como ECS en EC2):

Proxy de Lambda: recibe solicitudes de despliegue y se coordina con la infraestructura del cliente.
Despliegue de respuestas de SQS: cola para devolver las implementaciones finalizadas a la infraestructura de entrenamiento.
Generación de solicitudes de SQS: cola para solicitudes de la generación del modelo.
Generación de respuestas de SQS: cola para respuestas de la generación del modelo.
Contenedor del cliente: implementa una lógica de orquestación personalizada (se puede utilizar el kit de inicio proporcionado).
DynamoDB: almacena y recupera el estado a lo largo del proceso de orquestación.

Flujo de trabajo:

El despliegue delega la generación de despliegues al Proxy de Lambda.
El Proxy de Lambda envía la solicitud de la API de despliegue a la Generación de solicitudes de SQS.
El contenedor del cliente procesa las solicitudes, administra las interacciones de varios turnos y llama a las funciones de recompensa.
El contenedor almacena y recupera el estado de DynamoDB según sea necesario.
El contenedor envía las respuestas del despliegue al Despliegue de respuestas de SQS.
El despliegue envía las implementaciones completas al entrenador para que actualice el peso.

Configuración y ejecución

Para obtener instrucciones de configuración detalladas, configuraciones de fórmulas, formatos de solicitud y respuesta y ejemplos de entornos, consulte la documentación confidencial proporcionada a los suscriptores de Nova Forge. Para obtener los documentos de Nova Forge, siga los pasos que se indican a continuación:


aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

Cuando haya descargado los activos, encontrará toda la documentación en la carpeta docs.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Refinamiento supervisado

Kit de herramientas de IA responsable