Apportez votre propre orchestrateur pour des évaluations agentiques en plusieurs étapes

Apprentissage par renforcement

Note

Une documentation détaillée est fournie une fois que vous êtes abonné

Nova Forge fournit des capacités avancées d'apprentissage par renforcement avec la possibilité d'utiliser des fonctions de récompense à distance dans votre propre environnement. Les clients peuvent choisir d'intégrer leur propre point de terminaison pour exécuter la validation afin d'obtenir des commentaires immédiats dans le monde réel, ou même d'utiliser leur propre orchestrateur pour coordonner les évaluations agentiques en plusieurs étapes dans votre environnement.

Apportez votre propre orchestrateur pour des évaluations agentiques en plusieurs étapes

Pour les utilisateurs de Forge qui ont besoin de conversations à plusieurs tours ou de fonctions de récompense dépassant les 15 minutes, Nova Forge propose des fonctionnalités BYOO (Bring Your Own Orchestration). Cela vous permet de coordonner des évaluations agentiques à plusieurs tours dans votre environnement (par exemple, en utilisant des outils de chimie pour évaluer les conceptions moléculaires, ou des simulations robotiques qui récompensent l'exécution efficace des tâches et pénalisent les collisions).

Présentation de l’architecture

L'architecture BYOO fournit un contrôle total sur le processus de déploiement et de génération grâce à une infrastructure gérée par le client.

VPC d'entraînement :

Déploiement : coordonne la formation en déléguant la génération du déploiement à l'infrastructure du client
Trainer : effectue des mises à jour du poids des modèles en fonction des déploiements reçus

VPC client (tel qu'ECS sur EC2) :

Proxy Lambda : reçoit les demandes de déploiement et assure la coordination avec l'infrastructure du client
Réponse au déploiement SQS : file d'attente pour le renvoi des déploiements terminés vers l'infrastructure de formation
Generate Request SQS : file d'attente pour les demandes de génération de modèles
Generate Response SQS : file d'attente pour les réponses de génération de modèles
Conteneur client : implémente une logique d'orchestration personnalisée (peut utiliser le kit de démarrage fourni)
DynamoDB : stocke et récupère l'état tout au long du processus d'orchestration

Flux de travail :

Le déploiement délègue la génération du déploiement à Proxy Lambda
Proxy Lambda envoie une demande d'API de déploiement pour générer une requête SQS
Le conteneur client traite les demandes, gère les interactions à plusieurs tours et appelle les fonctions de récompense
Le conteneur stocke et extrait l'état de DynamoDB selon les besoins
Container transmet les réponses de déploiement à Rollout Response SQS
Rollout envoie les déploiements terminés à Trainer pour qu'il mette à jour le poids

Configuration et exécution

Pour des instructions de configuration détaillées, des configurations de recettes, des formats de demande et de réponse, ainsi que des exemples d'environnement, reportez-vous à la documentation confidentielle fournie aux abonnés de Nova Forge. Pour obtenir les documents de Nova Forge, suivez les étapes ci-dessous :


aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

Une fois les ressources téléchargées, vous pouvez trouver toute la documentation dans le docs dossier.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mixage des données sur les tâches SageMaker de formation

Boîte à outils pour une IA responsable