Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Apprentissage par renforcement
Note
Une documentation détaillée est fournie une fois que vous êtes abonné
Nova Forge fournit des capacités avancées d'apprentissage par renforcement avec la possibilité d'utiliser des fonctions de récompense à distance dans votre propre environnement. Les clients peuvent choisir d'intégrer leur propre point de terminaison pour exécuter la validation afin d'obtenir des commentaires immédiats dans le monde réel, ou même d'utiliser leur propre orchestrateur pour coordonner les évaluations agentiques en plusieurs étapes dans votre environnement.
Apportez votre propre orchestrateur pour des évaluations agentiques en plusieurs étapes
Pour les utilisateurs de Forge qui ont besoin de conversations à plusieurs tours ou de fonctions de récompense dépassant les 15 minutes, Nova Forge propose des fonctionnalités BYOO (Bring Your Own Orchestration). Cela vous permet de coordonner des évaluations agentiques à plusieurs tours dans votre environnement (par exemple, en utilisant des outils de chimie pour évaluer les conceptions moléculaires, ou des simulations robotiques qui récompensent l'exécution efficace des tâches et pénalisent les collisions).
Présentation de l’architecture
L'architecture BYOO fournit un contrôle total sur le processus de déploiement et de génération grâce à une infrastructure gérée par le client.
VPC d'entraînement :
-
Déploiement : coordonne la formation en déléguant la génération du déploiement à l'infrastructure du client
-
Trainer : effectue des mises à jour du poids des modèles en fonction des déploiements reçus
VPC client (tel qu'ECS sur EC2) :
-
Proxy Lambda : reçoit les demandes de déploiement et assure la coordination avec l'infrastructure du client
-
Réponse au déploiement SQS : file d'attente pour le renvoi des déploiements terminés vers l'infrastructure de formation
-
Generate Request SQS : file d'attente pour les demandes de génération de modèles
-
Generate Response SQS : file d'attente pour les réponses de génération de modèles
-
Conteneur client : implémente une logique d'orchestration personnalisée (peut utiliser le kit de démarrage fourni)
-
DynamoDB : stocke et récupère l'état tout au long du processus d'orchestration
Flux de travail :
-
Le déploiement délègue la génération du déploiement à Proxy Lambda
-
Proxy Lambda envoie une demande d'API de déploiement pour générer une requête SQS
-
Le conteneur client traite les demandes, gère les interactions à plusieurs tours et appelle les fonctions de récompense
-
Le conteneur stocke et extrait l'état de DynamoDB selon les besoins
-
Container transmet les réponses de déploiement à Rollout Response SQS
-
Rollout envoie les déploiements terminés à Trainer pour qu'il mette à jour le poids
Configuration et exécution
Pour des instructions de configuration détaillées, des configurations de recettes, des formats de demande et de réponse, ainsi que des exemples d'environnement, reportez-vous à la documentation confidentielle fournie aux abonnés de Nova Forge. Pour obtenir les documents de Nova Forge, suivez les étapes ci-dessous :
aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive
Une fois les ressources téléchargées, vous pouvez trouver toute la documentation dans le docs dossier.