Aprendizagem por reforço
nota
A documentação detalhada é fornecida após a inscrição
O Nova Forge fornece recursos avançados de aprendizado por reforço com a opção de usar funções remotas de recompensa em seu próprio ambiente. Os clientes podem optar por integrar seu próprio endpoint para executar a validação e obter feedback imediato no mundo real, ou também podem usar seu próprio orquestrador para coordenar avaliações agênticas de vários turnos em seu ambiente.
Traga seu próprio orquestrador para avaliações agênticas em vários turnos
Para usuários do Forge que precisam de conversas em vários turnos ou funções de recompensa que excedam o tempo limite de 15 minutos, o Nova Forge fornece recursos de traga sua própria orquestração (BYOO). Isso permite que você coordene avaliações agênticas de vários turnos em seu ambiente (por exemplo, usando ferramentas químicas para pontuar projetos moleculares ou simulações robóticas que recompensam a conclusão eficiente de tarefas e penalizam as colisões).
Visão geral da arquitetura
A arquitetura BYOO fornece controle total sobre o processo de distribuição e geração por meio da infraestrutura gerenciada pelo cliente.
Treinamento da VPC:
-
Rollout: coordena o treinamento delegando a geração de distribuição à infraestrutura do cliente
-
Trainer: realiza atualizações de peso do modelo com base nas distribuições recebidas
VPC do cliente (como ECS no EC2):
-
Proxy Lambda: recebe solicitações de implantação e coordena com a infraestrutura do cliente
-
Rollout Response SQS: enfileira para devolver distribuições concluídas à infraestrutura de treinamento
-
Generate Request SQS: enfileira para solicitações de geração de modelo
-
Generate Response SQS: enfileira para respostas de geração de modelos
-
Contêiner do cliente: implementa a lógica de orquestração personalizada (pode usar o kit inicial fornecido)
-
DynamoDB: armazena e recupera o estado em todo o processo de orquestração
Fluxo de trabalho:
-
O Rollout delega a geração da distribuição ao Proxy Lambda
-
O Proxy Lambda envia uma solicitação de distribuição da API para o Generate Request SQS
-
O contêiner do cliente processa as solicitações, gerencia as interações em vários turnos e chama funções de recompensa
-
O contêiner armazena e recupera o estado do DynamoDB, conforme necessário
-
O contêiner envia respostas de distribuição para o Rollout Response SQS
-
O Rollout envia distribuições concluídas ao Trainer para atualizações de peso
Configuração e execução
Para obter instruções detalhadas de configuração, configurações de fórmulas, formatos de solicitação e resposta e exemplos de ambiente, consulte a documentação confidencial fornecida aos assinantes do Nova Forge. Para obter os documentos do Nova Forge, siga as etapas abaixo:
aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive
Depois que os ativos forem baixados, você poderá encontrar toda a documentação na pasta docs.