本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
強化學習
注意
訂閱後會提供詳細文件
Nova Forge 提供進階強化學習功能,可讓您在自己的環境中使用遠端獎勵函數。客戶可以選擇整合自己的端點來執行即時真實世界意見回饋的驗證,甚至使用自己的協調器來協調環境中的代理多迴轉評估。
使用您自己的協調器進行代理多迴轉評估
對於需要多轉對話或獎勵函數超過 15 分鐘逾時的 Forge 使用者,Nova Forge 提供自攜協調 (BYOO) 功能。這可讓您協調環境中的代理程式多迴轉評估 (例如,使用化學工具來評分分子設計,或獎勵有效任務完成和懲罰衝突的機器人模擬)。
架構概觀
BYOO 架構透過客戶管理的基礎設施,提供推展和產生程序的完整控制權。
訓練 VPC:
-
推展:透過將推展產生委派給客戶基礎設施來協調訓練
-
培訓人員:根據收到的推展執行模型權重更新
客戶 VPC (例如 EC2 上的 ECS):
-
Proxy Lambda:接收推展請求並與客戶基礎設施協調
-
推展回應 SQS:將已完成推展傳回至訓練基礎設施的佇列
-
產生請求 SQS:模型產生請求的佇列
-
產生回應 SQS:模型產生回應的佇列
-
客戶容器:實作自訂協同運作邏輯 (可以使用提供的入門套件)
-
DynamoDB:儲存和擷取整個協同運作程序的狀態
工作流程:
-
推展會將推展產生委派給 Proxy Lambda
-
Proxy Lambda 推送推展 API 請求以產生請求 SQS
-
客戶容器處理請求、管理多迴轉互動,以及呼叫獎勵函數
-
容器會視需要從 DynamoDB 存放和擷取狀態
-
容器會將推展回應推送至推展回應 SQS
-
推展會將完成的推展傳送給訓練人員以進行權重更新
設定和執行
如需詳細的設定指示、配方組態、請求和回應格式,以及環境範例,請參閱提供給 Nova Forge 訂閱者的機密文件。若要取得 Nova Forge 文件,請遵循下列步驟:
aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive
下載資產後,您可以在 docs 資料夾下找到所有文件。