View a markdown version of this page

強化學習 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

強化學習

注意

訂閱後會提供詳細文件

Nova Forge 提供進階強化學習功能,可讓您在自己的環境中使用遠端獎勵函數。客戶可以選擇整合自己的端點來執行即時真實世界意見回饋的驗證,甚至使用自己的協調器來協調環境中的代理多迴轉評估。

使用您自己的協調器進行代理多迴轉評估

對於需要多轉對話或獎勵函數超過 15 分鐘逾時的 Forge 使用者,Nova Forge 提供自攜協調 (BYOO) 功能。這可讓您協調環境中的代理程式多迴轉評估 (例如,使用化學工具來評分分子設計,或獎勵有效任務完成和懲罰衝突的機器人模擬)。

架構概觀

BYOO 架構透過客戶管理的基礎設施,提供推展和產生程序的完整控制權。

訓練 VPC:

  • 推展:透過將推展產生委派給客戶基礎設施來協調訓練

  • 培訓人員:根據收到的推展執行模型權重更新

客戶 VPC (例如 EC2 上的 ECS):

  • Proxy Lambda:接收推展請求並與客戶基礎設施協調

  • 推展回應 SQS:將已完成推展傳回至訓練基礎設施的佇列

  • 產生請求 SQS:模型產生請求的佇列

  • 產生回應 SQS:模型產生回應的佇列

  • 客戶容器:實作自訂協同運作邏輯 (可以使用提供的入門套件)

  • DynamoDB:儲存和擷取整個協同運作程序的狀態

工作流程:

  1. 推展會將推展產生委派給 Proxy Lambda

  2. Proxy Lambda 推送推展 API 請求以產生請求 SQS

  3. 客戶容器處理請求、管理多迴轉互動,以及呼叫獎勵函數

  4. 容器會視需要從 DynamoDB 存放和擷取狀態

  5. 容器會將推展回應推送至推展回應 SQS

  6. 推展會將完成的推展傳送給訓練人員以進行權重更新

設定和執行

如需詳細的設定指示、配方組態、請求和回應格式,以及環境範例,請參閱提供給 Nova Forge 訂閱者的機密文件。若要取得 Nova Forge 文件,請遵循下列步驟:

aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

下載資產後,您可以在 docs 資料夾下找到所有文件。