強化学習
注記
詳細なドキュメントは、サブスクライブ後に提供されます。
Nova Forge は、独自の環境でリモート報酬関数を使用するオプションを備えた高度な強化学習機能を提供します。お客様は、独自のエンドポイントを統合して、即時の実世界のフィードバックの検証を実行するか、独自のオーケストレーターを使用して自らの環境でエージェントのマルチターン評価を調整するかを選択できます。
エージェントによるマルチターン評価に独自のオーケストレーターを使用する
マルチターン会話または 15 分のタイムアウトを超える報酬関数を必要とする Forge ユーザーの場合、Nova Forge は Bring Your Own Orchestration (BYOO) 機能をもたらします。これにより、環境内のエージェントマルチターン評価を調整できます (例えば、化学ツールを使用して分子設計をスコアリングしたり、ロボットシミュレーションを使用して効率的なタスクの完了に報い、衝突にペナルティを課したりできます)。
アーキテクチャの概要
BYOO アーキテクチャは、カスタマーマネージドインフラストラクチャを通じて、ロールアウトと生成プロセスを完全に制御します。
トレーニング VPC:
-
ロールアウト: ロールアウト生成をお客様のインフラストラクチャに委任してトレーニングを調整します
-
トレーナー: 受信したロールアウトに基づいてモデルの重みの更新を実行します
カスタマー VPC (EC2 上の ECS など):
-
Proxy Lambda: ロールアウトリクエストを受け取り、顧客インフラストラクチャと調整します
-
ロールアウトレスポンス SQS: 完了したロールアウトをトレーニングインフラストラクチャに返すためのキュー
-
生成リクエスト SQS: モデル生成リクエストのキュー
-
生成レスポンス SQS: モデル生成レスポンスのキュー
-
顧客コンテナ: カスタムオーケストレーションロジックを実装します (提供されているスターターキットを使用できます)
-
DynamoDB: オーケストレーションプロセス全体で状態を保存および取得します
ワークフロー:
-
ロールアウトはロールアウト生成を Proxy Lambda に委任します
-
Proxy Lambda はロールアウト API リクエストを生成リクエスト SQS にプッシュします
-
カスタマーコンテナはリクエストを処理し、マルチターンインタラクションを管理し、報酬関数を呼び出します
-
コンテナは、必要に応じて状態を DynamoDB に保存したり、DynamoDB から取得したりします
-
コンテナがロールアウトレスポンスをロールアウトレスポンス SQS にプッシュします
-
ロールアウトは、完了したロールアウトを Trainer に送信して重みを更新します
セットアップと実行
詳細なセットアップ手順、レシピ設定、リクエストとレスポンスの形式、環境の例については、Nova Forge サブスクライバーに提供される機密ドキュメントを参照してください。Nova Forge ドキュメントを取得するには、以下の手順に従います。
aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive
アセットがダウンロードされると、docs フォルダですべてのドキュメントを確認できます。