推論モデルの評価

概要

推論モデルのサポートにより、最終的なレスポンスを生成する前に明示的な内部推論を実行する推論対応 Nova モデルによる評価が可能になります。この機能は、reasoning_effort パラメータを介した API レベルの制御を使用して、推論機能を動的に有効または無効にし、複雑な分析タスクの応答品質を向上させる可能性があります。

サポートされているモデル

amazon.nova-2-lite-v1:0:256k

レシピ設定

レシピの inference セクションに reasoning_effort パラメータを追加して、推論を有効にします。


run:  
  name: reasoning-eval-job-name                          # [MODIFIABLE] Unique identifier for your evaluation job  
  model_type: amazon.nova-2-lite-v1:0:256k               # [FIXED] Must be a reasoning-supported model  
  model_name_or_path: nova-lite-2/prod                   # [FIXED] Path to model checkpoint or identifier  
  replicas: 1                                            # [MODIFIABLE] Number of replicas for SageMaker Training job  
  data_s3_path: ""                                       # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job  
  output_s3_path: ""                                     # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs)  
  
evaluation:  
  task: mmlu                                             # [MODIFIABLE] Evaluation task  
  strategy: zs_cot                                       # [MODIFIABLE] Evaluation strategy  
  metric: accuracy                                       # [MODIFIABLE] Metric calculation method  
  
inference:  
  reasoning_effort: high                                 # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable  
  max_new_tokens: 32768                                  # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high  
  top_k: -1                                              # [MODIFIABLE] Top-k sampling parameter  
  top_p: 1.0                                             # [MODIFIABLE] Nucleus sampling parameter  
  temperature: 0                                         # [MODIFIABLE] Sampling temperature (0 = deterministic)

reasoning_effort パラメータを使用する

reasoning_effort パラメータは、推論可能なモデルの推論動作を制御します。

前提条件

モデルの互換性 – model_type が推論対応モデル (現在 amazon.nova-2-lite-v1:0:256k) を指定している場合にのみ reasoning_effort を設定します
エラー処理 – サポートされていないモデルで reasoning_effort を使用すると、ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode." で失敗します

利用可能なオプション

オプション	行動	トークンの制限	ユースケース
null (デフォルト)	推論モードを無効にします	該当なし	オーバーヘッドを推論しない標準評価
低	制約のある推論を有効にします	内部推論用の 4,000 トークン	簡潔な推論を必要とするシナリオ。速度とコストを最適化
高	制約なしで推論を有効にします	内部推論にトークン制限なし	広範な分析とステップバイステップの推論を必要とする複雑な問題

トレーニング方法	利用可能なオプション	設定方法
SFT (教師ありファインチューニング)	高またはオフのみ	reasoning_enabled を使用する: true (高) または reasoning_enabled: false (オフ)
RFT (強化ファインチューニング)	低、高、またはオフ	reasoning_effort: 低または reasoning_effort: 高を使用します。フィールドを省略して無効にします。
評価	低、高、またはオフ	reasoning_effort: 低または reasoning_effort: 高を使用します。null を使用して無効にします。

推論を有効にする場合

以下の場合は、推論モード (low または high) を使用します

複雑な問題解決タスク (数学、ロジックパズル、コーディング)
中間推論を必要とする複数ステップの分析質問
詳細な説明やステップバイステップの思考によって精度が向上するタスク
応答品質が速度よりも優先されるシナリオ

以下の場合は、非推論モード (null またはパラメータを省略) を使用します

単純な Q&A クエリまたは事実クエリ
クリエイティブライティングのタスク
応答時間の短縮が重要な場合
推論オーバーヘッドを除外する必要があるパフォーマンスベンチマーク
推論がタスクのパフォーマンスを向上させない場合のコスト最適化

トラブルシューティング

エラー:「推論モードは有効ですが、モデルは推論をサポートしていません」

原因: reasoning_effort パラメータは null 以外の値に設定されていますが、指定された model_type は推論をサポートしていません。

解決策:

モデルタイプが amazon.nova-2-lite-v1:0:256k であることを確認します
別のモデルを使用する場合は、推論対応モデルに切り替えるか、レシピから reasoning_effort パラメータを削除します

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

評価

RFT 評価