AWS DeepRacer トレーニングアルゴリズム - AWS DeepRacer

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS DeepRacer トレーニングアルゴリズム

PPO (Proximal Policy Optimization) と SAC (Soft Actor Critics)

アルゴリズム SAC と PPO は両方ともポリシーと value 関数を同時に学習しますが、戦略は次の 3 つの点で異なります。

PPO SAC

離散アクションスペースと連続アクションスペースの両方で動作

連続アクションスペースで動作

オンポリシー

オフポリシー

エントロピー正則化を使用する

最大化目標にエントロピーを追加する

安定 vs データハングリー

環境を探索しながら、PPO アルゴリズムおよび SAC アルゴリズムのポリシーによって学習された情報はさまざまな方法で利用されます。PPO はオンポリシー学習を使用します。つまり、環境を探索する現在のポリシーによって行われた観測から、その value 関数を学習します。SAC は、オフポリシー学習を使用します。つまり、以前のポリシーの環境探索によって行われた観測が使用できます。オフポリシー学習とオンポリシー学習のトレードオフは、多くの場合、安定性とデータ効率性との比較です。オンポリシーのアルゴリズムはより安定する傾向がありますが、データハングリーです。一方、オフポリシーのアルゴリズムはその逆になる傾向があります。

探索と活用との比較

探索と活用は、RL の重要な課題です。アルゴリズムは、より高い累積報酬を達成するために以前の経験からの既知の情報を利用する必要がありますが、将来的に最適なポリシーを見つける際に使用できる新しい経験を得るためにも探索する必要があります。ポリシーが何度も反復してトレーニングされ、環境についての学習がさらに進むため、特定の観測に対するアクションの選択がより明確になります。ただし、ポリシーが十分に検討できない場合、最適でない場合でも、すでに学習した情報に固執する可能性があります。PPO アルゴリズムは、エージェントを局所最適に収束させないようにエントロピー正則化を用いることで探索を促進します。SAC アルゴリズムは、その最大化目標にエントロピーを加えることによって、探索と活用の間で例外的なバランスを取ります。

エントロピー

この文脈において、「エントロピー」はポリシーにおける不確実性の尺度であるため、あるポリシーが特定の状態に対するアクションを選択する際にどの程度の自信があるかという尺度として解釈できます。エントロピーが低いポリシーは、アクションを選択する自信が高いのに対し、エントロピーが高いポリシーはどのアクションを選択するか不明確です。

SAC アルゴリズムのエントロピー最大化戦略は、PPO アルゴリズムのエントロピーを正則化するものとして使用する場合と同様の利点があります。PPO と同様に、より広い探索を推進し、エントロピーのより高いアクションを選択するようエージェントに動機づけを与えることによって、悪い局所最適へ収束しないようにします。エントロピーの規則とは異なり、エントロピーの最大化には独自の利点があります。また、不確実な動作を選択するポリシーはあきらめる傾向がありますが、SAC アルゴリズムが PPO よりもデータ効率が高い傾向にあるもう一つの理由がこれです。

SAC アルファハイパーパラメーターを使用して、SAC のエントロピーの量を調整します。SAC アルファエントロピーの最大値 (1.0) は、探索に適しています。最小値 (0.0) は、標準的な RL の目的を回復し、探索にインセンティブを与えるエントロピーボーナスを中和します。実験を始めるのに適切な SAC アルファ値は 0.5 です。モデルの反復処理に応じて調整します。

PPO アルゴリズムと SAC アルゴリズムの両方でハイパーパラメーターを試して、さまざまなアクションスペースで探索してください。