Algoritmi DeepRacer di formazione AWS - AWS DeepRacer

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Algoritmi DeepRacer di formazione AWS

Proximal Policy Optimization (PPO) rispetto a Soft Actor Critic (SAC)

Gli algoritmi SAC e PPO apprendono contemporaneamente una politica e una funzione di valore, ma le loro strategie variano in tre modi importanti:

PPO SACCA

Funziona in spazi di azione sia discreti che continui

Funziona in uno spazio di azione continua

On-policy

Fuori politica

Utilizza la regolarizzazione dell'entropia

Aggiunge entropia all'obiettivo di massimizzazione

Stabile vs. affamato di dati

Le informazioni apprese dalle politiche degli algoritmi PPO e SAC durante l'esplorazione di un ambiente vengono utilizzate in modo diverso. PPO utilizza l'apprendimento basato sulle politiche, il che significa che apprende la sua funzione di valore dalle osservazioni fatte dall'attuale politica che esplora l'ambiente. Il SAC utilizza l'apprendimento non conforme alle politiche, il che significa che può utilizzare le osservazioni fatte nell'ambito dell'esplorazione dell'ambiente da parte delle politiche precedenti. Il compromesso tra l'apprendimento fuori dalle politiche e quello improntato alle politiche è spesso la stabilità rispetto all'efficienza dei dati. Gli algoritmi basati sulle politiche tendono ad essere più stabili ma richiedono molta quantità di dati, mentre gli algoritmi non regolamentati tendono ad essere l'opposto.

Esplorazione vs. sfruttamento

Esplorazione e sfruttamento sono una sfida chiave in RL. Un algoritmo dovrebbe sfruttare le informazioni note delle esperienze precedenti per ottenere ricompense cumulative più elevate, ma deve anche esplorare per acquisire nuove esperienze che possano essere utilizzate per trovare la politica ottimale in futuro. Man mano che una politica viene addestrata su più iterazioni e acquisisce maggiori informazioni su un ambiente, diventa più sicura di scegliere un'azione per una determinata osservazione. Tuttavia, se la politica non esplora abbastanza, probabilmente si limiterà alle informazioni già apprese anche se non è ottimale. L'algoritmo PPO incoraggia l'esplorazione utilizzando la regolarizzazione dell'entropia, che impedisce agli agenti di convergere verso valori ottimali locali. L'algoritmo SAC raggiunge un equilibrio eccezionale tra esplorazione e sfruttamento aggiungendo entropia al suo obiettivo di massimizzazione.

Entropia

In questo contesto, l' "entropia» è una misura dell'incertezza nella politica, quindi può essere interpretata come una misura della fiducia di una politica nella scelta di un'azione per un determinato stato. Una politica a bassa entropia è molto sicura nella scelta di un'azione, mentre una politica ad alta entropia non è sicura di quale azione scegliere.

La strategia di massimizzazione dell'entropia dell'algoritmo SAC presenta vantaggi simili all'uso dell'entropia come regolarizzatore da parte dell'algoritmo PPO. Come il PPO, incoraggia un'esplorazione più ampia ed evita la convergenza verso un cattivo ottimale locale incentivando l'agente a scegliere un'azione con una maggiore entropia. A differenza della regolazione dell'entropia, la massimizzazione dell'entropia presenta un vantaggio unico. Tende a rinunciare a politiche che scelgono comportamenti poco promettenti, motivo in più per cui l'algoritmo SAC tende a essere più efficiente in termini di dati rispetto al PPO.

Regola la quantità di entropia in SAC utilizzando l'iperparametro alfa SAC. Il valore massimo di entropia alfa SAC (1,0) favorisce l'esplorazione. Il valore minimo (0,0) recupera l'obiettivo RL standard e neutralizza il bonus di entropia che incentiva l'esplorazione. Un buon valore alfa SAC con cui iniziare a sperimentare è 0,5. Ottimizzate di conseguenza man mano che eseguite iterazioni sui vostri modelli.

Prova gli algoritmi PPO e SAC, sperimenta i loro iperparametri ed esplorali in diversi spazi di azione.