Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Addestra il tuo primo DeepRacer modello AWS
Questa procedura dettagliata dimostra come addestrare il tuo primo modello utilizzando la DeepRacer console AWS.
Addestra un modello di reinforcement learning utilizzando la DeepRacer console AWS
Scopri dove trovare il pulsante Crea modello nella DeepRacer console AWS per iniziare il tuo percorso di formazione dei modelli.
Addestrare un modello di apprendimento per rinforzo
-
Se è la prima volta che usi AWS DeepRacer, scegli Crea modello dalla landing page del servizio o seleziona Inizia sotto la voce Reinforcement learning nel pannello di navigazione principale.
-
Nella pagina Introduzione all'apprendimento per rinforzo, in Fase 2: Creare un modello, scegli Crea modello.
In alternativa scegliere I tuoi modelli (I tuoi modelli) nell'intestazione Reinforcement dal riquadro di navigazione principale. Nella pagina I tuoi modelli, scegli Crea modello.
Specificare il nome e l'ambiente del modello
Assegna un nome al tuo modello e scopri come scegliere la traccia di simulazione più adatta a te.
Per specificare il nome e l'ambiente del modello
-
Nella pagina Crea modello, in Dettagli di addestramento, inserisci un nome per il tuo modello.
-
Facoltativamente, aggiungere una descrizione del lavoro di formazione.
-
Per ulteriori informazioni sull'aggiunta di tag opzionali, consultaAssegnazione di tag.
-
In Simulazione ambientale, scegli una pista che funga da ambiente di formazione per il tuo DeepRacer agente AWS. In Direzione della traccia, scegli Senso orario o antiorario. Quindi, seleziona Next (Successivo).
Per la tua prima corsa, scegli una pista con una forma semplice e curve fluide. Nelle successive iterazioni, è possibile scegliere piste più complesse per migliorare progressivamente i modelli. Per addestrare un modello per una determinata corsa, scegliere la pista più simile a quella dell'evento.
-
Nella parte inferiore della pagina scegliere Next (Avanti).
Scegli un tipo di gara e un algoritmo di allenamento
La DeepRacer console AWS offre tre tipi di gara e due algoritmi di allenamento tra cui scegliere. Scopri quali sono adatti al tuo livello di abilità e ai tuoi obiettivi di allenamento.
Per scegliere un tipo di gara e un algoritmo di allenamento
-
Nella pagina Crea modello, sotto Tipo di gara, seleziona Cronometro, Evitare oggetti o ead-to-botH.
Per la prima volta, ti consigliamo di scegliere Time trial. Per indicazioni sull'ottimizzazione della configurazione dei sensori del tuo agente per questo tipo di gara, consultaPersonalizza la DeepRacer formazione AWS per le prove a cronometro.
-
Facoltativamente, nelle corse successive, scegli Evitare oggetti per aggirare ostacoli fissi posizionati in posizioni fisse o casuali lungo la pista scelta. Per ulteriori informazioni, consulta Personalizza la DeepRacer formazione AWS per le gare che evitano gli oggetti.
-
Scegli Posizione fissa per generare caselle in posizioni fisse designate dall'utente sulle due corsie della pista oppure seleziona Posizione casuale per generare oggetti distribuiti casualmente sulle due corsie all'inizio di ogni episodio della simulazione di allenamento.
-
Quindi, scegli un valore per il numero di oggetti su una traccia.
-
Se scegli Posizione fissa, puoi regolare la posizione di ogni oggetto sulla traccia. Per il posizionamento della corsia, scegli tra la corsia interna e quella esterna. Per impostazione predefinita, gli oggetti sono distribuiti uniformemente sulla traccia. Per modificare la distanza tra la linea iniziale e quella finale di un oggetto, inserisci una percentuale di quella distanza compresa tra sette e 90 nel campo Posizione (%) tra inizio e fine.
-
-
Opzionalmente, per corse più ambiziose, scegli Head-to-bot racing per gareggiare contro un massimo di quattro veicoli bot che si muovono a velocità costante. Per ulteriori informazioni, consulta Personalizza la DeepRacer formazione AWS per le head-to-bot gare.
-
Nella sezione Scegli il numero di veicoli bot, seleziona quanti veicoli bot vuoi che il tuo agente addestri.
-
Quindi, scegli la velocità in millimetri al secondo alla quale desideri che i veicoli bot percorrano la pista.
-
Facoltativamente, seleziona la casella Abilita cambi di corsia per dare ai veicoli bot la possibilità di cambiare corsia in modo casuale ogni 1-5 secondi.
-
-
In Algoritmo di addestramento e iperparametri, scegli l'algoritmo Soft Actor Critic (SAC) o Proximal Policy Optimization (PPO). Nella DeepRacer console AWS, i modelli SAC devono essere addestrati in spazi di azione continui. I modelli PPO possono essere addestrati in spazi di azione continui o discreti.
-
In Algoritmo di addestramento e iperparametri, usa i valori degli iperparametri predefiniti così come sono.
In seguito, per migliorare le prestazioni di addestramento, espandere Hyperparameters (Iperparametri) e modificare i valori degli iperparametri predefiniti come segue:
-
Per Gradient descent batch size (Dimensioni del batch per la discesa del gradiente), scegliere le opzioni disponibili.
-
Per Number of epochs (Numero di epoch), impostare un valore valido.
-
For Learning rate (Velocità di apprendimento), impostare un valore valido.
-
Per il valore alfa SAC (solo algoritmo SAC), impostate un valore valido.
-
Per Entropy (Entropia), impostare un valore valido.
-
Per Discount factor (Fattore sconto), impostare un valore valido.
-
Per Loss type (Tipo di perdita), scegliere le opzioni disponibili.
-
Per Number of experience episodes between each policy-updating iteration (Numero di episodi di esperienza tra ciascuna iterazione di aggiornamento della policy), impostare un valore valido.
Per ulteriori informazioni sugli iperparametri, consultare Regola sistematicamente gli iperparametri.
-
-
Seleziona Successivo.
Definisci lo spazio d'azione
Nella pagina Definisci spazio d'azione, se hai scelto di allenarti con l'algoritmo Soft Actor Critic (SAC), lo spazio d'azione predefinito è lo spazio d'azione continuo. Se hai scelto di allenarti con l'algoritmo Proximal Policy Optimization (PPO), scegli tra Spazio d'azione continuo e Spazio d'azione discreto. Per saperne di più su come ogni spazio d'azione e algoritmo modella l'esperienza di allenamento dell'agente, consultaSpazio DeepRacer d'azione AWS e funzione di ricompensa.
-
In Definisci lo spazio di azione continuo, scegli i gradi dell'intervallo dell'angolo di sterzata sinistro e dell'intervallo dell'angolo di sterzata destro.
Prova a inserire gradi diversi per ogni intervallo dell'angolo di sterzata e osserva come la visualizzazione dell'intervallo cambia per rappresentare le tue scelte sul grafico settoriale dinamico.
-
In Velocità, inserisci una velocità minima e massima per il tuo agente in millimetri al secondo.
Osserva come le tue modifiche si riflettono sul grafico settoriale dinamico.
-
Facoltativamente, scegli Ripristina i valori predefiniti per cancellare i valori indesiderati. Incoraggiamo a provare diversi valori sul grafico per sperimentare e imparare.
-
Seleziona Successivo.
-
Scegli un valore per la granularità dell'angolo di sterzata dall'elenco a discesa.
-
Scegli un valore in gradi compreso tra 1 e 30 per l'angolo di sterzata massimo del tuo agente.
-
Scegli un valore per la granularità della velocità dall'elenco a discesa.
-
Scegli un valore in millimetri al secondo compreso tra 0,1-4 per la velocità massima del tuo agente.
-
Utilizza le impostazioni delle azioni predefinite nell'elenco Azioni o, facoltativamente, attiva Configurazione avanzata per perfezionare le impostazioni. Se scegli Precedente o disattivi Configurazione avanzata dopo aver regolato i valori, perdi le modifiche.
-
Immettete un valore in gradi compreso tra -30 e 30 nella colonna Angolo di sterzata.
-
Immettete un valore compreso tra 0,1 e 4 in millimetri al secondo per un massimo di nove azioni nella colonna Velocità.
-
Facoltativamente, seleziona Aggiungi un'azione per aumentare il numero di righe nell'elenco delle azioni.
-
Facoltativamente, seleziona X su una riga per rimuoverla.
-
-
Seleziona Successivo.
Scegli un'auto virtuale
Informazioni su come iniziare a utilizzare le auto virtuali. Guadagna nuove auto personalizzate, verniciature e modifiche gareggiando nella Open Division ogni mese.
Per scegliere un'auto virtuale
-
Nella pagina Scegli la configurazione della scocca e del sensore del veicolo, scegli una scocca compatibile con il tuo tipo di gara e lo spazio d'azione. Se nel tuo garage non hai un'auto corrispondente, vai a La tua officina sotto la voce Rinforcement learning nel pannello di navigazione principale per crearne una.
Per gli allenamenti a cronometro, la configurazione predefinita del sensore e la fotocamera a obiettivo singolo di The Original DeepRacer sono tutto ciò di cui hai bisogno, ma tutte le altre shell e configurazioni dei sensori funzionano a condizione che lo spazio d'azione corrisponda. Per ulteriori informazioni, consulta Personalizza la DeepRacer formazione AWS per le prove a cronometro.
Per l'addestramento alla prevenzione degli oggetti, le telecamere stereo sono utili, ma una singola telecamera può essere utilizzata anche per evitare ostacoli fissi in posizioni fisse. Un sensore LiDAR è facoltativo. Consultare Spazio DeepRacer d'azione AWS e funzione di ricompensa.
Per l'ead-to-botallenamento H, oltre a una singola telecamera o a una telecamera stereo, un'unità LiDAR è ottimale per rilevare ed evitare i punti ciechi durante il sorpasso di altri veicoli in movimento. Per ulteriori informazioni, consulta Personalizza la DeepRacer formazione AWS per le head-to-bot gare.
-
Seleziona Successivo.
Personalizza la tua funzione di ricompensa
La funzione di ricompensa è al centro dell'apprendimento per rinforzo. Impara a usarlo per incentivare la tua auto (agente) a intraprendere azioni specifiche mentre esplora la pista (ambiente). Come incoraggiare e scoraggiare determinati comportamenti di un animale domestico, puoi usare questo strumento per incoraggiare la tua auto a finire un giro il più velocemente possibile e scoraggiarla dall'uscire di pista o dall'entrare in collisione con oggetti.
Per personalizzare la funzione di ricompensa
-
Nella pagina Create model (Crea modello) in Reward function (Funzione ricompensa), utilizzare l'esempio di funzione ricompensa predefinita così com'è per il primo modello.
Successivamente, è possibile scegliere Reward function examples (Esempi di funzioni ricompensa) per selezionare un'altra funzione di esempio e quindi scegliere Use code (Usa codice) per accettare la funzione di ricompensa selezionata.
Esistono quattro funzioni di esempio con cui è possibile iniziare. Illustrano come seguire il centro dei binari (impostazione predefinita), come mantenere l'agente all'interno dei confini dei binari, come evitare la guida a zig-zag e come evitare di schiantarsi contro ostacoli fermi o altri veicoli in movimento.
Per ulteriori informazioni sulla funzione di ricompensa, consulta Riferimento alla funzione di DeepRacer ricompensa AWS.
-
In Condizioni di interruzione, lasciate invariato il valore di tempo massimo predefinito oppure impostate un nuovo valore per terminare il processo di addestramento, per evitare che i processi di formazione durino a lungo termine (e possibili interruzioni).
Nella fase iniziale dell'addestramento, è consigliabile iniziare impostando un valore di parametro basso, quindi allungare gradualmente il tempo di addestramento.
-
In Invia automaticamente ad AWS DeepRacer, l'opzione Invia DeepRacer automaticamente questo modello ad AWS dopo il completamento del corso di formazione e ottieni la possibilità di vincere premi è selezionata per impostazione predefinita. Facoltativamente, puoi scegliere di non inserire il tuo modello selezionando il segno di spunta.
-
Nella sezione Requisiti del campionato, seleziona il tuo Paese di residenza e accetta i termini e le condizioni selezionando la casella.
-
Scegli Crea modello per iniziare a creare il modello e a fornire l'istanza del processo di formazione.
-
Dopo l'invio, osserva l'inizializzazione del lavoro di addestramento, quindi l'esecuzione.
Il processo di inizializzazione richiede alcuni minuti per passare da Inizializzazione a In corso.
-
Guarda il Reward graph (Grafico delle ricompense) e il Simulation video stream (Flusso video di simulazione) per osservare come procede l'addestramento. Periodicamente, è possibile scegliere il pulsante di aggiornamento accanto al Reward graph (Grafico ricompense) per aggiornare il Reward graph (Grafico ricompense) fino al termine del processo di addestramento.
Il processo di formazione viene eseguito sulAWS cloud, quindi non è necessario tenere aperta la DeepRacer console AWS. Puoi sempre tornare alla console per controllare il tuo modello in qualsiasi momento mentre il lavoro è in corso.
Se la finestra dello streaming video della simulazione o il grafico delle ricompense non rispondono, aggiorna la pagina del browser per aggiornare i progressi dell'allenamento.