Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Entraînez votre premier DeepRacer modèle AWS
Cette procédure pas à pas explique comment entraîner votre premier modèle à l'aide de la DeepRacer console AWS.
Entraînez un modèle d'apprentissage par renforcement à l'aide de la DeepRacer console AWS
Découvrez où se trouve le bouton Créer un modèle dans la DeepRacer console AWS pour commencer votre parcours de formation de modèles.
Pour former un modèle d'apprentissage par renforcement
-
Si c'est la première fois que vous utilisez AWS DeepRacer, choisissez Créer un modèle sur la page d'accueil du service ou sélectionnez Commencer sous la rubrique Reinforcement Learning du volet de navigation principal.
-
Sur la page Commencer à utiliser l'apprentissage par renforcement, sous Étape 2 : Création d'un modèle, choisissez Créer un modèle.
Sinon, choisissez Vos modèles sous la rubrique Reinforcement Learning dans le volet de navigation principal. Sur la page Vos modèles, choisissez Créer un modèle.
Spécifiez le nom du modèle et l'environnement
Donnez un nom à votre modèle et découvrez comment choisir la piste de simulation qui vous convient le mieux.
Pour spécifier le nom du modèle et l'environnement
-
Sur la page Créer un modèle, sous Détails de la formation, entrez le nom de votre modèle.
-
En option, ajoutez une description du poste de formation.
-
Pour en savoir plus sur l'ajout de balises facultatives, consultezIdentification.
-
Sous Simulation d'environnement, choisissez une piste qui servira d'environnement de formation à votre DeepRacer agent AWS. Sous Direction de la piste, sélectionnez Dans le sens horaire ou dans le sens inverse des aiguilles d'une montre. Ensuite, choisissez Next (Suivant).
Pour votre première course, choisissez une piste avec une forme simple et des virages lisses. Dans les itérations ultérieures, vous pourrez choisir des pistes plus complexes afin d'améliorer progressivement vos modèles. Pour former un modèle pour une course particulière, choisissez la piste qui s'en rapproche le plus.
-
Dans le bas de la page, cliquez sur Next.
Choisissez un type de course et un algorithme d'entraînement
La DeepRacer console AWS propose trois types de courses et deux algorithmes d'entraînement parmi lesquels choisir. Découvrez celles qui conviennent à votre niveau de compétence et à vos objectifs d'entraînement.
Pour choisir un type de course et un algorithme d'entraînement
-
Sur la page Créer un modèle, sous Type de course, sélectionnez Contre-la-montre, Évitement d'objets ou ead-to-botH.
Pour votre première course, nous vous recommandons de choisir Time Trial. Pour obtenir des conseils sur l'optimisation de la configuration des capteurs de votre agent pour ce type de course, consultezPersonnalisez la DeepRacer formation AWS pour les contre-la-montre.
-
Éventuellement, lors de courses ultérieures, choisissez Évitement d'objets pour contourner les obstacles fixes placés à des emplacements fixes ou aléatoires le long de la piste choisie. Pour plus d'informations, veuillez consulter Personnalisez la DeepRacer formation AWS pour les courses visant à éviter les objets.
-
Choisissez Emplacement fixe pour générer des cases à des emplacements fixes désignés par l'utilisateur sur les deux voies de la piste ou sélectionnez Emplacement aléatoire pour générer des objets répartis de manière aléatoire sur les deux voies au début de chaque épisode de votre simulation d'entraînement.
-
Ensuite, choisissez une valeur pour le nombre d'objets sur une piste.
-
Si vous avez choisi Position fixe, vous pouvez ajuster la position de chaque objet sur la piste. Pour le placement de la voie, choisissez entre la voie intérieure et la voie extérieure. Par défaut, les objets sont répartis uniformément sur la piste. Pour modifier la distance entre la ligne de départ et la ligne d'arrivée d'un objet, entrez un pourcentage de cette distance compris entre 7 et 90 dans le champ Emplacement (%) entre le début et la fin.
-
-
En option, pour des courses plus ambitieuses, choisissez Head-to-bot racing pour affronter jusqu'à quatre véhicules robots se déplaçant à vitesse constante. Pour en savoir plus, consultez Personnalisez la DeepRacer formation AWS pour les head-to-bot courses.
-
Sous Choisissez le nombre de véhicules robots, sélectionnez le nombre de véhicules robots que vous souhaitez que votre agent entraîne.
-
Ensuite, choisissez la vitesse en millimètres par seconde à laquelle vous souhaitez que les véhicules robots circulent sur la piste.
-
Vous pouvez éventuellement cocher la case Activer les changements de voie pour donner aux véhicules robots la possibilité de changer de voie de manière aléatoire toutes les 1 à 5 secondes.
-
-
Sous Algorithme d'entraînement et hyperparamètres, choisissez l'algorithme Soft Actor Critic (SAC) ou Proximal Policy Optimization (PPO). Dans la DeepRacer console AWS, les modèles SAC doivent être entraînés dans des espaces d'action continus. Les modèles PPO peuvent être entraînés dans des espaces d'action continus ou discrets.
-
Sous Algorithme d'entraînement et hyperparamètres, utilisez les valeurs par défaut des hyperparamètres telles quelles.
Par la suite, pour améliorer les performances de la formation, développez Hyperparameters (Hyperparamètres) et modifiez les valeurs d'hyperparamètre par défaut comme suit :
-
Pour Gradient descent batch size (Taille de lot pour la descente de gradient), choisissez parmi les options disponibles.
-
Pour Number of epochs (Nombre d'époques), définissez une valeur valide.
-
Pour Learning rate (Taux d'apprentissage), définissez une valeur valide.
-
Pour la valeur alpha du SAC (algorithme SAC uniquement), définissez une valeur valide.
-
Pour Entropy (Entropie), définissez une valeur valide.
-
Pour Discount factor (Facteur d'actualisation), définissez une valeur valide.
-
Pour Loss type (Type de perte), choisissez parmi les options disponibles.
-
Pour Number of experience episodes between each policy-updating iteration (Nombre d'épisodes d'expérience entre chaque itération de mise à jour de politique), définissez une valeur valide.
Pour de amples informations sur les hyperparamètres, veuillez consulter Régler systématiquement les hyperparamètres.
-
-
Choisissez Next (Suivant).
Définition de l'espace d'action
Sur la page Définir un espace d'action, si vous avez choisi de vous entraîner à l'aide de l'algorithme Soft Actor Critic (SAC), votre espace d'action par défaut est l'espace d'action continu. Si vous avez choisi de vous entraîner à l'aide de l'algorithme PPO (Proximal Policy Optimization), choisissez entre un espace d'action continu et un espace d'action discret. Pour en savoir plus sur la manière dont chaque espace d'action et chaque algorithme façonnent l'expérience de formation de l'agent, consultezEspace DeepRacer d'action AWS et fonction de récompense.
-
Sous Définir un espace d'action continu, choisissez les degrés de votre plage d'angle de braquage gauche et de votre plage d'angle de braquage droit.
Essayez de saisir différents degrés pour chaque plage d'angle de braquage et regardez la visualisation de l'évolution de votre plage pour représenter vos choix sur le graphique sectoriel dynamique.
-
Sous Vitesse, entrez une vitesse minimale et maximale pour votre agent en millimètres par seconde.
Notez comment vos modifications sont reflétées sur le graphique sectoriel dynamique.
-
Vous pouvez éventuellement choisir Rétablir les valeurs par défaut pour supprimer les valeurs indésirables. Nous vous encourageons à essayer différentes valeurs sur le graphique pour expérimenter et apprendre.
-
Choisissez Next (Suivant).
-
Choisissez une valeur pour la granularité de l'angle de braquage dans la liste déroulante.
-
Choisissez une valeur en degrés comprise entre 1 et 30 pour l'angle de braquage maximal de votre agent.
-
Dans la liste déroulante, choisissez une valeur pour la granularité de la vitesse.
-
Choisissez une valeur en millimètres par seconde comprise entre 0,1 et 4 pour la vitesse maximale de votre agent.
-
Utilisez les paramètres d'action par défaut de la liste des actions ou, si vous le souhaitez, activez Configuration avancée pour affiner vos paramètres. Si vous choisissez Précédent ou si vous désactivez la configuration avancée après avoir ajusté les valeurs, vous perdez vos modifications.
-
Entrez une valeur en degrés comprise entre -30 et 30 dans la colonne Angle de braquage.
-
Entrez une valeur comprise entre 0,1 et 4 en millimètres par seconde pour un maximum de neuf actions dans la colonne Vitesse.
-
Vous pouvez éventuellement sélectionner Ajouter une action pour augmenter le nombre de lignes dans la liste d'actions.
-
Vous pouvez éventuellement sélectionner X sur une ligne pour la supprimer.
-
-
Choisissez Next (Suivant).
Choisissez une voiture virtuelle
Apprenez comment démarrer avec démarrer avec démarrer avec démarrer avec les voitures virtuelles. Gagnez de nouvelles voitures personnalisées, des travaux de peinture et des modifications en participant à l'Open Division chaque mois.
Pour choisir une voiture virtuelle
-
Sur la page de configuration de la coque et du capteur du véhicule, choisissez une coque compatible avec votre type de course et votre espace d'action. Si vous n'avez pas de voiture correspondante dans votre garage, accédez à Votre garage sous la rubrique Reinforcement Learning dans le volet de navigation principal pour en créer une.
Pour l'entraînement contre la montre, vous DeepRacer n'avez besoin que de la configuration de capteurs par défaut et de la caméra à objectif unique de The Original, mais toutes les autres configurations de coques et de capteurs fonctionnent tant que l'espace d'action correspond. Pour plus d'informations, veuillez consulter Personnalisez la DeepRacer formation AWS pour les contre-la-montre.
Pour s'entraîner à éviter les objets, les caméras stéréo sont utiles, mais une seule caméra peut également être utilisée pour éviter les obstacles fixes dans des emplacements fixes. Un capteur LiDAR est en option. Consultez Espace DeepRacer d'action AWS et fonction de récompense.
Pour l'ead-to-botentraînement en H, en plus d'une caméra unique ou d'une caméra stéréo, une unité LiDAR est idéale pour détecter et éviter les angles morts lors du dépassement d'autres véhicules en mouvement. Pour en savoir plus, consultez Personnalisez la DeepRacer formation AWS pour les head-to-bot courses.
-
Choisissez Next (Suivant).
Personnalisez votre fonction de récompense
La fonction de récompense est au cœur de l'apprentissage par renforcement. Apprenez à l'utiliser pour inciter votre voiture (agent) à prendre des mesures spécifiques lorsqu'elle explore la piste (environnement). Tout comme encourager et décourager certains comportements chez un animal de compagnie, vous pouvez utiliser cet outil pour encourager votre voiture à terminer un tour le plus rapidement possible et la décourager de quitter la piste ou d'entrer en collision avec des objets.
Pour personnaliser votre fonction de récompense
-
Sur la page Create model (Créer un modèle) sous Reward function (Fonction de récompense), utilisez l'exemple de fonction de récompense par défaut tel quel pour votre premier modèle.
Ultérieurement, vous pourrez choisir Reward function examples (Exemples de fonction de récompense) pour sélectionner un autre exemple de fonction, puis choisir Use code (Utiliser le code) pour accepter la fonction de récompense sélectionnée.
Vous pouvez commencer par quatre exemples de fonctions. Ils montrent comment suivre le centre de la piste (par défaut), comment maintenir l'agent à l'intérieur des limites de la piste, comment empêcher la conduite en zigzag et comment éviter de percuter des obstacles fixes ou d'autres véhicules en mouvement.
Pour en savoir plus sur la fonction de récompense, consultez Référence de la fonction de DeepRacer récompense AWS.
-
Dans Conditions d'arrêt, conservez la valeur de durée maximale par défaut ou définissez une nouvelle valeur pour mettre fin à la tâche de formation, afin d'éviter des tâches de formation de longue durée (et éventuellement des interruptions).
Lorsque vous expérimentez lors de la phase initiale de la formation, vous devez commencer avec une valeur faible pour ce paramètre, puis laisser progressivement une tâche de formation durer plus longtemps.
-
Sous Soumettre automatiquement à l'AWS DeepRacer, l'option Soumettre ce modèle à AWS DeepRacer automatiquement une fois la formation terminée et courir la chance de gagner des prix est cochée par défaut. Vous pouvez éventuellement refuser de saisir votre modèle en cochant la case.
-
Dans la section Exigences de la Ligue, sélectionnez votre pays de résidence et acceptez les termes et conditions en cochant la case.
-
Choisissez Créer un modèle pour commencer à créer le modèle et à provisionner l'instance de tâche de formation.
-
Après la soumission, surveillez l'initialisation de votre tâche de formation, puis exécutez-la.
Le processus d'initialisation passe de l'état Initialisation à En cours en quelques minutes.
-
Regardez le graphique de récompense et le flux vidéo Simulation pour observer l'avancement de votre tâche de formation. Vous pouvez cliquer périodiquement sur le bouton d'actualisation en regard du Reward graph (Graphe de récompense) pour actualiser le Reward graph (Graphe de récompense) jusqu'à ce que la tâche de formation soit terminée.
La tâche de formation s'exécuteAWS dans le cloud, vous n'avez donc pas besoin de laisser la DeepRacer console AWS ouverte. Vous pouvez toujours revenir sur la console pour vérifier l'état de votre modèle à tout moment pendant que le travail est en cours.
Si la fenêtre de diffusion vidéo de simulation ou l'affichage du graphique des récompenses ne répondent plus, actualisez la page du navigateur pour mettre à jour la progression de l'entraînement.