Aprendizado por reforço no AWS DeepRacer

No aprendizado por reforço, um agente, como um veículo físico ou virtual do AWS DeepRacer, com o objetivo de atingir uma meta pretendida interage com um ambiente para maximizar a recompensa total do agente. O agente executa uma ação, orientado por uma estratégia conhecida como política, em um determinado estado do ambiente, alcançando um novo estado. Há uma recompensa imediata associada a qualquer ação. A recompensa é uma medida da conveniência da ação. Essa recompensa imediata é considerada retornada pelo ambiente.

O objetivo do aprendizado por reforço no AWS DeepRacer é aprender a política ideal em um determinado ambiente. Aprender é um processo iterativo de tentativa e erro. O agente executa a ação inicial aleatória para chegar a um novo estado. Então, o agente repete a etapa do novo estado no próximo. Com o passar do tempo, o agente descobre ações que geram o máximo de recompensas a longo prazo. A interação do agente de um estado inicial para um estado final é chamado de episódio.

O esquema a seguir ilustra esse processo de aprendizagem:

Imagem: uma visão geral do aprendizado por reforço.

O agente incorpora uma rede neural que representa uma função para aproximar a política do agente. A imagem da câmera frontal do veículo é o estado e a ação do agente é definida pela velocidade do agente e pelos ângulos de direção.

O agente recebe recompensas positivas se permanecer na via para concluir a corrida e recompensas negativas ao sair da via. Um episódio começa com o agente em algum lugar na pista e termina quando o agente sai da pista ou completa uma volta.

nota

Mais especificamente, o estado do ambiente refere-se a tudo o que é relevante para o problema. Por exemplo, a posição do veículo na pista, bem como a forma da pista. A imagem alimentada por meio da câmera montada na frente do veículo não captura todo o estado do ambiente. Por isso, o ambiente é considerado parcialmente observado e a entrada para o agente é chamada de observação em vez de estado. Para simplificar, usamos estado e observação de forma intercambiável nesta documentação.

Treinar o agente em um ambiente simulado tem as seguintes vantagens:

A simulação pode estimar o progresso do agente e identificar quando ele sai da pista para calcular uma recompensa.
A simulação libera o treinador de tarefas entediantes para reiniciar o veículo cada vez que ele sai da pista, como é feito em um ambiente físico.
A simulação pode acelerar o treinamento.
A simulação fornece melhor controle das condições do ambiente, por exemplo, a seleção de diferentes pistas, planos de fundo e condições do veículo.

A alternativa para o aprendizado por reforço é o aprendizado supervisionado, também conhecido como aprendizado por imitação. Aqui, um conjunto de dados conhecido (de tuplas [imagem, ação]) coletados de um determinado ambiente é usado para treinar o agente. Os modelos que são treinados por meio de aprendizado por imitação podem ser aplicados à condução autônoma. Eles funcionam bem apenas quando as imagens da câmera são semelhantes às imagens no conjunto de dados de treinamento. Para condução robusta, o conjunto de dados de treinamento deve ser abrangente. Por outro lado, o aprendizado por reforço não exige esforços de rotulagem tão extensos e pode ser treinado inteiramente em simulação. Como o aprendizado por reforço começa com ações aleatórias, o agente aprende uma variedade de condições ambientais e de pista. Isso dá robustez ao modelo treinado.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como funciona

Espaço de ação e função de recompensa