本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 AWS DeepRacer 探索强化学习
强化学习(特别是深度强化学习)已被证明可有效解决一系列自主决策问题。它在金融交易、数据中心冷却、车队物流和自动驾驶赛车等领域都有应用。
强化学习有可能解决现实问题。但是,由于强化学习的技术范围和深度非常广泛,因此,它具有陡峭的学习曲线。在真实试验中,您需要构建一个物理代理(例如,一辆自动驾驶赛车)。它还要求您保护物理环境(例如,赛道或公路)。环境可能是成本高昂的、危险的和耗时的。这些要求不仅仅是理解强化学习。
为了帮助减少学习曲线,AWS DeepRacer 通过三种方式简化了此过程:
-
提供逐步指南来训练和评估强化学习模型。该指南包括预定义的环境、状态、操作和可自定义的奖励函数。
-
提供模拟器来模拟虚拟代理和虚拟环境之间的交互。
-
使用 AWS DeepRacer 车辆作为物理代理。使用车辆在物理环境中评估训练后的模型。这与真实的使用案例非常相似。
如果您是一个经验丰富的机器学习实践者,您将发现 AWS DeepRacer 为在虚拟和物理环境中为自动驾驶赛车建立强化学习模型创造了良机。总而言之,使用 AWS DeepRacer 为自动驾驶赛车创建强化学习模型,步骤如下:
为自动驾驶比赛训练自定义的强化学习模型。使用与 SageMaker 集成的 AWS DeepRacer 控制台来完成此操作。
使用 AWS DeepRacer 模拟器在虚拟环境中评估模型和测试自动驾驶赛车。
将训练后的模型部署到 AWS DeepRacer 模型车辆以便在物理环境中测试自动驾驶赛车。