学习百度AI Studio的笔记,供自己复习和记录学习过程中的思路使用,如想了解详情请移步百度AI Studio
强化学习(英语:Reinforcement learning,简称RL) 是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
核心思想: 智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。
注意: 从环境中获取的状态,有时候叫state,有时候叫observation,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。
此图可以看到强化学习的reward既有延时,即只有执行完所有步骤后才会知道有没有reward。下图也可以帮助理解这个“延时”!!!
游戏(马里奥、Atari、Alpha Go、星际争霸等)
机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)
用户交互(推荐、广告、NLP等)
交通(拥堵管理等)
资源调度(物流、带宽、功率等)
金融(投资组合、股票买卖等)
其他
强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。
监督学习寻找输入到输出之间的映射,比如分类和回归问题。
非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。
强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
监督学习处理认知问题,强化学习处理决策问题。
强化学习通过不断的试错探索,吸取经验和教训,持续不断的优化策略,从环境中拿到更好的反馈。
强化学习有两种学习方案 :
基于价值(value-based)基于策略(policy-based)经典算法:
Q-learningSarsaDQNPolicy GradientA3CDDPGPPO环境分类:
离散控制场景(输出动作可数)连续控制场景(输出动作值不可数)强化学习经典环境库GYM将环境交互接口规范化为:
重置环境reset()交互step()渲染render()强化学习框架库PARL将强化学习框架抽象为Model、Algorithm、Agent三层,使得强化学习算法的实现和调试更方便和灵活。