强化学习(reinforcement learning)
16.1 任务与奖赏
策略的优劣取决于长期执行这一策略后所得到的累积奖赏,在强化学习任务中,学习的目的就是要找到能使长期累积奖赏最大化的策略。
强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。
16.2 K-摇臂赌博机
仅探索法能很好的估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂。
softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中,若各摇臂的平均奖赏相当,则选取各摇臂的概率也相当;若某些摇臂的平均奖赏明显高于其他摇臂,则它们被选取的概率也明显更高。
16.3 有模型学习
在已知模型的环境中进行学习称为有模型学习model-based learning。
16.4 免模型学习
若学习算法不依赖于环境建模,则称为免模型学习model-free learning。
16.5 值函数近似
16.6 模仿学习(imitation learning)