机器学习第16章(强化学习)

    科技2022-07-10  138

                                      强化学习(reinforcement learning)

    16.1 任务与奖赏

    策略的优劣取决于长期执行这一策略后所得到的累积奖赏,在强化学习任务中,学习的目的就是要找到能使长期累积奖赏最大化的策略。

    强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。

    16.2 K-摇臂赌博机

    仅探索法能很好的估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂。

    softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中,若各摇臂的平均奖赏相当,则选取各摇臂的概率也相当;若某些摇臂的平均奖赏明显高于其他摇臂,则它们被选取的概率也明显更高。

    16.3 有模型学习

    在已知模型的环境中进行学习称为有模型学习model-based learning。

    16.4 免模型学习

    若学习算法不依赖于环境建模,则称为免模型学习model-free learning。

    16.5 值函数近似

    16.6 模仿学习(imitation learning)

     

    Processed: 0.010, SQL: 8