机器学习第16章（强化学习）

科技2022-07-10 351

强化学习（reinforcement learning）

策略的优劣取决于长期执行这一策略后所得到的累积奖赏，在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策略。

强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。

仅探索法能很好的估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会；仅利用法没有很好地估计摇臂期望奖赏，很可能经常选不到最优摇臂。

softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中，若各摇臂的平均奖赏相当，则选取各摇臂的概率也相当；若某些摇臂的平均奖赏明显高于其他摇臂，则它们被选取的概率也明显更高。

在已知模型的环境中进行学习称为有模型学习model-based learning。

若学习算法不依赖于环境建模，则称为免模型学习model-free learning。

Processed: 0.008, SQL: 9