强化学习

强化学习与监督学习、无监督学习的区别

有无标签 & 有无反馈 & 有无对错之分

Posted by ZA on December 25, 2023

监督学习

使用带标签的训练数据来学习一个模型，然后进行预测。

事先知道训练数据中每一个样本的输出结果

常见的回归和分类任务算法都是监督学习的范畴

例如对猫和狗的图片进行预测，label = cat or dog

无监督学习

在没有标签的数据上进行学习，通过数据之间的内在联系将他们分成若干类

常见的无监督学习方法是 K-means 和聚类

例如观看大量恐龙和鲨鱼的照片，即使不认识它们，也能根据两种动物之间的区别而予以区分

半监督学习

使用的数据，少部分标记过的，大部分是未标记的。成本较低，但是又能达到较高的准确度

强化学习

强化学习的思想与半监督学习类似，虽然使用未标记的数据，但奖励函数的存在会使得在执行几步之后得到反馈

监督学习有反馈，无监督学习无反馈，强化学习在执行几步以后才反馈
强化学习看重行为序列下的长期收益，而监督学习重点关注标签和已知输出的误差
强化学习的奖励没有对错，只有高低之分。而监督学习的标签就是正确或错误的
崔后，强化学习是一个学习+决策的过程，有和环境交互的能力（交互的结果以奖励值的形式返回），而监督学习不具备。