强化学习与监督学习、无监督学习的区别

有无标签 & 有无反馈 & 有无对错之分

Posted by ZA on December 25, 2023

监督学习

使用带标签的训练数据来学习一个模型,然后进行预测。

事先知道训练数据中每一个样本的输出结果

常见的回归和分类任务算法都是监督学习的范畴

例如对猫和狗的图片进行预测,label = cat or dog

无监督学习

在没有标签的数据上进行学习,通过数据之间的内在联系将他们分成若干类

常见的无监督学习方法是 K-means 和 聚类

例如观看大量恐龙和鲨鱼的照片,即使不认识它们,也能根据两种动物之间的区别而予以区分

半监督学习

使用的数据,少部分标记过的,大部分是未标记的。成本较低,但是又能达到较高的准确度

强化学习

强化学习的思想与半监督学习类似,虽然使用未标记的数据,但奖励函数的存在会使得在执行几步之后得到反馈

  • 监督学习有反馈,无监督学习无反馈,强化学习在执行几步以后才反馈
  • 强化学习看重行为序列下的长期收益,而监督学习重点关注标签和已知输出的误差
  • 强化学习的奖励没有对错,只有高低之分。而监督学习的标签就是正确或错误的
  • 崔后,强化学习是一个学习+决策的过程,有和环境交互的能力(交互的结果以奖励值的形式返回),而监督学习不具备。