监督学习
使用带标签的训练数据来学习一个模型,然后进行预测。
事先知道训练数据中每一个样本的输出结果
常见的回归和分类任务算法都是监督学习的范畴
例如对猫和狗的图片进行预测,label = cat or dog
无监督学习
在没有标签的数据上进行学习,通过数据之间的内在联系将他们分成若干类
常见的无监督学习方法是 K-means 和 聚类
例如观看大量恐龙和鲨鱼的照片,即使不认识它们,也能根据两种动物之间的区别而予以区分
半监督学习
使用的数据,少部分标记过的,大部分是未标记的。成本较低,但是又能达到较高的准确度
强化学习
强化学习的思想与半监督学习类似,虽然使用未标记的数据,但奖励函数的存在会使得在执行几步之后得到反馈
- 监督学习有反馈,无监督学习无反馈,强化学习在执行几步以后才反馈
- 强化学习看重行为序列下的长期收益,而监督学习重点关注标签和已知输出的误差
- 强化学习的奖励没有对错,只有高低之分。而监督学习的标签就是正确或错误的
- 崔后,强化学习是一个学习+决策的过程,有和环境交互的能力(交互的结果以奖励值的形式返回),而监督学习不具备。