RL與有監督學習、無監督學習的比較:
(1)有監督的學習是從一個已經標記的訓練集中進行學習,訓練集中每一個樣本的特征可以視為是對該situation的描述,而其label可以視為是應該執行的正確的action,但是有監督的學習不能學習交互的情景,因為在交互的問題中獲得期望行為的樣例是非常不實際的,agent只能從自己的經歷(experience)中進行學習,而experience中采取的行為并一定是最優的。這時利用RL就非常合適,因為RL不是利用正確的行為來指導,而是利用已有的訓練信息來對行為進行評價。
(2)因為RL利用的并不是采取正確行動的experience,從這一點來看和無監督的學習確實有點像,但是還是不一樣的,無監督的學習的目的可以說是從一堆未標記樣本中發現隱藏的結構,而RL的目的是最大化reward signal。
(3)總的來說,RL與其他機器學習算法不同的地方在于:其中沒有監督者,只有一個reward信號;反饋是延遲的,不是立即生成的;時間在RL中具有重要的意義;agent的行為會影響之后一系列的data。
聯系:highspeedlogic
QQ :1224848052
微信:HuangL1121
郵箱:1224848052@qq.com
網站:http://www.mat7lab.com/
網站:http://www.hslogic.com/
微信掃一掃: