亚洲天堂网_国产中出_日韩激情网_97se.com_中国亚洲老少妇色视频

MATLAB代做|MATLAB專業(yè)代做|強(qiáng)化學(xué)習(xí)簡(jiǎn)介

發(fā)布時(shí)間:2019/4/5 瀏覽數(shù):33681
       強(qiáng)化學(xué)習(xí)的思想源于行為心理學(xué)(behavioural psychology)的研究。1911年Thorndike提出了效用法則(Law of Effect):一定情境下讓動(dòng)物感到舒服的行為,就會(huì)與此情景加強(qiáng)聯(lián)系,當(dāng)此情景再現(xiàn)時(shí),動(dòng)物的這種行為也更易再現(xiàn);相反,讓動(dòng)物感覺(jué)不舒服的行為,會(huì)減弱與此情景的聯(lián)系,此情景再現(xiàn)時(shí),此行為將很難再現(xiàn)。換句話說(shuō),那種行為會(huì)被記住取決于該行為產(chǎn)生的效用。例如:在主人扔出飛盤(pán)時(shí),狗叼回飛盤(pán)給主人的行為獲得了肉骨頭,將會(huì)使得“狗叼回扔出的飛盤(pán)”這個(gè)行為和“主人扔出飛盤(pán)時(shí)”這個(gè)情景加強(qiáng)了聯(lián)系,“獲得肉骨頭”的效用將使狗記住“叼回扔出的飛盤(pán)”的行為。
       在給定情境下,得到獎(jiǎng)勵(lì)的行為會(huì)被“強(qiáng)化”而受到懲罰的行為會(huì)被“弱化”。這樣一種生物智能模式使得動(dòng)物可以從不同行為嘗試獲得的獎(jiǎng)勵(lì)或懲罰學(xué)會(huì)在該情境下選擇訓(xùn)練者最期望的行為。這就是強(qiáng)化學(xué)習(xí)的核心機(jī)制:用試錯(cuò)(trail-and-error)來(lái)學(xué)會(huì)在給定的情境下選擇最恰當(dāng)?shù)男袨椤utton定義強(qiáng)化學(xué)習(xí)為:通過(guò)試錯(cuò)學(xué)習(xí)如何最佳地匹配狀態(tài)(states)和動(dòng)作(actions),以期獲得最大的回報(bào)(rewards)。

       強(qiáng)化學(xué)習(xí)不僅直接模仿了生物學(xué)習(xí)的智能模式,而且也不像其它大多數(shù)機(jī)器學(xué)習(xí)方法中,智能體需要被告訴去選擇哪種動(dòng)作,使用強(qiáng)化學(xué)習(xí)方法的智能體能夠通過(guò)嘗試不同的動(dòng)作,自主地發(fā)現(xiàn)并選擇產(chǎn)生最大回報(bào)的動(dòng)作。正如Tesauro所描述的那樣:強(qiáng)化學(xué)習(xí)使得智能體可以根據(jù)自己的經(jīng)驗(yàn)進(jìn)行自主地學(xué)習(xí),既不需要任何預(yù)備知識(shí)也不依賴任何外部智能“老師”的幫助。


強(qiáng)化學(xué)習(xí)大腦

       “如何最佳的匹配狀態(tài)和動(dòng)作”,強(qiáng)化學(xué)習(xí)所解決的這樣很具有普遍性的問(wèn)題。使得強(qiáng)化學(xué)習(xí)在機(jī)器人學(xué),最優(yōu)控制,棋類對(duì)弈,策略博弈,飛行控制,導(dǎo)彈制導(dǎo),預(yù)測(cè)決策,金融投資以及城市交通控制等領(lǐng)域都有大量的應(yīng)用。

       再?gòu)挠?jì)算機(jī)實(shí)現(xiàn)的角度看,大多數(shù)其它機(jī)器學(xué)習(xí)的方法都需要實(shí)現(xiàn)智能體的人事先知道要智能體解決的問(wèn)題是“什么”,以及問(wèn)題“怎么樣”來(lái)解決。再通過(guò)編寫(xiě)指令來(lái)告訴智能體如何求解。遺憾的是,知道“做什么”遠(yuǎn)比知道“怎么做”的情形多得多。例如,對(duì)于這樣一個(gè)問(wèn)題:一個(gè)城市交通網(wǎng)絡(luò)由多個(gè)十字路口以及它們之間的道路組成,每一個(gè)十字路口的交通燈由一個(gè)Agent控制,那么這多個(gè)Agent應(yīng)該如何協(xié)作控制紅綠燈的時(shí)段長(zhǎng)短,使得進(jìn)入該城市交通網(wǎng)絡(luò)的所有車(chē)輛在最短時(shí)間內(nèi)離開(kāi)該城市交通網(wǎng)絡(luò)呢?Agent學(xué)習(xí)要“做什么”的問(wèn)題是清晰的:使所有車(chē)輛以最短時(shí)離開(kāi)該城市交通網(wǎng)絡(luò);但“怎樣做”卻是復(fù)雜和困難的。

       強(qiáng)化學(xué)習(xí)提供了這樣一種美好的前景:只要確定了回報(bào),不必需要規(guī)定Agent怎樣完成任務(wù),Agent 將能夠通過(guò)試錯(cuò)學(xué)會(huì)最佳的控制策略。在前面的多Agent交通控制問(wèn)題中,只需規(guī)定所有車(chē)輛通過(guò)時(shí)間越短獲取的回報(bào)越大,那么這多個(gè)Agent將自主學(xué)會(huì)最優(yōu)的交通燈協(xié)作控制策略使得所有車(chē)輛在最短時(shí)間內(nèi)通過(guò)該城市網(wǎng)絡(luò)。盡管直到今天,解決這樣多個(gè)十字路口的交通燈控制問(wèn)題,強(qiáng)化學(xué)習(xí)依然面臨巨大的計(jì)算量和較長(zhǎng)的計(jì)算時(shí)間。但從實(shí)現(xiàn)的角度來(lái)看,本文認(rèn)為強(qiáng)化學(xué)習(xí)是一種可以把人從必須考慮“怎么做”中解放出來(lái)的機(jī)器學(xué)習(xí)方法,也相信強(qiáng)化學(xué)習(xí)是能夠使得智能能夠從如Bezdek描述的從計(jì)算智能進(jìn)化到人工智能直至生物智能的途徑之一。


強(qiáng)化學(xué)習(xí)示意

       強(qiáng)化學(xué)習(xí)的研究歷史:1954年Minsky首次提出“強(qiáng)化”和“強(qiáng)化學(xué)習(xí)”的概念和術(shù)語(yǔ)。1965年在控制理論中Waltz和傅京孫也提出這一概念,描述通過(guò)獎(jiǎng)懲的手段進(jìn)行學(xué)習(xí)的基本思想。他們都明確了“試錯(cuò)”是強(qiáng)化學(xué)習(xí)的核心機(jī)制。Bellman在1957年提出了求解最優(yōu)控制問(wèn)題以及最優(yōu)控制問(wèn)題的隨機(jī)離散版本馬爾可夫決策過(guò)程(Markov Decision Process,MDP)的動(dòng)態(tài)規(guī)劃(Dynamic Programming)方法,而該方法的求解采用了類似強(qiáng)化學(xué)習(xí)試錯(cuò)迭代求解的機(jī)制。盡管他只是采用了強(qiáng)化學(xué)習(xí)的思想求解馬爾可夫決策過(guò)程,但事實(shí)上卻導(dǎo)致了馬爾可夫決策過(guò)程成為定義強(qiáng)化學(xué)習(xí)問(wèn)題的最普遍形式,加上其方法的現(xiàn)實(shí)操作性,以致后來(lái)的很多研究者都認(rèn)為強(qiáng)化學(xué)習(xí)起源于Bellman的動(dòng)態(tài)規(guī)劃,隨后Howard提出了求解馬爾可夫決策過(guò)程的策略迭代方法。

       到此時(shí)強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)(馬爾可夫決策過(guò)程)和求解算法:試錯(cuò)的策略迭代基本確定下來(lái)。此后一段時(shí)間,強(qiáng)化學(xué)習(xí)被監(jiān)督學(xué)習(xí)(supervised learning)的光芒所遮掩,像統(tǒng)計(jì)模式識(shí)別,人工神經(jīng)網(wǎng)絡(luò)均屬于監(jiān)督學(xué)習(xí),這種學(xué)習(xí)是通過(guò)外部有知識(shí)的監(jiān)督者提供的例子來(lái)進(jìn)行學(xué)習(xí)的,但這種學(xué)習(xí)已經(jīng)完全違背了強(qiáng)化學(xué)習(xí)的宗旨,因?yàn)楸O(jiān)督學(xué)習(xí)有了“教師”(supervisor),有了預(yù)備知識(shí)(examples)。到1989年,Watkins提出的Q學(xué)習(xí)進(jìn)一步拓展了強(qiáng)化學(xué)習(xí)的應(yīng)用和完備了強(qiáng)化學(xué)習(xí)。Q學(xué)習(xí)使得在缺乏立即回報(bào)函數(shù)(仍然需要知道最終回報(bào)或者目標(biāo)狀態(tài))和狀態(tài)轉(zhuǎn)換函數(shù)的知識(shí)下依然可以求出最優(yōu)動(dòng)作策略,換句話說(shuō),Q學(xué)習(xí)使得強(qiáng)化學(xué)習(xí)不再依賴于問(wèn)題模型。此外Watkins還證明了當(dāng)系統(tǒng)是確定性的馬爾可夫決策過(guò)程,并且回報(bào)是有限的情況下,強(qiáng)化學(xué)習(xí)是收斂的,也即一定可以求出最優(yōu)解。至今,Q學(xué)習(xí)已經(jīng)成為最廣泛使用的強(qiáng)化學(xué)習(xí)方法。

聯(lián)系:highspeedlogic

QQ :1224848052

微信:HuangL1121

郵箱:1224848052@qq.com

網(wǎng)站:http://www.mat7lab.com/

網(wǎng)站:http://www.hslogic.com/

微信掃一掃:

Copyright 2017-2025 © 嘉興麥特萊博軟件開(kāi)發(fā)工作室
  • 網(wǎng)站備案號(hào):浙ICP備18008591號(hào)-1