亚洲天堂网_国产中出_日韩激情网_97se.com_中国亚洲老少妇色视频

資源共享分類
通信信號 圖像語音 神經(jīng)網(wǎng)絡 智能優(yōu)化 控制器 數(shù)值仿真 數(shù)學建模 其他專業(yè)

微信:HuangL1121
Q Q:1224848052
團隊:嘉興麥特萊博軟件開發(fā)工作室
地址:嘉興港區(qū)
 
神經(jīng)網(wǎng)絡
MATLAB代做|Python代做|FPGA代做-PPO機器人學習策略
來源:本站    日期:2019/5/24    瀏覽量:734  

功能描述:

      圖中就是一個 OpenAI 利用 PPO 訓練的機器人。它要學習走、跑、轉(zhuǎn)彎來嘗試接近球型的、隨機移動的目標;環(huán)境中還有一個會撞機器人的小球給它增大難度,所以它還要學會受到撞擊以后恢復平衡,甚至被撞倒以后重新站起來。

現(xiàn)有算法
      近期的策略梯度的一類方法讓深度神經(jīng)網(wǎng)絡在控制任務中取得了明顯進步,電腦游戲、三維運動、圍棋都是很好的例子。但是用策略梯度的方法取得好的結果也有一些難度,因為這類方法對迭代步驟數(shù)非常敏感:如果選得太小,訓練過程就會慢得令人絕望;如果選得太大,反饋信號就會淹沒在噪聲中,甚至有可能讓模型表現(xiàn)雪崩式地下降。這類方法的采樣效率也經(jīng)常很低,學習簡單的任務就需要百萬級至十億級的總迭代次數(shù)。

      為了解決方法中的這些問題,研究人員們已經(jīng)找到了 TRPO(Trust Region Policy Optimization,信任區(qū)域策略優(yōu)化)和 ACER(Sample Efficient Actor-Critic with Experience Replay,能高效采樣的帶有經(jīng)驗回放的表演者-評論者算法) 這樣的方法,對策略更新的大小做出限制或者另外的優(yōu)化。達到了這樣的效果,這些方法也就在別的方面付出了代價:ACER 比 PPO復雜得多,需要額外的代碼用于策略外的糾正以及一個回放緩沖區(qū),在 Atari 測試中的具體表現(xiàn)卻只比 PPO 勉強好一點點;TRPO 雖然在連續(xù)控制任務中很有用,但是對策略函數(shù)和價值函數(shù)或者輔助損失之間有共享參數(shù)的算法較難兼容,比如 Atari 和其它一些視覺輸入占據(jù)主要部分的任務就是這樣。

PPO
      在監(jiān)督學習中,實現(xiàn)損失函數(shù)、在上面做梯度下降都很容易,而且基本上不費什么功夫調(diào)節(jié)超參數(shù)就肯定能夠得到很好的結果。但是在強化學習中想要獲得好結果就沒有這么簡單了,算法中有許多變化的部分導致難以 debug,而且需要花很大的精力在調(diào)試上才能得到好結果。PPO 則在實現(xiàn)的難易程度、采樣復雜度、調(diào)試所需精力之間取得了新的平衡,它在每一步迭代中都會嘗試計算新的策略,這樣可以讓損失函數(shù)最小化,同時還能保證與上一步迭代的策略間的偏差相對較小。

      之前 OpenAI 就詳細介紹過 PPO的一個變種 (NIPS 2016 論文視頻:通過策略優(yōu)化進行深度強化學習),其中用一個自適應 Kullback–Leibler 懲罰項控制每次迭代中的策略變化程度。現(xiàn)在介紹的這種新變種則使用了一種其它算法中罕見的全新的目標函數(shù):
      信任區(qū)域更新的功能就可以通過這種目標函數(shù)得到實現(xiàn),它與隨機梯度下降兼容,而且移除了Kullback–Leibler 懲罰項及它的自適應升級功能差,從而簡化了算法。在測試中,PPO 算法在連續(xù)控制任務中取得了最好的效果,而且在 Atari 游戲測試中的表現(xiàn)幾乎與 ACER 持平;考慮到 PPO 的簡便性,這樣的結果真是令人驚喜萬分。


     OpenAI 的研究人員們設計了具有互動能力的機器人,然后用 PPO 訓練它們的策略。在這些基于 Roboschool 環(huán)境的實驗中,可以用鍵盤給機器人設定新的目標位置;盡管輸入的目標序列與用來訓練機器人的序列不同,機器人仍然可以進行泛化。


       除了 Roboschool 中這樣的簡單機器人,他們還用 PPO 教會復雜的仿真機器人走路,比如來自波士頓動力的 Atlas 的仿真模型。相比前面的雙足機器人的17個獨立關節(jié),這個模型中獨立關節(jié)的數(shù)目高達30個。也有一些其它的研究人員已經(jīng)成功借助 PPO 訓練仿真機器人用精彩的跑酷動作跨越障礙。

基準模型:PPO 和 TRPO
      OpenAI 一并發(fā)布了包含大小可變的、并行實現(xiàn)的 PPO 和 TRPO 的基準模型,兩者都用 MPI 作為數(shù)據(jù)傳遞模塊,Python3 和 TensorFlow 都可以支持。他們還把用于訓練上文中的機器人的預訓練模型增加到了 Roboschool 機器人動物園中。

聯(lián)系:highspeedlogic

QQ :1224848052

微信:HuangL1121

郵箱:1224848052@qq.com

網(wǎng)站:http://www.mat7lab.com/

網(wǎng)站:http://www.hslogic.com/

微信掃一掃:


   上一篇: MATLAB代做|近端策略優(yōu)化算法    下一篇:    
   相關閱讀
· MATLAB代做|FPGA代做|simulink代做—— 2020/7/14
· MATLAB代做|FPGA代做|simulink代做—— 2020/5/30
· MATLAB代做|FPGA代做|simulink代做—— 2020/5/30
· MATLAB代做|FPGA代做|simulink代做—— 2020/2/1
· MATLAB代做|FPGA代做|simulink代做—— 2019/12/11
· MATLAB代做|FPGA代做|simulink代做—— 2019/12/11
· MATLAB代做|FPGA代做|simulink代做—— 2019/12/11
· Alexnet網(wǎng)絡結構 2019/11/20
· MATLAB代做|FPGA代做|simulink代做—— 2019/9/15
· MATLAB代做|FPGA代做|simulink代做—— 2019/8/29
Copyright 2017-2025 © 嘉興麥特萊博軟件開發(fā)工作室
  • 網(wǎng)站備案號:浙ICP備18008591號-1