現現在,經由歷久的研討試驗證實,無模子深度強化進修在視頻游戲、模仿機械人把持和活動等范疇具有優越的機能表示。但是,盡人皆知,當與情況的交互時光無限的情形下,無模子辦法的表示其實不佳,就像年夜多半實際世界中的機械人義務一樣。在本文中,我們研討了若何可以或許將應用soft Q-learning練習的最年夜熵戰略運用于實際世界中的機械人把持義務。這類辦法之所以可以或許在實際世界中的運用重要得益于soft Q-learning的兩個主要特點:起首,soft Q-learning可以經由過程進修具有表達性的基于能量的模子所表現的戰略(energy-based models),從而進修多形式摸索戰略。其次,我們展現了經由過程soft Q-learning所進修的戰略可以構成新戰略,而且終究戰略的最優性可以依據組合戰略之間的不合來界定。這類組合性為實際世界的把持義務供給了一個特殊有價值的對象,個中,經由過程對現有的技巧停止組合進而結構出新的戰略,可以在從零開端的練習中供給效力上的年夜幅進步。我們的試驗評價成果注解,相較于以往的無模子深度強化進修辦法,soft Q-learning具有更高的樣本效力,而且可以對模仿和實際世界的義務履行組合性。
我們,應用一種稱為soft Q-learning的最年夜熵強化進修算法,對Sawyer機械人停止練習使其可以或許將樂高積木疊加在一路。從零開端對一個戰略停止練習須要不到兩個小時的時光,而且已進修事物戰略攪擾(左圖)具有很強的魯棒性。我們還展現了該若何將學到的戰略組合起來構成新的復合技巧,例如在避開樂高積木塔的情形下停止堆疊操作(右圖)。
具有表達性的通用目標函數近似器(如神經收集),與可用于獲得龐雜行動戰略的通用目標無模子強化進修算法的交集,無望完成普遍的機械人行動的主動化:強化進修供給了用于推理序列決議計劃的情勢主義,而年夜型神經收集供給了表征,準繩上,可以用于應用起碼的手工工程來來表現任何行動。但是,經由理論證實,將具有多層神經收集表現(即深度強化進修)的無模子強化進修算法運用于實際世界中的機械人掌握成績,這一進程長短常艱苦的:無模子辦法的樣本龐雜性相當高,而且因為年夜容量函數近似器的包涵性,龐雜性還將進一步進步。在以往的研討中,專家們試圖經由過程在多個機械人上并行化進修來減緩這些成績,好比應用實例演示[,或模仿練習,并依附準確的模子完成向實際世界的遷徙。一切這些辦法都帶有附加的假定和局限性。那末,我們能否可以設計出一種無模子強化進修算法,這類算法可以或許在不依附模仿、演示或多個機械人的情形下,直接對實際世界中的多層神經收集模子停止高效練習?
我們假定,基于以下兩點性質,最年夜熵道理可認為現實的、實際世界的深度強化進修供給一個有用的框架。起首,最年夜熵戰略經由過程玻爾茲曼散布(Boltzmann distribution)表達了一個隨機戰略,供給了一種內涵的、明智的摸索戰略,它,其能量對應于reward-to-go或Q函數。此散布為一切操作分派一個非零幾率,但希冀報答更高的操作更能夠被采樣。是以,該戰略將主動把摸索引向報答更高的區域。這類特征可以被看做是摸索和開辟的軟組合,在現實運用中長短常無益的,由于它供給了比貪心摸索(greedy exploration)更多的構造,而且正如我們試驗所展現的那樣,這年夜年夜進步了樣本的龐雜性。其次,正如我們在文章中所展現的那樣,自力練習的最年夜熵戰略可以經由過程增長Q函數而其組合在一路,從而為歸并后的嘉獎函數發生一個新的戰略,該戰略被證實近乎于響應的最優戰略。在現實運用中,掌握器的可組合性尤其主要,而這在尺度強化進修中是弗成能的。在這些運用中,反復應用曩昔的經歷可以極年夜地進步義務的樣本效力(這些義務可以天然地分化為更簡略的子成績)。例如,拾取和放置的戰略可以分化為(1)達到指定的X坐標(2)達到指定的Y坐標(3)躲避妨礙。是以,這類可分化的戰略可以分三個階段進修,每一個階段發生一個子戰略,而這些此戰略隨后可以在須要與情況停止交互的情形下停止離線組合。
對兩個自力的戰略停止練習,從而響應地推進圓柱到橙色線和藍色線。黑色圓圈顯示了針對響應戰略的圓柱達到終究地位的樣本。當戰略組合在一路時,生成的戰略會進修將圓柱體推到線的下穿插點(綠色圓圈表現終究地位)。沒有來自情況的附加樣本用于對組合戰略停止練習。組合戰略進修知足兩個原始目的,而不是簡略地均勻終究圓柱地位。
本文的重要進獻是在最新提出的soft Q-learning(SQL)算法的基本上,提出了一種應用具有表達性的神經收集戰略進修機械人操作技巧的進修框架。我們證實了,該進修框架為進修各類機械人技巧供給了一種有用的機制,而且在現實機械人體系的樣本效力方面優于今朝最早進的無模子深度強化進修辦法。我們的試驗成果注解,在很年夜的水平上,SQL的機能要遠遠優于深度肯定性戰略梯度(DDPG)和歸一化優勢函數(NAF),這些算法曩昔曾被用于應用神經收集摸索實際世界中的無模子機械人進修。我們還演示了對SQL算法的全新的擴大,即應用它對之前進修過的技巧停止組合。我們提出了一個關于組合戰略和組合嘉獎函數最優戰略之間差異的實際界線,它實用于SQL和其他基于軟優化的強化進修辦法。在試驗中,我們應用最年夜熵戰略在模仿范疇和物理范疇的組合性,展現了分歧技巧的魯棒性進修,而且在樣本效力方面超出了現有的最早進的辦法。
當在Sawyer機械人長進行練習以將其末尾履行器挪動到特定地位時,DDPG(綠色)、NAF(白色)和SQL(藍色)的進修曲線。SQL的進修速度比其他辦法快很多。我們還經由過程將希冀的地位銜接到不雅察向量(橙色)以練習SQL到達隨機采樣的末尾履行器地位。SQL學會盡快處理這個義務。SQL曲線顯示10個輪數中的挪動均勻值。
在本文中,我們商量了若何將soft Q-learning擴大到實際世界中的機械人操作義務中,既可以進修單個操作義務,也能夠進修可以或許構成新戰略的組合義務。我們的試驗注解,實質下去說,soft Q-learning的機能要遠遠優于無模子深度強化進修。在模仿達到義務中,soft Q-learning具有比NAF更好的機能,個中包含多個戰略組合以達到新地位的情形。除此以外,在Sawyer機械人停止評價的真實世界義務的履行中,soft Q-learning的機能上勝過DDPG。該辦法具有更好的穩固性和收斂性,而且經由過程soft Q-learning取得的對Q函數停止組合的才能可使其在實際世界的機械人場景中特殊有效,個中針對每一個新嘉獎身分組合的新戰略停止再練習是耗時且昂貴的。
在不到兩個小時的時光里,便可以學會一個樂高堆疊戰略。進修到的戰略對攪擾聚于很強的魯棒性:當機械人被推動到一個與典范軌跡完整分歧的狀況后,它可以或許恢復并勝利地將樂高積木堆在一路。
在研討最年夜熵戰略的可組合性時,我們推導出了組合戰略與組合嘉獎函數的最優戰略之間誤差的界線。這一界線注解熵值較高的戰略能夠更輕易停止組合。在將來,一項成心義的研討偏向是探訪這一束縛對組合性的影響。例如,我們能否可以推導出一個可運用于組合Q函數的修改,以削減誤差?答復如許的成績,會使得從先前練習過的構建塊中創立新的機械人技巧變得加倍現實,這使得機械人更輕易取得經由過程強化進修所學到的年夜量行動。