導(dǎo)讀: 機(jī)器人擁有人一樣的意識(shí),一直是我們目前難以攻克的難題。
機(jī)器人擁有人一樣的意識(shí),一直是我們目前難以攻克的難題。在近日,加州大學(xué)伯克利分校的科學(xué)家和谷歌人工智能(AI)研究部門之一的Google Brain在Arxiv.org上發(fā)表的一份預(yù)印本論文中描述了一種人工智能系統(tǒng),即通過(guò)深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)走路,簡(jiǎn)單來(lái)說(shuō),就是教“一個(gè)四足機(jī)器人來(lái)穿越熟悉和不熟悉的地形”。
目前,在此預(yù)印論文中表示,他們已經(jīng)研究出了新型算法,并且根據(jù)算法演練,實(shí)現(xiàn)了機(jī)器人自己走路。這也就表明了人工智能系統(tǒng)可以讓機(jī)器人學(xué)會(huì)人一樣的用靈活的方式掌握和操縱自身或者周圍的物體。
隨著近幾年來(lái),機(jī)器人領(lǐng)域的發(fā)展和人工智能的崛起,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)被用來(lái)處理控制系統(tǒng)面臨的難題,尤其是在機(jī)器人的靈活操縱方面。
在現(xiàn)實(shí)生活中,人們很輕而易舉的就將物體堆疊,或者用手工制作各式各樣的工藝品,但是一直以來(lái),機(jī)器人卻一直無(wú)法跨越靈活性的鴻溝。
要知道的是,機(jī)器人靈活性一直以來(lái)就面臨很多挑戰(zhàn):
首先,在機(jī)器人進(jìn)行學(xué)習(xí)時(shí),必須經(jīng)過(guò)自身與環(huán)境之間的反復(fù)驗(yàn)證,來(lái)獲取數(shù)據(jù)。
其次,機(jī)器人還得通過(guò)自身的觀察來(lái)導(dǎo)出這些行為,這里面包含了很強(qiáng)的時(shí)間相關(guān)性。
最后,機(jī)器人很容易在環(huán)境發(fā)生轉(zhuǎn)變之后,其習(xí)慣性的行動(dòng)后果也不可預(yù)估。
我們不知道機(jī)器人會(huì)采取哪些行為,來(lái)描述不可預(yù)知的事情,所以,人們無(wú)法感知違背探索的事物也致使機(jī)器人靈活性受到局限。
預(yù)印論文中寫道:深度強(qiáng)化學(xué)習(xí)可以用于自動(dòng)獲取一系列機(jī)器人任務(wù)的控制器,從而實(shí)現(xiàn)將感知輸入映射到低級(jí)別動(dòng)作的策略的端到端學(xué)習(xí)。其意思就是,假設(shè)機(jī)器人在現(xiàn)實(shí)世界中可以直接學(xué)習(xí)運(yùn)動(dòng)操縱,那么,每個(gè)機(jī)器人就能像人一樣,獲取最適合自己的單個(gè)的控制器,從而完成自身敏捷性、穩(wěn)健性、能源效率上的突破。
深度強(qiáng)化學(xué)習(xí)可以通過(guò)算法來(lái)驅(qū)動(dòng)機(jī)器人獲取大量的數(shù)據(jù)樣本,通過(guò)成千上萬(wàn)的模擬實(shí)驗(yàn),來(lái)取得最好的結(jié)果。
早在2015年,就有科研人員在《自然》雜志上發(fā)表論文Human-level control through deep reinforcement learning,論文中提出的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的思想模型,在Atari游戲平臺(tái)的演示上,展示出了超越人類水平的表現(xiàn)。
可以預(yù)知的是,在未來(lái)幾年間,深度強(qiáng)化學(xué)習(xí)能夠被應(yīng)用在不同的領(lǐng)域,例如在視頻游戲上、在棋類游戲上、控制復(fù)雜的機(jī)械操作、調(diào)配網(wǎng)絡(luò)資源、為數(shù)據(jù)中心大幅節(jié)能、對(duì)機(jī)器學(xué)習(xí)算法自動(dòng)調(diào)參等等。
這種深度強(qiáng)化學(xué)習(xí)給機(jī)器人帶來(lái)的發(fā)展,相信隨著時(shí)間,也終將會(huì)給我們答案。