當(dāng)前位置: 首頁 » 行業(yè)資訊 » 機(jī)器人»李飛飛新研究：基于深度學(xué)習(xí)和視覺化語言來了解不同物體間的關(guān)系

李飛飛新研究：基于深度學(xué)習(xí)和視覺化語言來了解不同物體間的關(guān)系

發(fā)布日期：2017-10-30 瀏覽次數(shù)：1027

核心提示：　　2017將來迷信年夜獎(jiǎng)?lì)C獎(jiǎng)儀式暨將來服裝論壇t.vhao.net年會(huì)28、29日在京舉行，斯坦福年夜學(xué)畢生傳授、谷歌云首席迷信家李飛飛在人工智能研究會(huì)上表現(xiàn)，比來她地點(diǎn)的試驗(yàn)室正在做一項(xiàng)新研討，基于深度進(jìn)修和視覺化

　　2017將來迷信年夜獎(jiǎng)?lì)C獎(jiǎng)儀式暨將來服裝論壇t.vhao.net年會(huì)28、29日在京舉行，斯坦福年夜學(xué)畢生傳授、谷歌云首席迷信家李飛飛在人工智能研究會(huì)上表現(xiàn)，比來她地點(diǎn)的試驗(yàn)室正在做一項(xiàng)新研討，基于深度進(jìn)修和視覺化說話形式懂得分歧物體之間的關(guān)系。

李飛飛新研究：基于深度學(xué)習(xí)和視覺化語言來了解不同物體間的關(guān)系

　　李飛飛表現(xiàn)，不管是植物智能照樣機(jī)械智能，視覺都長短常主要的技巧。視覺是人腦中最為龐雜的體系，占領(lǐng)年夜腦中50%的熟悉單元。視覺反響速度異常快，只須要150微秒。這使得圖象辨認(rèn)技巧變得異常主要但又非常龐雜。

　　曩昔8年時(shí)光，圖象辨認(rèn)的毛病率下降了10倍。2012年對(duì)GPU和深度辨認(rèn)技巧的懂得讓這一范疇完成了沖破。然則，在一個(gè)圖集中，要取得數(shù)據(jù)和物體之前關(guān)系的信息仍然很難，今朝所能做的任務(wù)都非常無限。李飛飛地點(diǎn)試驗(yàn)室正在為霸占這一范疇睜開新的研討。

　　她羅列了一張圖中的算法，這類算法可以猜測分歧物體之間的空間關(guān)系，停止比較，懂得這類對(duì)稱的關(guān)系，然后懂得物體之間的舉措，和它們的之間地位關(guān)系。物體之間還能有甚么樣的數(shù)據(jù)集，供給一個(gè)標(biāo)簽，停止短句子描寫。停止進(jìn)一步懂得視覺世界，而不只僅是一系列的物體稱號(hào)，試驗(yàn)室正在做相干量化研討。

　　以下是李飛飛演講實(shí)錄，enjoy：

　　明天我給年夜家?guī)淼氖潜葋淼囊恍┭杏懰季w，明天我的演講內(nèi)容是關(guān)于視覺智能，植物世界傍邊有許多物種，并且有一種異常了不得，絕年夜多半植物都有眼睛，是以視覺是最為主要的一種感不雅的辦法和認(rèn)知辦法，這是在植物的年夜腦傍邊，贊助植物活著界傍邊生計(jì)上去停止溝通，去操控和生計(jì)。

　　所以我們不管是評(píng)論辯論植物智能或許是機(jī)械智能的話，視覺長短常主要的基石。世界上所存在的這些體系傍邊，最為懂得的一點(diǎn)是我們所曉得的人類視覺體系。所以在5億多年前的時(shí)刻，這個(gè)退化曾經(jīng)賡續(xù)地讓我們的視覺體系賡續(xù)地成長，使得我們的視覺體系異常主要的去懂得這個(gè)世界，并且這是我們年夜腦傍邊最為龐雜的體系，并且有50%的年夜腦傍邊的這些認(rèn)知的單元，都有著最為龐雜、最為高等的感知體系，所以可以或許讓我們曉得人類的視覺體系異常了不得。

　　這是認(rèn)貼心理學(xué)家做過的一個(gè)最為有名的一個(gè)試驗(yàn)，這也就是告知年夜家人類的視覺系統(tǒng)有何等了不得，年夜家看一下這個(gè)視頻，你的義務(wù)是假如看到一小我的話就舉手，這是一個(gè)智商測試。所以每一個(gè)圖景的時(shí)光長短常短的，也就是1/10秒，不只如許，并且讓年夜家看一小我的話，并沒有告知你是甚么樣的人，或許他站在哪里，甚么樣的姿態(tài)，穿甚么樣的衣服，但是年夜家依然能很快地辨認(rèn)出這小我。

　　1996年的時(shí)刻，Newl（音譯）傳授先生證實(shí)出視覺認(rèn)知才能是人類年夜腦傍邊最為了不得的才能，由于速度異?？?，并且年夜概是150微秒，在150微秒以內(nèi)，我們的年夜腦可以或許差別異常龐雜的圖象。會(huì)把異常龐雜的含植物和不含植物的圖象差別出來，誰人時(shí)刻盤算機(jī)沒有接近人類的，這類任務(wù)鼓勵(lì)著盤算機(jī)迷信家，愿望處理最為根本的成績就是圖象辨認(rèn)成績。

　　過了20年到如今，盤算機(jī)范疇和專家也在這個(gè)成績上創(chuàng)造了幾代技巧，這個(gè)就是我們所懂得到的這些圖集，固然也獲得了異常年夜的停頓和提高。這張圖表是給年夜家總結(jié)一下，在曩昔的幾年傍邊，在分類挑釁傍邊一些標(biāo)記性的項(xiàng)目，橫軸是時(shí)光年份，右邊縱軸指的是分類毛病。我們可以或許看到它的毛病是下降了10倍。8年的時(shí)光里毛病率就下降了十倍，所以這八年傍邊閱歷了異常年夜的反動(dòng)。

　　2012年的時(shí)刻懂得了GPU技巧，和深度辨認(rèn)技巧，贊助世界懂得在深層進(jìn)修反動(dòng)的一個(gè)成長，所以異常使人沖動(dòng)的范疇，特別曩昔幾十年在人工智能的研討。作為迷信家就會(huì)想一下在這個(gè)圖集以外，還可以做到甚么。

　　經(jīng)由過程一個(gè)例子告知年夜家，兩張圖片，包含一個(gè)植物和一小我，經(jīng)由過程圖象辨認(rèn)來看這兩個(gè)圖異常類似，然則他們的故事倒是異常分歧的，固然你確定不想在左邊的圖的場景傍邊，我們?cè)谶@就會(huì)涌現(xiàn)一個(gè)異常主要的成績，就是人們可以或許做的，這也是最為主要、最為基本的一點(diǎn)圖象辨認(rèn)功效，就是辨認(rèn)圖象物體之間的關(guān)系，起首這個(gè)輸出是圖象自己，然則我們所輸入的信息包含物體的地位和物體之間的關(guān)系。固然這個(gè)范疇有一些后期任務(wù)，然則絕年夜多半任務(wù)都是比擬無限的。取得數(shù)據(jù)和物體之間的關(guān)系信息比擬無限。

　　比來我們的試驗(yàn)傍邊做了如許一項(xiàng)任務(wù)，開端新的研討，猜測依據(jù)深度進(jìn)修，和視覺化說話形式懂得分歧物體之間的關(guān)系。

　　這張圖的算法可以或許猜測分歧物體之間的空間關(guān)系，停止比較，懂得這類對(duì)稱的關(guān)系，然后懂得他們之間的舉措，和他們的之間地位關(guān)系。所以這就是一個(gè)更加豐碩的辦法，懂得我們的視覺世界，而不只僅是一系列的物體稱號(hào)，這是我們所做出的一些量化研討。解釋我們的任務(wù)在賡續(xù)地停頓和獲得提高的。

　　一年前的時(shí)刻，我們曉得這個(gè)范疇成長異?？?，就是關(guān)于盤算機(jī)圖象辨認(rèn)方面。我們也曉得有許多新的研討曾經(jīng)跨越了我們的研討結(jié)果。

　　我們可以看一下，在他們之間的關(guān)系是甚么，并且在這個(gè)圖象傍邊分歧物體的關(guān)系，可以或許讓我們?nèi)ジM(jìn)一步懂得這個(gè)成績，就是在物體之間還會(huì)有甚么樣的數(shù)據(jù)集。最開端我們曉得有這個(gè)抽象，異常無限的信息，好比這是一個(gè)物體，COCO進(jìn)一步進(jìn)修，供給一個(gè)標(biāo)簽，停止短句子描寫，視覺數(shù)據(jù)信息長短常龐雜和異常多的，

　　依據(jù)門路出來一些問答，經(jīng)由三年的研討，我們發(fā)明可以有更加豐碩的辦法來描寫這些內(nèi)容，經(jīng)由過程這些分歧的標(biāo)簽，描寫這些物體，包含他們的性質(zhì)、屬性和關(guān)系，然后經(jīng)由過程如許的一個(gè)圖譜樹立起他們之間的接洽?？梢栽谶@看一下這個(gè)內(nèi)容。如許一個(gè)數(shù)據(jù)庫傍邊，包含上千個(gè)標(biāo)簽，包含屬性和關(guān)系，還有句子、問答信息，在我們?nèi)缭S一個(gè)信息庫傍邊，可以或許異常準(zhǔn)確地讓我們來停止加倍準(zhǔn)確的研討，而不只僅曉得物體辨認(rèn)自己。

　　我們?nèi)艉瓮鶃韥硗鶓?yīng)用如許的圖表呢？我們做過的一個(gè)任務(wù)，就是我們看一下這個(gè)場景的搜刮，年夜家不管在百度照樣在Google搜刮中，搜刮過圖象或許圖集，好比可以輸出穿西裝的男性，可以展示出許多的圖，假如輸出心愛的小狗的話，有許多相似的圖會(huì)涌現(xiàn)，這一點(diǎn)異常好。同時(shí)看一下他們處理了甚么成績呢？能否處理了圖象搜刮的成績呢？我們輸出一個(gè)句子，男性穿戴西裝，抱著心愛的小狗，剎時(shí)成果不是特殊好了。絕年夜多半搜刮引擎的這類算法，在搜刮圖象的時(shí)刻，能夠許多照樣僅僅應(yīng)用物體自己的信息，他們只是簡略地懂得這個(gè)圖有甚么物體，然則這是不敷的。

　　假如我想搜刮一個(gè)坐在椅子上的男性的話，假如物體自己給我們一小我抽象或許椅子抽象再能加上更多的屬性，加上更多的信息，這個(gè)成果就會(huì)更好一些。

　　2015年的時(shí)刻，我們開端去摸索一種新的出現(xiàn)辦法，我們可以去輸出異常長的描寫性的段落，放到年夜型的數(shù)據(jù)庫傍邊，然后來把它和我們的圖象停止比較，我們經(jīng)由過程這類算法可以或許贊助我們停止很好的搜刮，這就遠(yuǎn)遠(yuǎn)地跨越了我們?cè)诿魈斓倪@個(gè)圖象搜刮技巧傍邊所看到的成果。

　　這個(gè)看起來異常好，然則年夜家會(huì)有一個(gè)成績，在哪里可以或許找到這些場景圖象呢？確切異常龐雜，并且很難贊助我們構(gòu)建起一個(gè)場景圖，所以我們是手動(dòng)地去構(gòu)建如許一個(gè)場景，這個(gè)進(jìn)程將會(huì)異常復(fù)雜，所以我們下一步的任務(wù)，我們就是愿望可以或許涌現(xiàn)主動(dòng)地發(fā)生場景圖的一個(gè)技巧。所以我們有如許一個(gè)主動(dòng)的體系，固然是經(jīng)由過程這類迭代的信息傳遞的形式，并且應(yīng)用這類深度進(jìn)修的出現(xiàn)辦法，固然太細(xì)節(jié)的內(nèi)容在這不給年夜家講了，然則要給年夜祖?zhèn)鬟f的一個(gè)主要信息。我們本年炎天的時(shí)刻的一個(gè)結(jié)果就是我們這個(gè)辦法在場景圖這方面的搜刮結(jié)果是比現(xiàn)行的激活技巧要更好的。

　　經(jīng)由過程如許一種場景圖，會(huì)給我們供給一個(gè)四層的進(jìn)程，并且讓我們更好地懂得場景信息，然則照樣不敷的。并且現(xiàn)實(shí)上到如今為止，我們僅僅摸索了認(rèn)貼心理學(xué)家所評(píng)論辯論的一個(gè)概念，人們?cè)谝谎郛?dāng)中可以或許看到甚么樣的內(nèi)容，有甚么樣的概念，人們只需看一眼就可以看出全部圖象傍邊的故事，所以我們要去看一下，這類只看一下圖就可以夠懂得它重要信息的才能是甚么呢？在我之前，已經(jīng)做過一個(gè)研討，就是愿望人們可以或許告知我們，你看到了這個(gè)圖的時(shí)刻看到了甚么內(nèi)容，所以這是我們的試驗(yàn)場景，試驗(yàn)人員坐在電腦屏幕眼前，給它異常冗長地看一些圖象，然后很快地去看別的的一個(gè)圖象，去隱瞞之前留下的印象。他們須要打印出本身所看到的一切內(nèi)容，做這個(gè)任務(wù)給他們付10美元，如今不給年夜家一小時(shí)10美元，年夜家可以試驗(yàn)一下這個(gè)感到，假如你是加入我的試驗(yàn)人員的話。

　　在這個(gè)圖傍邊其實(shí)很快可以或許被一張簡略的門路去蓋失落，很短的出現(xiàn)時(shí)光，只要27奧妙，27奧妙相當(dāng)因而1/40秒，簡略圖形的時(shí)光是半秒的時(shí)光，是更長的，人們照樣可以或許很好地輿解場景信息，根本上是很短的時(shí)光。假如我給的試驗(yàn)費(fèi)用更高的話，年夜家乃至能做的更好。在這個(gè)說話傍邊有異常豐碩的元素，不只僅看到圖象傍邊的物體是甚么，他們的關(guān)系是甚么，并且有更多的內(nèi)容。

　　2015年開端，我們有別的一個(gè)概念，叫做LSTM，他們?cè)竿颜f話之間關(guān)系樹立起來，我們?cè)陔娔X傍邊給他們一個(gè)圖象，可以或許描寫，穿橙色任務(wù)服的工人站在路上任務(wù)，或許穿黑色T恤的男士在彈吉他，不只僅用冗長的句子描寫圖形，所今后來停止進(jìn)一步的任務(wù)，就是深度捕捉?？疵恳粋€(gè)短句，描寫一個(gè)部門，然后描寫圖象的場景。

　　除這個(gè)以外，我們本年所做的任務(wù)，我們?cè)竿堰@些圖象要用這些短語，讓它成為小短的句子，成為一個(gè)小段落，給了更多的內(nèi)容，并且和認(rèn)貼心理學(xué)家所做的試驗(yàn)傍邊，人類的描寫成果長短常接近的。然則我們并沒有只停于這里，在上個(gè)周的ICCB的下面展現(xiàn)了一個(gè)視頻，異常豐碩的研討區(qū)域，許多收集上的視頻，有各類各樣的數(shù)據(jù)情勢(shì)，懂得這些視頻長短常主要的。在外面可以描寫更長故事的片斷，用異樣的模子可以如許做，可以把時(shí)光的元素參加到外面。

　　這就是一個(gè)例子，年夜家可以看一下，可以看到視頻是在停止著的，我們也能夠去描寫每個(gè)部門是怎樣樣的。

　　這是別的一個(gè)例子，也是描寫了這個(gè)演員正在做的這些工作，差不多年夜家能明確甚么意思了。

　　別的一個(gè)部門，除簡略的認(rèn)知之外就是推理，推理可讓我們可以或許回到人工智能的最后，在20世紀(jì)七八十年月的時(shí)刻，人工智能的前驅(qū)們，用了許多推理，斯坦福年夜學(xué)的一個(gè)傳授也是把他的研討稱為一個(gè)塊狀的世界，這外面觸及到許多的深度推理。藍(lán)色照樣不錯(cuò)的，愛好這些藍(lán)色的塊狀，不愛好白色的塊狀，不愛好支持三角形的器械，究竟愛好不愛好灰色的盒子呢？所以這里有許多推理須要去做的，然后夠得出一個(gè)準(zhǔn)確的謎底。

　　固然時(shí)光過得很快，不克不及講的特殊具體，然則我們?cè)谠囼?yàn)室里也是用了這些簡略的對(duì)象，來描寫如許一個(gè)分塊狀的世界。這外面也有許多的問答列表，每一個(gè)問答列表都是觸及到推理的進(jìn)程傍邊，最癥結(jié)的一些環(huán)節(jié)，包含空間的一些關(guān)系，一些邏輯關(guān)系，在這外面也有一些問答例子。

　　客歲，我們也是把這些智能的問答集做成了如許一個(gè)體系，人類能做若干，機(jī)械能做若干，在精確下面的一個(gè)比較。我們究竟怎樣可以或許做得更好呢？這也是比來我們做的一個(gè)任務(wù)，在ICCB揭橥的。我們用了一個(gè)新的法式去做，在我們的算法外面，我們把這些成績輸出出去，然后把法式停止一些調(diào)和，還有履行的引擎，用猜測的一些法式停止履行的處置。經(jīng)由過程如許一個(gè)算法，我們可以看到這些進(jìn)修的精確率。

　　有哪些進(jìn)修模塊呢？起首斷定究竟這些物體外形怎樣樣，這些紫色是甚么樣的，這是一個(gè)加倍龐雜的，就是在灰色的這些模塊旁邊，有若干發(fā)光的這些物體？得出的成果是2。

　　我給年夜家分享的就是一系列的任務(wù)，有哪些可以或許超出我們視覺的一些門路，其實(shí)我們?cè)诙脜㈩A(yù)景，還有其他的一些要素，關(guān)于全部的認(rèn)知會(huì)發(fā)生甚么樣的影響，除這個(gè)情形、視覺、說話，還有許多推理等等，這些都是很主要的。

　　最初，用這張圖來停止，這是20周年夜的一個(gè)小女孩，跟著她的認(rèn)知世界的成長，她經(jīng)由過程許多游戲，她也能夠經(jīng)由過程畫畫和各類玩具，來和世界樹立認(rèn)知，這是認(rèn)知視覺的智能，關(guān)于我們的懂得、交換、協(xié)作、互動(dòng)等等，視覺智能都長短常異常癥結(jié)的，讓我們開端摸索這個(gè)世界。

下一篇：美國大學(xué)研究腦力控制無人機(jī)：以腦電波通訊，獲美國防部支持

上一篇：預(yù)警丨談判失敗南美第一大港將無限期罷工，碼頭設(shè)施損壞船公司征收南非第一大港的擁堵費(fèi)！

[ 行業(yè)資訊搜索 ] [ 加入收藏 ] [ 告訴好友 ] [ 打印本文 ] [ 關(guān)閉窗口 ]

同類行業(yè)資訊

• 7年投資44.2億元！廣東持續(xù)推進(jìn)AI與機(jī)器人關(guān)鍵 • 人形機(jī)器人商業(yè)化落地可期
• 在成都，機(jī)器人批量造機(jī)器人 • 持續(xù)構(gòu)建創(chuàng)新生態(tài)，浦東加速人形機(jī)器人多元場景
• 人形機(jī)器人生產(chǎn)節(jié)奏漸趨明確多家公司布局絲杠 • 從實(shí)驗(yàn)室到賽場我國人形機(jī)器人迎來迅猛發(fā)展
• 機(jī)器人產(chǎn)業(yè)前景廣闊汽車零部件企業(yè)入局搶抓先 • 外媒：人形機(jī)器人首次在中國汽車工廠協(xié)作應(yīng)用
• 馬斯克：今年目標(biāo)生產(chǎn)5000臺(tái)人形機(jī)器人 • 廣東推出12項(xiàng)硬核舉措力促AI與機(jī)器人產(chǎn)業(yè)躍升

共0條 [查看全部] 相關(guān)評(píng)論

展會(huì)更多+

第26屆上海國際清

2025數(shù)控機(jī)床與金

2025中國(上海)機(jī)

2025武漢國際工業(yè)

04-032025中國(東莞)切削工業(yè)裝備博覽會(huì)

01-13第26屆上海國際清潔技術(shù)與設(shè)備博覽會(huì)

12-112025數(shù)控機(jī)床與金屬加工展暨第25屆中國國際工業(yè)博覽會(huì)

12-092025中國(上海)機(jī)器視覺展

12-042025第七屆亞洲消費(fèi)電子技術(shù)展

視頻更多+

中舟智能固守科技

玉灃科技：精研滑

新松機(jī)器人自動(dòng)化

羅克韋爾自動(dòng)化（

10-11中舟智能固守科技創(chuàng)新新品首發(fā)添彩中國夢(mèng)

10-11玉灃科技：精研滑臺(tái)十二載遙遙領(lǐng)先的模組

08-05新松機(jī)器人自動(dòng)化股份有限公司

07-18羅克韋爾自動(dòng)化（中國）企業(yè)宣傳片

07-18凌華科技機(jī)器手臂視覺導(dǎo)引解決方案

點(diǎn)擊排行

廣東推出12項(xiàng)硬核舉措力促AI與

“人機(jī)協(xié)同”要發(fā)揮各自“比較優(yōu)

從實(shí)驗(yàn)室到賽場我國人形機(jī)器人

馬斯克：今年目標(biāo)生產(chǎn)5000臺(tái)人形

機(jī)器人產(chǎn)業(yè)前景廣闊汽車零部件

人形機(jī)器人生產(chǎn)節(jié)奏漸趨明確多

外媒：人形機(jī)器人首次在中國汽車

在成都，機(jī)器人批量造機(jī)器人

持續(xù)構(gòu)建創(chuàng)新生態(tài)，浦東加速人形

人形機(jī)器人商業(yè)化落地可期

天堂色网-天堂色综合-天堂社区在线观看-天堂社区在线视频-天天操网-天天操网站

我的供應(yīng)

我的求購

商鋪管理

工業(yè)機(jī)器人及行業(yè)應(yīng)用

智能機(jī)器人

工業(yè)自動(dòng)化

智能裝備

李飛飛新研究：基于深度學(xué)習(xí)和視覺化語言來了解不同物體間的關(guān)系

• 7年投資44.2億元！廣東持續(xù)推進(jìn)AI與機(jī)器人關(guān)鍵	• 人形機(jī)器人商業(yè)化落地可期
• 在成都，機(jī)器人批量造機(jī)器人	• 持續(xù)構(gòu)建創(chuàng)新生態(tài)，浦東加速人形機(jī)器人多元場景
• 人形機(jī)器人生產(chǎn)節(jié)奏漸趨明確多家公司布局絲杠	• 從實(shí)驗(yàn)室到賽場我國人形機(jī)器人迎來迅猛發(fā)展
• 機(jī)器人產(chǎn)業(yè)前景廣闊汽車零部件企業(yè)入局搶抓先	• 外媒：人形機(jī)器人首次在中國汽車工廠協(xié)作應(yīng)用
• 馬斯克：今年目標(biāo)生產(chǎn)5000臺(tái)人形機(jī)器人	• 廣東推出12項(xiàng)硬核舉措力促AI與機(jī)器人產(chǎn)業(yè)躍升

第26屆上海國際清	2025數(shù)控機(jī)床與金
2025中國(上海)機(jī)	2025武漢國際工業(yè)

中舟智能固守科技	玉灃科技：精研滑
新松機(jī)器人自動(dòng)化	羅克韋爾自動(dòng)化（