1月28日,噴鼻港中文年夜學信息工程系傳授、商湯科技開創人湯曉鷗在新興科技峰會EmTech China上揭橥了題為《人工智能的中國式文藝中興》的演講。
商湯科技開創人湯曉鷗
下文為演講內容整頓:
明天,我講的標題是《人工智能的中國式文藝中興》,這個標題我在上海講過一次,我這小我不太愛好反復本身,因而我又想了一個新的標題——《人工智能的中國式十月反動》。
言歸正傳,我想年夜部門中國人都應當曉得《戰狼》,一會兒賺了56億。這在15、20年前是弗成能的;那時刻許多人會去買盜版的VCD,或許去網高低載一個盜版。假如如許,導演和演員也就沒有動力再持續保持下去了。明天,中國片子的結果最主要的推進力就是我們對原創和版權的尊敬。
我們如今不是只要一部片子如許勝利,好比《羞羞的鐵拳》賺了22億,《青春》到達14億的票房,《后任3》是18億,《無問西東》做到了5億票房。所以,對原創的尊敬使得中國的原創片子賡續往前成長。在三四十年月,全球片子成長起來時,中國片子其實不落伍,像《馬路天使》、《一江春水向東流》一點也不輸給好萊塢片子。
再往前,說一下文藝中興的時刻,假如米爽朗基羅的這些作品或許任何一個藝術品很快有人停止復制,那末他能夠也賺不到錢活不下去,所以,關于原創的尊敬也是文藝中興能真正鼓起的一個緣由。
說到原創,上面我們來說講人工智能。假如我講人工智能,年夜家第一能想到甚么公司?是谷歌。但總有一天,人工智能高潮會曩昔的,到那天年夜家必定能想到商湯科技。
為何是谷歌?由于谷歌真的把資金投入人工智能成長,2015年的研發經費達120億美金。2014年有一家公司叫DeepMind,只要12個員工,沒有賺錢,只是在用深度進修玩游戲和下棋,然則谷歌消費6.6億美金收買了這家公司。假如是在中國,年夜家就會花幾百萬美金把人一個個挖過去,那要廉價很多。然則假如那樣做的話,就不會有后來的AlphaGo了。 AlphaGo以后,谷歌又做了AlphaGo 2和AlphaGo Zero,有些公司開端學著AlphaGo下圍棋,還有的公司選擇打撲克牌,但從某種意義上講,這都是跟在他人的前面干事情。
真正成心義的工作是在AlphaGo之前你做了甚么?有無做甚么工作讓機械在某項義務上克服人類。在AlphaGo之前我們做了一件工作,2014年,我們團隊從事人臉辨認,在全球第一次讓機械的人臉辨認才能跨越了人的眼睛,像AlphaGo一樣,在某一小我類界說的單項義務上,機械超出了人類。
超出了人類就過了一條紅線,而過了這條紅線便可以在工業長進行運用。然則在真正運用的時刻,發明過了紅線照樣不敷用,從試驗室到年夜范圍家當化還有很長的路要走。2014年,我們用20萬人臉來對機械停止練習做到了98.5%的精確率,而人是97.5%;2015年我們用30萬人臉停止練習,到達了99.55%的精確率;2016年,我們用6000萬人臉練習可以到達了百萬分之一的誤識率;2017年,我們用20億人臉練習可以到達一億分之一的誤識率,而如許的誤識率才可以真正地運用到各行各業,包含監控、金融、安防、手機等行業。所以,我們和高通簽訂了全球AI計謀協作協定。
那末除人臉辨認,我們如今還做甚么?這個技巧是行動檢測,我們用盤算機視覺剖析的辦法,可以從很長的一段視頻里把重點內容檢測出來,你便可以直接跳過沒成心義的部門,直接看這些風趣的、真實的鏡頭。還有基于內容的視頻搜刮,在片子中我們可以把各類各樣的片斷搜刮出來,好比說你想搜刮武感動作片斷,或許悲劇片斷,我們可以直接把它搜刮出來,或許你想搜刮科幻的,我們可以把科幻的片斷搜刮出來。
和用天然說話描寫來停止場景搜刮,我們用天然說話來描寫一個片子中的場景,然后它便可以主動依據你的描寫把這個片子片斷搜刮出來,好比,我們要搜House of Cards中的一個片斷,“Claire和Frank坐在藍色沙發上”,年夜家看到上面這段場景就出來了。別的,我們不只能把視頻剖析出來,還能懂得這個視頻,然后用天然說話描寫出來。好比上面這些活動視頻,機械便可以像講解員一樣來描寫活動場上產生的工作。
IJCV是我們這個范疇的兩年夜頂級雜志之一,作為IJCV的主編,我會在每一年的ICCV和CVPR兩個盤算機視覺頂級會議上,主辦IJCV Night晚會,約請幾百位頂級學者加入。上面這個演示里我們把片子場景里的一切物體都檢測出來,演員是哪個演員,他穿的是甚么衣服,這個場景是在餐廳里,一切的桌子、花、椅子全體可以或許及時的主動檢測出來,如許的技巧在之前長短常難的,然則如今我們都可以做到了。
再回頭來看我們若何用這些技巧來剖析后面提到的片子《戰狼》和《羞羞的鐵拳》,我們經由過程剖析這些演員的舉措和他們之間的關系,可以剖析出來在分歧的場景之下,這兩個演員是誰,在做甚么,這個片斷是甚么類的情節。
同時,我們可以辨認每幀情節分類,每個鏡頭是斗毆場景照樣愛情場景。我們也能夠把一個片子最出色的鏡頭提掏出來,年夜家可以遴選好比舉措的出色鏡頭、情感戲的出色鏡頭、喜劇的出色鏡優等等。
那末總結起來,我們在做甚么呢?我們是在教機械看片子,一開端我們是教機械來辨認人臉,Google是在教機械來下圍棋,而如今我們來教機械取代人看片子。這個感到有點怪,我們讓機械來做下棋,看片子,玩游戲這些風趣的工作,然后我們人類只擔任給機械充充電,維修和頤養。
我認為年夜家聽了這個必定認為很好笑。現實上一切的義務,都是我們人支配給機械做的,機械是依照我們的指令在干事情,不存在機械掌握人類如許的工作,AI的真正目標是贊助人類,贊助我們進步臨盆效力。
最初給年青人留下兩句話:第一句,片子必定要本身親身去看。第二句,AI這個詞在中國拼音翻譯過去就是“愛”,所以談愛情也要本身親身去談,不然你就不止“后任3”了,很有能夠“后任4”、“后任5”了。