天堂色网-天堂色综合-天堂社区在线观看-天堂社区在线视频-天天操网-天天操网站

 
當前位置: 首頁 » 行業資訊 » 機器人»應用 AI 之前,你必須了解的 10 項準備工作
   

應用 AI 之前,你必須了解的 10 項準備工作

 46.1K
     [點擊復制]
放大字體  縮小字體 發布日期:2017-09-06   瀏覽次數:1096
核心提示:不是每個成績都可以經由過程機械進修來處理,且不是每個公司都預備運用人工智能。本文會告知你,你的公司能否有益用人工智能的前提,和在那之前若何能力完成它?! ∑鹗祝銜缘帽旧硐胍聹y或檢測甚么嗎?你有足夠

應用 AI 之前,你必須了解的 10 項準備工作

不是每個成績都可以經由過程機械進修來處理,且不是每個公司都預備運用人工智能。本文會告知你,你的公司能否有益用人工智能的前提,和在那之前若何能力完成它。

  起首,你曉得本身想要猜測或檢測甚么嗎?你有足夠的數據停止剖析以樹立猜測模子嗎?你有界說模子和練習模子所需的人員和對象嗎?你曾經有了統計或物理模子來作為一個猜測基準嗎?

  這篇文章對你的人工智能和機械進修項目停止分化,評論辯論其各個部門所帶來的影響,從而贊助你肯定公司能否真正預備須要應用機械進修、深度進修某人工智能。

  你具有年夜量的數據

  足夠的相干數據是猜測和特點辨認的需要前提。有了它,你能夠會勝利;沒有它,則注定掉敗。那末你須要若干數據呢?你測驗考試歸入模子的身分越多,所須要的數據就越多,不管你是在做通俗的統計猜測、機械進修照樣深度進修。

  以發賣猜測中罕見的成績為例,好比,為了不延遲交貨,且不會占用太多金錢和現貨貨排擠間,那末你下個月將在邁阿密出售若干水師藍短袖襯衫?和你須要在邁阿密店和亞特蘭年夜倉庫中貯備若干存活?批發是強季候性行業,所以你須要從多年的汗青數據中總結出有統計學意義的月度數據,從而修改月度銷量動搖,并樹立一個年化趨向——這還只是一個尺度的時光序列剖析。機械進修比統計模子須要更多的數據,而深度進修模子是它的好幾倍。

  統計模子會剖析你的全國連鎖店在 5+ 年間的襯衫月銷量,并應用這一數據來猜測下個月的襯衫銷量,能夠有幾十萬(假定是 30 萬)。然后你可以猜測邁阿密的襯衫銷量占全國銷量的百分比(假定是 3%),并零丁猜測出藍色短袖上衣銷量所占襯衫性銷量的百分比(假定是 1%)。該模子會指出,下個月藍色短袖襯衫總銷量的 90% 閣下將售于邁阿密。你可以經由過程比較分歧產物的年度同店銷量來核實猜測成果,同時剖析它們之間的差別水平。

  如今,假定你想要斟酌一些內部身分,好比氣象和風行趨向。短袖襯衫在熱天或好天時是否是比陰雨地利賣的更好?能夠如斯。你可以將汗青氣候數據歸入到你的模子中來做猜測,固然如許做有點愚笨,由于你須要做一個時光序列的統計模子,所以你能夠會決議應用回歸叢林,趁便再嘗嘗其它 7 種回歸機械進修模子,然后將每一個模子測得的「cost」(一個歸一化誤差函數)與客歲的現實成果比擬較,從而找到最好模子。

  比擬于客歲同時段的水師藍襯衫銷量,下個月會更好照樣更差?你可以看看水師藍服裝網www.vhao.net一切的月度銷量,并猜測出年度風行趨向,然后將其歸入到你的機械進修模子中?;蛟S你能夠須要來自時髦媒體方面的信息對模子停止手動校訂。(「為以防萬一,假定下月銷量會進步 20%?!梗?/p>

  或許你想樹立一個深度神經收集來完美這個模子。你能夠會發明,每添加一個隱蔽層,便可以將回歸誤差進步幾個百分點,直到某一時辰,再添加隱蔽層也杯水車薪,爾后收益遞加。這類情形能夠是由于形式中沒有更多的特點可供辨認,或許更能夠的緣由是,曾經沒有足夠多的數據來支撐模子的深刻改良。

  你有足夠的數據迷信家

  能夠你曾經留意到,單小我須要單獨樹立下面評論辯論的一切模子。其實不是如許,建模子不只僅是把數據倒在漏斗中然后按個按鈕這么簡略。不論你應用哪一種對象——雖然供給商能夠對此會有請求,它須要經歷、直覺、編程才能和優越的統計學配景,如許能力輕松駕御機械進修,從而完成你的設法主意。

  特別是某些廠商常常宣稱,「任何人」或「任何營業腳色」都可使用商家事后練習過、可運用的機械進修模子。假如該模子正好可以處理手頭的成績,這話不假,好比將正式的魁北克法語文本翻譯為英語,但更罕見的情形是,現有的練習過的機械進修模子其實不實用于你的數據。既然你曾經練習了模子,你就須要數據剖析師和數據迷信家來指點練習,這更像是一門藝術,而非工程或迷信。

  在雇用數據迷信家時,最奇異的工作之一就是對任務崗亭的請求,特別是與受聘者的現實技巧比擬。告白上常常說「雇用:數據迷信家。STEM 博士。20 年經歷?!沟谝粋€怪事是,該范疇的成長過程還未足 20 年。第二件怪事是,公司雇傭 26 歲的碩士卒業生——也即除學術界外沒有任何任務經歷,與 20 年經歷的請求相去甚遠——偏好那些曾經有相干經歷的人,由于他們擔憂高等人員太貴,雖然他們的請求是 20 年任務經歷。是的,這很虛假,且十之八九長短法的年紀輕視,但實際情形就是這個模樣。

  你跟蹤或取得那些主要的身分

  即便你有年夜量的數據和許多數據迷信家,你也能夠沒法具有包括一切相干變量的數據。以數據庫術語的話說,你能夠有年夜量的行,但缺乏一些列。統計學下去說就是,你能夠有沒有法說明的方差。

  一些自力變量的丈量(好比氣象不雅測)很輕易取得并被歸并到數據集中,乃至可在過后被歸并。其它一些變量的丈量或獲得進程能夠較為艱苦,好比不實在際或本錢昂揚,即便你曉得這些變量是甚么。

  舉一個化學范疇的例子。當你在銅上鍍鉛時,你可以丈量氟硼酸鍍液的溫度和濃度,并記載陽極電壓,但假如溶中沒有合適數目的肽鏈,那末你就不會獲得很好的成果。假如你沒有稱量放入溶液中的肽鏈,就沒法曉得這類癥結催化劑的劑量,那末你將沒法應用其它變量來說明電鍍質量的變更。

  你有清算和轉換數據的辦法

  數據簡直老是那末喧鬧。丈量進程能夠會喪失一個或多個值;單個值能夠會超越規模,或與統一計量進程中的其它值不相當;電子丈量能夠因為電噪聲而變得禁絕確;答復成績的人能夠其實不懂得成績自己,或是假造謎底;諸如斯類。

  在任何剖析進程中,數據過濾步調平日須要消費最多設置時光——是依據我的經歷,它占到總剖析時光的 80% 到 90%。有些公司在它們的 ETL(提取、轉換和加載)進程中清算數據,如許剖析師應當永久都看到不良數據點了,而其它公司則將數據與 ETL(和最初一步的轉換步調)進程放在數據倉庫或數據湖中。這意味著,即便是最輕易過濾失落的臟數據也會被保留上去,實際上,過濾器和轉換步調須要跟著時光的推移而停止改良。

  即便是過濾后的準確數據能夠也須要在剖析前做進一步的轉換。與統計學辦法一樣,只要當每種能夠的狀況都有類似的行數時,機械進修模子的后果才最好,這意味著,那些最受迎接的狀況數能夠會因為隨機抽樣而削減;異樣,當一切變量的規模都被尺度化后,機械進修模子能力到達最好后果。

  例如在微軟的一篇博文中,微軟小娜剖析了特朗普和克林頓的競選捐錢,解釋了預備機械進修數據集的方法:創立標簽、處置數據、設計附加功效和清洗數據。這類剖析用 SQL 和 R 說話做了幾個轉換,以肯定與克林頓或特朗普相干的各類委員會和競選資金,并基于捐贈者的姓名來肯定他們的性別,和改正拼寫毛病,并修復類之間的不屈衡性(數據集中有 94% 都是克林頓的捐錢,且年夜部門是小額捐錢)。

  你曾經對數據做了統計剖析

  在剖析數據息爭決成績時,最應當防止的就是一個勁地往前沖。在你可以或許弄清晰產生的工作及其緣由之前,你須要退后一步,看一看一切的變量及其互相之間的關系。

  摸索性的數據剖析可以疾速顯示出一切變量的規模和散布,好比變量對是趨勢于彼此依附照樣各自自力、簇位于何處,或哪些處所能夠會有離群值。當你的變量高度相干,常常削減剖析進程中的某個變量是很有效的,或停止一些相似于慢慢多元線性回歸的辦法來肯定最好的變量選擇。其實不是說終究模子是線性的,然則在引入艱苦成績之前,測驗考試一些簡略的線性模子很有效;假如你的模子前提太多,那末你可以以一個超定組(overdetermined system)掃尾。

  你測試很多辦法來找到最好模子

  關于一個給定的數據集,找到最好形式的辦法只要一種:全體試一遍。假如你的建模對象之前曾經有許多人做過,但仍具挑釁性,好比攝影特點辨認和說話辨認,你能夠忍不住只想測驗考試年夜賽中的「最好」模子,但不幸的是,那些模子常常是最為盤算密集型的深度進修模子,好比圖象辨認須要卷積層,語音辨認須要長短時間記憶層(LSTM)。假如你須要練習那些深度神經收集,你能夠須要比平常辦公所需的更多的盤算才能。

  你有足夠的盤算才能來練習深度進修模子

  你的數據集越年夜,你的深度進修模子就須要越多的層,練習神經收集的時光也就越多。具有年夜量的數據可以贊助你練習出一個更好的模子,層數多可以贊助你辨認更多特點,但它們也會因為練習時光的增長而對你發生晦氣的影響。你能夠等不了一年的時光來練習每個模子;一周是比擬公道的,特殊是由于你將很有能夠須要調劑幾十次模子。

  處理練習時光成績的一個辦法是應用通用圖形處置器(GPGPU),好比應用英偉達公司臨盆的芯片,來做有關神經收集層的向量和矩陣盤算(也稱為線性代數)。比擬于僅僅應用一張 CPU,同時應用一張 GPU 和一個 CPU K80 常??梢詴x升 5 到 10 倍的練習速度,假如你能將全部收集的「核(kernel)」輸出到 GPU 的當地存儲器中的話,而假如應用一張 P100 GPU,則可以將練習速度晉升 100 倍。

  在一張 GPU+一張 CPU 的組合以外,你還可以樹立多個 CPU 和 GPU 的調和收集,以便在更短的時光內處理更年夜的成績。除非你全年都在練習深度進修模子,且有一個偉大的本錢預算,不然你會發明,租賃云端 GPU 的應用時光會是性價比最高的選擇。一些深度進修框架,包含 CNTK,MXNet 和 TensorFlow,支撐 CPU 和 GPU 的并行盤算,關于有著合適機能 GPU 的年夜型虛擬機(virtual machine,VM)收集來講,它們已被證實具有公道的縮放系數(在一個測試中年夜約為 85%)。你可以找到這些框架,而且它們正愈來愈多地被裝置到由重要云供給商上支撐的 GPU 虛擬機中。

  你的機械進修模子優于你的統計模子

  簡略的統計模子為你的機械進修和深度進修項目奠基了基本。假如你不克不及晉升一個給定的模子的機能,那末你就應當對其停止調劑或測驗考試分歧辦法。一旦你曉得你在做甚么,你便可以在一個超參數優化算法的掌握下,同時為很多模子設置練習參數,然后用最好的成果指點你的下一步行為。

  你可以安排猜測模子

  終究,你將愿望及時運用你所練習的模子。猜測模子可以運轉在辦事器、云端、小我盤算機或德律風上,這取決于運用法式的分歧須要。深度進修框架供給了各類選項來將模子嵌入到網頁和挪動運用法式中。亞馬遜、谷歌和微軟都是經由過程臨盆能懂得語音的花費級裝備和智妙手機運用法式來證實其適用性。

  你可以或許按期更新你的模子

  假如你曾經應用本身的數據練習好了模子,你會發明該模子的誤差率(假陽性和真陰性)會跟著時光的推移而增長。根本上,這是由于數據會跟著時光的推移而漂移:你的發賣模子、競爭敵手、作風和經濟都邑轉變。為了順應這類影響,年夜多半深度進修框架都有一個選項,可以在新數據上對舊模子停止再練習,并用新模子調換猜測辦事。假如你每個月都如許做,應當可以或許包管你不會遭到數據漂移的影響。假如你不克不及,那末你的舊模子終究將變得缺乏為靠。

  回到本文開首的那些成績,你曉得本身想要猜測或檢測甚么嗎?你有足夠的數據停止剖析以樹立猜測模子嗎?你有界說模子和練習模子所需的人員和對象嗎?你曾經有統計或物理模子來作為一個猜測基準嗎?

  假如已萬事俱備,那你還在等甚么?

只要你關注機器人,你就無法錯過睿慕課

 
 
 
[ 行業資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關閉窗口 ]
 
 
 
主站蜘蛛池模板: 欧美精品系列 | 一级做a爰片久久毛片唾 | 免费一级特黄 | 无遮挡一级毛片 | 午夜视频成人 | 最新国产三级在线观看不卡 | 欧美日韩三区 | 精品视频在线播放 | 色综合天天综合网国产成人网 | 手机看片1024久久精品你懂的 | 国产a区| 亚洲免费网站观看视频 | 欧美日韩中文国产 | 国产成人在线视频播放 | 毛片在线高清免费观看 | 77788色淫网站女女免费视频 | 色在线观看视频 | 日韩欧美亚洲一区二区综合 | 视频成人永久免费看 | 特级毛片视频在线 | 污视频网站大全 | 国产精品日韩在线观看 | 伊人网大 | 日本黄区 | 欧美z000zxxxx | 我看黄色片| tom影院亚洲国产一区二区 | 国产一有一级毛片视频 | 国语性猛交xxxx乱大交 | 波多野结衣成人 | 国产成人在线播放视频 | 欧美另类丰满熟扫乱xxxxx | 小明永久播放平台领域2015 | 国产一区二区在线 |播放 | 免费国产成人高清视频网站 | h无遮挡成人漫画网站 | 亚洲免费小视频 | 小明www永久在线看 小明爱看看永久成人免费平台 | 国产黄色片在线观看 | 未成人禁止视频高清在线观看 | 色天天天综合色天天碰 |