性色A∨人人爽网站,中文字幕亚洲无线码一区女同,亚洲日韩爆乳中文字幕欧美

當(dāng)前位置：首頁(yè)>一起惠資訊>購(gòu)物資訊>商湯科技林達(dá)華：AI處于粗放型發(fā)展階段

商湯科技林達(dá)華：AI處于粗放型發(fā)展階段

一起惠2018-07-06 08:44:01467 次

7月5日消息，日前，在由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）、雷鋒網(wǎng)、香港中文大學(xué)（深圳）聯(lián)合舉辦的2018全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR）上，商湯科技聯(lián)合創(chuàng)始人、香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室主任林達(dá)華教授，發(fā)表了題為“計(jì)算機(jī)視覺(jué)研究中的新探索”的演講，闡述了計(jì)算機(jī)視覺(jué)未來(lái)3~5年的研究方向。

林達(dá)華指出，人工智能在過(guò)去幾年的成功，它不是偶然的，也并不僅僅只是算法發(fā)展的結(jié)果，它是很多的因素歷史性地交匯在一起，促成了這波人工智能浪潮。

第一個(gè)是數(shù)據(jù)，海量數(shù)據(jù)、運(yùn)用場(chǎng)景數(shù)據(jù)的積累，以及GPU的發(fā)展，計(jì)算能力大幅度的躍升，在這個(gè)基礎(chǔ)上，算法的進(jìn)展才帶來(lái)了今天人工智能的成功和在眾多應(yīng)用場(chǎng)景的落地。人工智能不是一個(gè)魔術(shù)，從某種意義上它就是在龐大的數(shù)據(jù)量、在巨大的計(jì)算能力支撐下的性能進(jìn)步。

林達(dá)華表示，目前人工智能還處于粗放型發(fā)展階段，準(zhǔn)確率不是唯一的方向；人工智能發(fā)展有多方面不同含義，比如效率、成本、質(zhì)量等等。

他還認(rèn)為，人工智能，其最終目的是要為我們的生活帶來(lái)便利，提高我們生活的質(zhì)量。但是最近幾年人工智能的發(fā)展好像走入了誤區(qū)，人工智能的質(zhì)量跟準(zhǔn)確率是掛鉤的，但其實(shí)人工智能是有多個(gè)方面不同的含義，不僅僅是質(zhì)量，它的質(zhì)量其實(shí)是多個(gè)方面、多個(gè)層次的。

以下為林達(dá)華教授演講實(shí)錄：

今天非常榮幸能夠在這里分享港中文-商湯聯(lián)合實(shí)驗(yàn)室過(guò)去幾年的工作。首先說(shuō)明一下我并沒(méi)有直接地去參與商湯在商業(yè)領(lǐng)域的運(yùn)作，所以大家如果要關(guān)心商湯什么時(shí)候上市，這個(gè)問(wèn)題我是回答不了的。但是我能夠告訴給大家的是，商湯公司不是一天建成的，它今天的成功也不僅僅是三年半的努力，它是建立在它背后這個(gè)實(shí)驗(yàn)室18年如一日的原創(chuàng)技術(shù)積累。我們今天在這個(gè)實(shí)驗(yàn)室所做的事情，它影響的不是商湯今天拿什么東西出去賺取利潤(rùn)，而是商湯要做一個(gè)偉大的科技公司，在未來(lái)的3年、5年、10年要向什么地方走。

準(zhǔn)確率不是唯一的方向目前人工智能還處于粗放型發(fā)展階段

在過(guò)去的8年時(shí)間中，計(jì)算機(jī)視覺(jué)可以說(shuō)是取得了一個(gè)突破性的進(jìn)展，最重要的在技術(shù)上的進(jìn)展應(yīng)該是深度學(xué)習(xí)的引入。在這個(gè)領(lǐng)域有一個(gè)非常高級(jí)別的比賽叫做ImageNet。在2012年之前，這個(gè)錯(cuò)誤率都是比較高的，2012年以后由于深度學(xué)習(xí)的引入，經(jīng)歷了4年的黃金時(shí)期。在這4年的黃金期里面，ImageNet的錯(cuò)誤率從16%下降到了接近3%。

在這里我想問(wèn)的一個(gè)問(wèn)題是，深度學(xué)習(xí)確實(shí)在這幾年的黃金時(shí)期取得了突破性的進(jìn)展，但是不是說(shuō)我們到了現(xiàn)在這個(gè)水平，計(jì)算機(jī)視覺(jué)的研究已經(jīng)終結(jié)了呢？從現(xiàn)在這個(gè)水平再往前看3年、5年、10年的時(shí)間，我們未來(lái)的研究方向應(yīng)該做什么？這是我們整個(gè)實(shí)驗(yàn)室，也包括商湯一直在思考的問(wèn)題。

事實(shí)上如果要回答這個(gè)問(wèn)題，我們可以看到，人工智能在過(guò)去幾年的成功，它不是偶然的，也并不僅僅只是算法發(fā)展的結(jié)果，它是很多的因素歷史性地交匯在一起，促成了這波人工智能浪潮。

第一個(gè)是數(shù)據(jù)，我們的海量數(shù)據(jù)、運(yùn)用場(chǎng)景數(shù)據(jù)的積累，以及GPU的發(fā)展，計(jì)算能力大幅度的躍升，在這個(gè)基礎(chǔ)上，算法的進(jìn)展才帶來(lái)了今天人工智能的成功和在眾多應(yīng)用場(chǎng)景的落地。所以我在這里希望向大家傳遞的信息是，雖然大家看到人工智能的很多成功的故事，看到了算法方面的巨大進(jìn)展，但是人工智能不是一個(gè)魔術(shù)，從某種意義上它就是在龐大的數(shù)據(jù)量、在巨大的計(jì)算能力支撐下的性能進(jìn)步。

這其實(shí)從某種意義上是一種非常粗放型的發(fā)展，大家都去追逐一個(gè)正確率，追求性能的目標(biāo)。最近幾年中國(guó)的公司在國(guó)際上所有比賽的榜單上都排到了前三名，但是這是以巨大的工程力量和資源投入為代價(jià)的，這種發(fā)展模式是不是可以持續(xù)？這是我們需要思考的問(wèn)題?；仡櫳疃葘W(xué)習(xí)或者人工智能在過(guò)去幾年的發(fā)展，我覺(jué)得有很多的事情，我們還有很長(zhǎng)的路需要走。

效率、成本、質(zhì)量人工智能發(fā)展有多方面不同含義

在這里分享幾個(gè)方向的思考，第一，是學(xué)習(xí)的效率，是不是充分地把我們的計(jì)算資源使用起來(lái)。第二，我們面對(duì)巨大的數(shù)據(jù)成本，或者標(biāo)注成本，如何解決這個(gè)困境。最后，就是說(shuō)我們雖然在榜單上拿到了99.9%的準(zhǔn)確率，但是這樣訓(xùn)練出來(lái)的模型是不是真正滿(mǎn)足我們的生活或者社會(huì)生產(chǎn)的需要？這些都是我們要把人工智能落地，推向更快、更好發(fā)展需要解決的問(wèn)題。

首先我們講第一個(gè)方面，效率。

我剛才說(shuō)過(guò)，我們現(xiàn)在基本上是用粗放型的方法發(fā)展，就靠堆積數(shù)據(jù)、堆積計(jì)算資源，去獲得很高的性能，是資源的競(jìng)爭(zhēng)，而不是效率的競(jìng)賽。但是我們未來(lái)要怎么發(fā)展，就需要進(jìn)一步回顧我們現(xiàn)在的模型和技術(shù)的模式，看看還有沒(méi)有優(yōu)化的空間。優(yōu)化的原理非常簡(jiǎn)單，就是把好鋼用在刀刃上。

舉一個(gè)具體的例子，我們?cè)趲啄昵熬烷_(kāi)始進(jìn)入了視頻領(lǐng)域，視頻是一個(gè)非常需要效率的地方，視頻的數(shù)據(jù)量非常龐大，一秒鐘的視頻就是24幀，一分鐘的視頻就差不多是1500幀，基本上相當(dāng)于一個(gè)中型的數(shù)據(jù)。利用傳統(tǒng)的處理圖像集的方式去處理視頻顯然是不合適的。

在2013、2014年的時(shí)候大部分的視頻分析方法采取的是比較簡(jiǎn)單的方式，每一幀都拿出來(lái)跑一個(gè)卷積網(wǎng)絡(luò)，最后把它集成綜合到一起進(jìn)行判斷。雖然說(shuō)過(guò)去幾年計(jì)算資源發(fā)展非常快，但是GPU的顯存還是有限的，如果每一層都放到CNN去跑，GPU顯存只能容納10幀到20幀左右，一秒鐘的視頻就把GPU充滿(mǎn)了，是沒(méi)辦法對(duì)長(zhǎng)時(shí)間的視頻進(jìn)行分析的，這是一種非常低效的模式。

我們知道視頻相鄰幀之間是非常相似的，這一幀跑一次，下一幀再跑一次，大量的計(jì)算浪費(fèi)掉。我們看到了這個(gè)重復(fù)計(jì)算的低效，我們把這個(gè)采樣方法重新進(jìn)行了改變，改用了稀疏采樣，無(wú)論多長(zhǎng)的視頻進(jìn)來(lái)，我都劃分成等長(zhǎng)的段落，每一段只取一幀或幾幀出來(lái)，這樣我就能對(duì)視頻有一個(gè)完整的時(shí)間范圍覆蓋，自然分析出來(lái)的結(jié)果也會(huì)有比較高的可靠性和準(zhǔn)確性。憑借這個(gè)網(wǎng)絡(luò)，我們拿到2016年ActivityNet的冠軍，現(xiàn)在很多實(shí)際中使用的長(zhǎng)視頻分析架構(gòu)，都已經(jīng)采用了這種稀疏采樣的想法。

在這之后我們進(jìn)一步拓展我們的研究領(lǐng)域，不僅僅是做這個(gè)視頻理解，我們還進(jìn)一步做在視頻里面的物體的檢測(cè)。這也帶來(lái)一個(gè)新的困難，之前做分類(lèi)識(shí)別，我們可以分段，每一段拿出來(lái)會(huì)獲得一個(gè)大體上的理解。但是物體檢測(cè)沒(méi)辦法這么做，每一幀都需要把物體的位置輸出出來(lái)，在時(shí)間上是不能稀疏的。這一頁(yè)slide顯示了我們?cè)?016年ImageNet比賽視頻物體檢測(cè)項(xiàng)目取得冠軍的網(wǎng)絡(luò)，具體細(xì)節(jié)我不說(shuō)了，基本上就是把每一幀的特征拿出來(lái)，判斷它的類(lèi)型是什么，對(duì)物體框的位置做出調(diào)整，然后把它串起來(lái)。這里面需要每一幀都要處理，當(dāng)時(shí)最厲害的GPU每秒鐘只能處理幾幀，需要大量的GPU才能把這個(gè)網(wǎng)絡(luò)訓(xùn)練出來(lái)。

我們希望把這樣一個(gè)技術(shù)用在實(shí)際場(chǎng)景，希望得到一個(gè)實(shí)時(shí)性的物體檢測(cè)的框架，要是我們每一幀都是按剛才的方法處理，需要140毫秒，是完全沒(méi)有辦法做到實(shí)時(shí)，但是如果稀疏地去采，比如說(shuō)每20幀采一次，中間的幀怎么辦呢？

大家可能想到用插值的方法把它插出來(lái)，但是我們發(fā)現(xiàn)這個(gè)方法對(duì)準(zhǔn)確度影響很大，隔10幀采一次，中間的準(zhǔn)確度差距很大。在新提出的方法里，我們利用幀與幀之間相互的關(guān)系，通過(guò)一個(gè)代價(jià)小得多的網(wǎng)絡(luò)模塊，只需要花5毫秒，在幀與幀之間傳遞信息，就能很好地保持了檢測(cè)精度。這樣我們重新改變了做視頻分析的路徑之后，整體的代價(jià)就得到了大幅度的下降。這里面沒(méi)有什么新鮮的東西，網(wǎng)絡(luò)都是那些網(wǎng)絡(luò)，只是說(shuō)我們重新去規(guī)劃了視頻分析的計(jì)算路徑，重新設(shè)計(jì)了整個(gè)框架。

大家可以看看結(jié)果。上面是7毫秒逐幀處理的，我們2016年比賽就是用的這個(gè)網(wǎng)絡(luò)，后面我們經(jīng)過(guò)改進(jìn)之后，超過(guò)62幀每秒，而且它的結(jié)果更加可靠、更加平滑，因?yàn)樗褂昧硕鄮g的關(guān)聯(lián)。

同樣我們商湯在做自動(dòng)駕駛，需要對(duì)駕駛過(guò)程中的場(chǎng)景自動(dòng)地進(jìn)行理解和語(yǔ)義分割，這也是一個(gè)非常成熟的領(lǐng)域。但大家的關(guān)注點(diǎn)一直沒(méi)到點(diǎn)子上，大家關(guān)注的是分割的準(zhǔn)確率，像素級(jí)的準(zhǔn)確率，這是沒(méi)有意義的。我們真正在做自動(dòng)駕駛，關(guān)心的是人在你車(chē)前的時(shí)候，你有多快的速度判斷出有個(gè)人在那里，然后做出一個(gè)非常緊急的處理。所以在自動(dòng)駕駛的場(chǎng)景，判斷的效率、判斷的速度是非常重要的。之前的方法處理每一幀要100多毫秒，如果真有一個(gè)人出現(xiàn)在車(chē)前面，一個(gè)緊急情況發(fā)生在前面的話(huà)，是來(lái)不及做出反應(yīng)的。

利用剛才所說(shuō)的方法，我們重新改造了一個(gè)模型，充分地使用了幀與幀之間的聯(lián)系，我們可以把每一幀處理的效能從600毫秒降低到60毫秒，大幅度地提高了這個(gè)技術(shù)對(duì)于突發(fā)情景響應(yīng)的速度。這里面其實(shí)也是使用了剛才類(lèi)似的方法，技術(shù)細(xì)節(jié)就不說(shuō)了。

其次，我們講第二個(gè)方面，成本。

剛才是說(shuō)效率上我們?cè)趺纯梢蕴岣?，接下?lái)是數(shù)據(jù)成本。我們經(jīng)常開(kāi)玩笑說(shuō)，人工智能是先有人工再有智能，有多少人工就有多少智能。所以今天我們有人工智能的繁榮，我們不應(yīng)該忘記在背后有成千上萬(wàn)像這樣的人在背后默默地奉獻(xiàn)，這就是我們數(shù)據(jù)的標(biāo)注員。一些大的公司，有上萬(wàn)人的標(biāo)注團(tuán)隊(duì)，這對(duì)人工智能發(fā)展來(lái)說(shuō)也是一個(gè)巨大的成本。

怎么樣把這個(gè)成本降低下來(lái)？這也是我們每天都在思考的事情。既然有很多東西我們沒(méi)辦法用人去標(biāo)注的話(huà)，我們是不是可以換一個(gè)思路，從數(shù)據(jù)、場(chǎng)景里面去尋求本身就蘊(yùn)涵的一些標(biāo)注信息？

這是我們?nèi)ツ甑囊粋€(gè)工作，也是發(fā)表在CVPR上，這里面我們嘗試一種全新的方式去學(xué)習(xí)，我們圖片的標(biāo)注成本非常高，每張圖片不僅要標(biāo)注出來(lái)，還要把框框出來(lái)，以前我們要識(shí)別動(dòng)物，要人工標(biāo)很多動(dòng)物，但是以前我們小時(shí)候?qū)W習(xí)動(dòng)物，不是說(shuō)老師給我一個(gè)圖片，給我一個(gè)有框的東西去學(xué)的，我們是看《動(dòng)物世界》去學(xué)的，這個(gè)方式就促使我們想到一個(gè)方法，我們能不能看《動(dòng)物世界》，把所有的動(dòng)物找到。這里面有一個(gè)天然的聯(lián)系，紀(jì)錄片上有字幕，字幕上有文字，可以把它和視覺(jué)上的場(chǎng)景連接在一起，是不是可以自動(dòng)學(xué)出來(lái)，為了這一點(diǎn)，我們?cè)O(shè)計(jì)了框架，把它的信息幾何方面的聯(lián)系，以及視覺(jué)跟文本之間的聯(lián)系建立起來(lái)，最后我們得到了一個(gè)這樣的結(jié)果。

這是我們?cè)跊](méi)有任何人工干預(yù)的情況下獲得的幾十種動(dòng)物的非常精確的識(shí)別，沒(méi)有任何的標(biāo)注，就是看《動(dòng)物世界》，看《國(guó)家地理》雜志。

除此之外，我們現(xiàn)在做人臉識(shí)別，有大量的人臉數(shù)據(jù)要標(biāo)注，這里面有一些天然的數(shù)據(jù)就是我們的家庭相冊(cè)里面有很多人，這些相冊(cè)雖然沒(méi)有標(biāo)注，但是里面蘊(yùn)涵了很多信息。這是經(jīng)典電影《泰坦尼克》的一個(gè)鏡頭，如果大家只是看人臉很難看出這上面兩個(gè)人是誰(shuí)，但是我們往下走可以看到右邊是Rose，但是左邊這個(gè)穿西裝的還是看不清楚是誰(shuí)，這時(shí)候如果我們把這個(gè)電影背后的場(chǎng)景識(shí)別出來(lái)，你會(huì)發(fā)現(xiàn)Jack和Rose經(jīng)常出現(xiàn)在同一個(gè)場(chǎng)景里，這時(shí)候基于這種社交互動(dòng)的信息，我們可以自動(dòng)判斷這個(gè)穿黑衣服的男生可能是Jack。我們通過(guò)人臉不經(jīng)過(guò)標(biāo)注的情況下，就提供了大量的有意義的數(shù)據(jù)。在這項(xiàng)新工作中，我們還有效地利用了時(shí)間上的關(guān)聯(lián)，一個(gè)人從街道這邊走到那邊，人臉的樣子會(huì)發(fā)生很大的變化，我們還是可以判斷是同一個(gè)人。

最后，是關(guān)于質(zhì)量。

我們說(shuō)人工智能，它其實(shí)最終目的是要為我們的生活帶來(lái)便利，提高我們生活的質(zhì)量。但是我們最近幾年人工智能的發(fā)展好像走入了誤區(qū)，認(rèn)為人工智能的質(zhì)量跟準(zhǔn)確率是掛鉤的，但其實(shí)我們覺(jué)得人工智能是有多個(gè)方面不同的含義，不僅僅是質(zhì)量，它的質(zhì)量其實(shí)是多個(gè)方面、多個(gè)層次的。

給大家看幾個(gè)例子，這是最近幾年特別火的一個(gè)研究領(lǐng)域，就是給一張照片看圖說(shuō)話(huà)，讓計(jì)算機(jī)自動(dòng)生成一個(gè)描述，這是用我們最新的方法得到的結(jié)果，大家可以看一下。

大家可以看到三張不同的圖放出來(lái)，我們用最好的這種模型，它會(huì)說(shuō)同一句話(huà)，而且這句話(huà)在標(biāo)準(zhǔn)的測(cè)試上分?jǐn)?shù)都非常高，是沒(méi)有任何問(wèn)題的，但我們放在一起看的時(shí)候發(fā)現(xiàn)人不是這樣說(shuō)話(huà)的，我們描述一張圖片的時(shí)候，即使同一張圖片，不同的人都會(huì)說(shuō)不同的東西。這就是我們?cè)谧非笞R(shí)別的時(shí)候忽略掉的另外的品質(zhì)，包括它的自然性和它的特性。

為了解決這個(gè)問(wèn)題，我們?cè)谌ツ炅硗庖粋€(gè)工作上提出了一個(gè)新的方法，它不再把這個(gè)內(nèi)容看成一個(gè)翻譯問(wèn)題，它把它看成一個(gè)從概率分布中采樣的問(wèn)題，它承認(rèn)多樣性，每個(gè)人看到一張圖片會(huì)說(shuō)不同的話(huà)，我們希望把這個(gè)采樣過(guò)程學(xué)習(xí)出來(lái)。關(guān)于這個(gè)模型具體的細(xì)節(jié)，大家可以看相關(guān)的論文。這里可以看到這個(gè)結(jié)果，同樣的三張圖，我們可以看到它出來(lái)了三句更加生動(dòng)的，能夠很好地描述這個(gè)圖里特征的語(yǔ)句。

最后我們把這個(gè)工作再往前推進(jìn)了一下，我們既然能夠生成一句話(huà)，我們也就能生成一段動(dòng)作。這是我們最近做的，我們?cè)谙?，我們既然能夠生成很生?dòng)的一句話(huà)，我們是不是能生成一個(gè)很生動(dòng)的舞蹈。第一步我們先生成一些簡(jiǎn)單的動(dòng)作，大家在這里看到的所有這些都是計(jì)算機(jī)自己生成出來(lái)的，不是我們寫(xiě)個(gè)程序把它描述出來(lái)的。這個(gè)更精彩一點(diǎn)，也是純計(jì)算機(jī)自動(dòng)生成。

對(duì)剛才的分享，我再總結(jié)一下，在過(guò)去幾年，我們看到人工智能也好，深度學(xué)習(xí)也好，有一個(gè)非常突飛猛進(jìn)的發(fā)展，這種發(fā)展是體現(xiàn)在標(biāo)準(zhǔn)數(shù)據(jù)集上準(zhǔn)確率的提升，體現(xiàn)在很多商用場(chǎng)景的落地。

但是我們回過(guò)頭來(lái)看這一段發(fā)展的歷程，我們可以看到其實(shí)我們?cè)诔鳪DP、準(zhǔn)確率高歌猛進(jìn)的過(guò)程中，其實(shí)遺忘了很多東西，我們的效率是不是足夠高，我們是不是在透支數(shù)據(jù)標(biāo)注的成本，我們訓(xùn)練出來(lái)的模型是不是真正能夠滿(mǎn)足現(xiàn)實(shí)生活中對(duì)品質(zhì)的要求，從這些角度來(lái)看，我覺(jué)得我們也剛剛在起步。雖然我們實(shí)驗(yàn)室還有世界上其它很多實(shí)驗(yàn)室的探索取得了一些重要的進(jìn)展，但是我們還僅僅是處在一個(gè)起步的階段，在我們的前面還有很長(zhǎng)的路要走，希望跟大家共勉。

標(biāo)簽：一起惠返利網(wǎng)粗放型商場(chǎng)

上一篇：阿里零售通再攜餓了么聯(lián)合運(yùn)營(yíng)天貓小店

下一篇：京東印尼官方旗艦店來(lái)了賣(mài)的不止零食

聲明：本站部分信息來(lái)自互聯(lián)網(wǎng)，轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，也不構(gòu)成任何其他建議。如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識(shí)產(chǎn)權(quán)的作品，請(qǐng)與我們?nèi)〉寐?lián)系，我們會(huì)及時(shí)修改或刪除

每周熱門(mén)資訊更多

推薦商家更多