CNN 101: 卷積神經(jīng)網(wǎng)絡(luò)的交互式視覺(jué)學(xué)習(xí)
為了應(yīng)對(duì)深度學(xué)習(xí)模型中的復(fù)雜性挑戰(zhàn),研究人員開(kāi)發(fā)了CNN 101,這是一個(gè)交互式的可視化系統(tǒng),可以幫助學(xué)生更好地了解和學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò),它是基礎(chǔ)的深度學(xué)習(xí)模型體系結(jié)構(gòu)。
使用現(xiàn)代Web技術(shù)構(gòu)建的CNN 101無(wú)需專(zhuān)用硬件即可在用戶(hù)的Web瀏覽器中本地運(yùn)行。通過(guò)緊密集成的交互式視圖,CNN 101通過(guò)解釋單神經(jīng)元級(jí)別以及層級(jí)別的卷積,激活和池化操作,提供了模型工作方式的概述和詳細(xì)說(shuō)明。
CNN 101進(jìn)一步擴(kuò)大了公眾對(duì)深度學(xué)習(xí)技術(shù)的教育途徑。它應(yīng)用了交互式可視化技術(shù),為用戶(hù)提供了一種更簡(jiǎn)單的方法來(lái)學(xué)習(xí)深度學(xué)習(xí)機(jī)制并建立神經(jīng)網(wǎng)絡(luò)直覺(jué)。并且,對(duì)于現(xiàn)有的通過(guò)交互式可視化來(lái)解釋復(fù)雜機(jī)器學(xué)習(xí)算法的研究工作,CNN 101可以與他們結(jié)合在一起。
作者還計(jì)劃擴(kuò)展CNN 101的功能,用來(lái)進(jìn)一步支持用戶(hù)自定義和個(gè)性化的學(xué)習(xí)。他們還致力于將CNN 101部署和開(kāi)源在類(lèi)似于TensorFlow Playground和GAN Lab的平臺(tái)上,以便來(lái)自世界各地的學(xué)習(xí)者都可以輕松訪(fǎng)問(wèn)。
CNN 101 演示視頻:
https://www.youtube.com/watch?v=g082-zitM7s&feature=youtu.be
原文:
https://arxiv.org/abs/2001.02004v1
主動(dòng)人體姿勢(shì)估計(jì)的深度強(qiáng)化學(xué)習(xí)
姿勢(shì)深度強(qiáng)化學(xué)習(xí)(Pose-DRL)是一種在密集攝影機(jī)中運(yùn)行的,基于完全可訓(xùn)練的深度強(qiáng)化學(xué)習(xí)(DRL)的主動(dòng)式姿勢(shì)估計(jì)架構(gòu),該架構(gòu)可以選擇適當(dāng)?shù)囊朁c(diǎn)以提供基礎(chǔ)的單眼姿勢(shì)預(yù)測(cè)器。
研究人員使用單目標(biāo)估計(jì)器和多目標(biāo)估計(jì)器對(duì)模型進(jìn)行評(píng)估,在兩種情況下均獲得了良好的結(jié)果。該系統(tǒng)還學(xué)習(xí)了時(shí)間自動(dòng)停止的情形,以及向視頻中的下一時(shí)間處理步驟過(guò)渡的功能。
研究人員稱(chēng):“在使用Panoptic多視圖設(shè)置進(jìn)行的廣泛實(shí)驗(yàn)中,對(duì)于包含多個(gè)人的復(fù)雜場(chǎng)景,我們證明了該模型學(xué)會(huì)了選擇與強(qiáng)多視圖基線(xiàn)相比明顯更準(zhǔn)確的姿勢(shì)估計(jì)的視點(diǎn)!
該系統(tǒng)學(xué)習(xí)選擇視圖集,與強(qiáng)多視圖基線(xiàn)相比,產(chǎn)生的姿態(tài)估計(jì)更準(zhǔn)確。結(jié)果不僅顯示了智能視點(diǎn)選擇的優(yōu)勢(shì),而且還證明了“少即是多”,融合太多可能不正確的視點(diǎn)估計(jì)反而會(huì)導(dǎo)致結(jié)果變差。
閱讀更多:
https://arxiv.org/abs/2001.02024v1
多語(yǔ)言神經(jīng)機(jī)器翻譯的綜合研究
在本文中,日本大阪大學(xué)和日本國(guó)立信息與通信技術(shù)研究所,以及印度的微軟人工智能研究院的研究人員對(duì)現(xiàn)有的多語(yǔ)言神經(jīng)機(jī)器翻譯(MNMT)文獻(xiàn)進(jìn)行了深入調(diào)查,以期使研究人員和從業(yè)人員對(duì)MNMT前景有更深入的了解。
他們根據(jù)中心使用實(shí)例對(duì)MNMT中的各種技術(shù)進(jìn)行了簡(jiǎn)單分類(lèi),并根據(jù)資源場(chǎng)景,基礎(chǔ)建模原理,核心問(wèn)題和挑戰(zhàn)對(duì)它們進(jìn)行 進(jìn)一步分類(lèi)。他們還盡可能地通過(guò)相互比較來(lái)解決幾種技術(shù)的優(yōu)缺點(diǎn),并討論MNMT的未來(lái)發(fā)展方向。
MNMT在過(guò)去幾年中已經(jīng)起步。盡管它帶來(lái)了許多令人振奮的進(jìn)步,但仍有許多有趣的方向可供進(jìn)一步探索。
首先,這項(xiàng)工作涵蓋了與多語(yǔ)言NMT的主要場(chǎng)景相關(guān)的文獻(xiàn),包括多路,低資源或零資源(轉(zhuǎn)移學(xué)習(xí),數(shù)據(jù)透視和零鏡頭方法)和多源翻譯。本文系統(tǒng)地匯編了主要的設(shè)計(jì)方法及其變體,主要的MNMT問(wèn)題及其建議的解決方案。
對(duì)于NMT的初學(xué)者和專(zhuān)家而言,這是朝著促進(jìn)和加速M(fèi)NMT研究邁出的重要一步。任何對(duì)于MNMT感興趣的人,都可以以此作為起點(diǎn)和新思想的來(lái)源。
原文:
https://arxiv.org/abs/2001.01115v2
強(qiáng)大且可擴(kuò)展的快速分類(lèi)器將用于車(chē)輛跟蹤和車(chē)輛再識(shí)別
近期的一項(xiàng)研究提出了一個(gè)針對(duì)不同條件下攝像機(jī)網(wǎng)絡(luò)中視頻分析的協(xié)作分類(lèi)器框架,這些條件包括多尺度、多分辨率攝像機(jī)以不同的遮擋、模糊和方向捕獲環(huán)境。提出這一框架的研究人員來(lái)自于美國(guó)佐治亞理工學(xué)院和巴西圣保羅大學(xué),他們描述了一種用于車(chē)輛跟蹤和車(chē)輛再識(shí)別的實(shí)現(xiàn)方式,他們?cè)谄渲袑?shí)施了零彈學(xué)習(xí)(ZSL)系統(tǒng)來(lái)對(duì)車(chē)輛執(zhí)行自動(dòng)化跟蹤。
對(duì)VeRi-776和Cars196的評(píng)估表明:成組的分類(lèi)器框架具有強(qiáng)大的對(duì)抗能力,可以擴(kuò)展到不斷變化的視頻特征(例如新的車(chē)輛類(lèi)型 / 品牌和新的攝像頭)。并且,他們與當(dāng)前的離線(xiàn)視頻分析方法相比更具有實(shí)時(shí)性能。
這項(xiàng)研究提出了一種用于車(chē)輛跟蹤的全新技術(shù),它同時(shí)也能進(jìn)行端到端的車(chē)輛屬性提取和車(chē)輛識(shí)別。它簡(jiǎn)單而強(qiáng)大的基礎(chǔ)模型與當(dāng)前的最新技術(shù)相比具有一定競(jìng)爭(zhēng)優(yōu)勢(shì),而且其參數(shù)要少幾個(gè)數(shù)量級(jí)。研究人員在基本模型中使用大約1200萬(wàn)個(gè)參數(shù)來(lái)實(shí)現(xiàn)64.4 mAP,而在MTML-OSG中使用100多個(gè)參數(shù)時(shí)則具有62.6的平均平均精度(mAP,一種用于評(píng)估排名和檢索的指標(biāo))
減少參數(shù)數(shù)量將其與當(dāng)前方法的性能進(jìn)行對(duì)比,研究人員們可以認(rèn)定:這一框架能夠達(dá)到這一領(lǐng)域內(nèi)業(yè)界最頂尖的水準(zhǔn),這也是這一方法的優(yōu)勢(shì)之一。
原文:
https://arxiv.org/abs/1912.04423v2
Sparse-GAN在視網(wǎng)膜OCT圖像疾病檢測(cè)中的應(yīng)用
CNN等技術(shù)使得我們可以用計(jì)算機(jī)視覺(jué)技術(shù)和深度學(xué)習(xí)方法來(lái)檢測(cè)視網(wǎng)膜OCT圖像中的病變。 但是,這樣的方法需要大量的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,深度學(xué)習(xí)應(yīng)用也正是因此被限制在了醫(yī)學(xué)圖像分析中。而如果我們究其原因就會(huì)發(fā)現(xiàn):從具有一種或幾種疾病的數(shù)據(jù)集中訓(xùn)練出來(lái)的深度學(xué)習(xí)系統(tǒng)無(wú)法檢測(cè)到其他訓(xùn)練集中沒(méi)有出現(xiàn)過(guò)的疾病。
為了解決這一問(wèn)題,在Image-to-Image GAN(注:GAN指的是“對(duì)抗神經(jīng)網(wǎng)絡(luò)”)的啟發(fā)下,研究人員現(xiàn)在建議在這項(xiàng)工作中采用Image-to-Image GAN進(jìn)行醫(yī)學(xué)圖像的異常檢測(cè),并建議將重建圖像映射到潛伏空間,并附加編碼器以減少圖像噪聲的影響。
與此同時(shí),研究人員們還建議規(guī)范化潛在特征的稀疏性,以?xún)H使用正常訓(xùn)練數(shù)據(jù)來(lái)呈現(xiàn)所謂的稀疏約束生成對(duì)抗網(wǎng)絡(luò)(Sparse-GAN),以此進(jìn)行圖像異常檢測(cè)。
在OCT成像中,來(lái)自健康受試者的3D掃描可提供數(shù)百個(gè)“B掃描”圖像而無(wú)損傷。如果我們將病變視為來(lái)自健康受試者的異常圖像,可以使用沒(méi)有病變的OCT “B掃描”來(lái)訓(xùn)練異常檢測(cè)系統(tǒng)。
Sparse-GAN能夠預(yù)測(cè)空間中潛在的異常,而不是圖像級(jí)別的異常,并且還受到新穎的Sparsity Regularization Net的約束。而在可公開(kāi)獲得的數(shù)據(jù)集上對(duì)其進(jìn)行的評(píng)估表明,它的性能優(yōu)于業(yè)界最新方法。
也就是說(shuō),Sparse-GAN可用于疾病篩查,其中訓(xùn)練集中只有健康數(shù)據(jù)即可。這樣,可以減輕數(shù)據(jù)收集和注釋的難度。該方法還可以預(yù)測(cè)異常激活圖,以顯示病變以進(jìn)行臨床診斷。
原文:
https://arxiv.org/abs/1911.12527v2
其他爆款論文
第一個(gè)能夠通過(guò)單一視角重現(xiàn)房間3D布局的方法:
https://arxiv.org/abs/2001.02149v1
PaRoT:一個(gè)基于TensorFlow的全新系統(tǒng):
https://arxiv.org/abs/2001.02152v1
全新的、現(xiàn)實(shí)的、具有關(guān)注意識(shí)的眾包方案:
https://arxiv.org/abs/1912.11238v2
第一個(gè)能夠幫助我們更好地理解深度學(xué)習(xí)的理論系統(tǒng):
https://arxiv.org/abs/2001.00939v2
一種在計(jì)算機(jī)安全性領(lǐng)域中比較和評(píng)估不同解釋方法的標(biāo)準(zhǔn):
https://arxiv.org/abs/1906.02108v3
數(shù)據(jù)集
數(shù)據(jù)集是怎么來(lái)的:
https://arxiv.org/abs/1803.09010v5
使用VizWiz數(shù)據(jù)集瀏覽器搜索和瀏覽一組大型機(jī)器學(xué)習(xí)數(shù)據(jù)集:
https://arxiv.org/abs/1912.09336v1
AI大事件
AI是如何幫助我們?cè)谥袊?guó)戰(zhàn)勝貧困的:
https://time.com/5759428/ai-poverty-china/
新算法幫你找到最佳讀物:
http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220
利用AI改善與消費(fèi)者的聯(lián)系:
https://www.forbes.com/sites/forbesagencycouncil/2020/01/08/leveraging-ai-to-enhance-connection-with-consumers-12-techniques-for-marketers/#5fbdbd70cb69
對(duì)于美國(guó)公司來(lái)說(shuō),在美國(guó)建立實(shí)驗(yàn)室會(huì)越來(lái)越難:
https://www.wired.com/story/export-controls-threaten-ai-outposts-china/?utm_brand=wired&utm_social-type=earned
MIT開(kāi)發(fā)面向中學(xué)生的AI新課,傳授A(yíng)I倫理和基礎(chǔ)知識(shí):
http://news.mit.edu/2019/bringing-artificial-intelligence-and-mit-middle-school-classrooms-1230