亚洲天堂网_国产中出_日韩激情网_97se.com_中国亚洲老少妇色视频

專訪 Bill Dally:英偉達不擔心FPGA,也不怕ASIC新進對手,算力與繪圖功能密不可分,GPU霸主地位仍無敵

發布時間:2018/3/16 瀏覽數:2879

身為全球最聰明的公司榜首,NVIDIA不僅在由麻省理工科技評論主辦的EmTechChina中發表了精彩的演說,會后主講者NVIDIA首席科學家BillDally也在專訪中向DT君揭露了NVIDIA目前在GPU產品、及相關計算生態的的布局。

NVIDIA在GeForce256芯片中增加了包括VertexShader以及PixelShader等可編程計算能力,并以GPU為相關繪圖芯片產品定名,顧名思義,GPU是GraphicsProcessorUnit,不像前代RIVA架構只能單純進行繪圖工作,GeForce256的推出可說是重新定義其繪圖芯片產品,繪圖變成是其芯片功能的一部份,可編程的算力才是未來讓NVIDIA發光發熱的核心。

不過往后數年,雖然具備了程序設計能力,但實際上于計算領域有所發揮也是10年后的事情。這是因為當時NVIDIA憑借成功的繪圖架構取得市場領先,且和ATI的市場大戰正火熱,流處理計算還沒有很好的應用之故,NVIDIA也沒有意會GPU的算力未來會有如此龐大的潛力。2004年,由BillDally帶領的斯坦福大學團隊針對GPU的可編程部分設計了許多流處理技術的計算架構,這些研究成果后來成為CUDA的基礎。

后來NVIDIA也以相關研究為基礎,推出通用并行計算架構CUDA,以及針對計算應用的Tesla產品線。BillDally對此可說是背后的重要推手之一。

在2009年,BillDally加入NVIDIA后,NVIDIA在GPU計算的腳步更是飛快發展。

GPU從原本在各大學中單純用來進行基礎科學研究的輔助角色,迅速成為各大超算、數據中心的計算核心,每年全球前五百大超算榜單之中采用NVIDA計算方案的幾乎都名列前茅。而配合CUDA生態的成熟,更從2016年大熱的AI議題中,帶起了機器學習與深度學習的應用熱潮。

但是GPU在面對如此龐大的計算市場,以及此起彼落的挑戰者,是否還能維持榮景?BillDally為深科技讀者帶來獨家的觀點。

DT君:您可以簡單介紹目前NVIDIA的主力產品線嗎?

BillDally:我們實際上有四個方向同時進行,有四條產品線。其中包含了GeForce、Quadro、Tesla以及Tegra。分別針對消費性圖形計算、專業圖形計算、專業高效能計算、以及嵌入式計算平臺,基本上都是以GPU為共通的架構基礎,但針對不同應用進行微調,使之更適合不同的應用情境。

DT君:針對Volta針對AI計算所做出的架構變革,比如說增加了TensorCore,這會改變GPU的定位嗎?

BillDally:TensorCore是個營銷代號,其架構的真相就是增加一些相對應的指令集,依靠這些指令,讓GPU可做半精度(Half-precision)的矩陣乘積累積,而這是許多深度學習算法所使用的的內部循環基礎邏輯。而且它實際上并沒有改變GPU的基本概念。Volta仍然是一個貨真價實的GPU,它在渲染圖形方面的性能表現仍是一流水平,加入TensorCore并沒有犧牲GPU本身的任何特性,反而是創造了雙贏,F在Volta可以更好的針對深度學習應用,同時也能發揮百之百的繪圖性能表現。

其實很多都是關于數據類型的選擇和指令的選擇。GPU架構實際上是一個框架,你可以在其中放入不同的數據類型和不同的指令來完成不同的應用程序。比如說,開普勒架構對推理工作不能很好的支持,它也不具備半精度浮點計算能力。

當初數據型態的支持是深度學習的關鍵,而開普勒會使用FP32,導致計算成本非常昂貴。從Pascal我們開始支持推理計算以及FP16數據訓練計算能力,但你不會說Pascal因此就不是GPU了。Volta加入TensorCore也是類似的情形。

Volta仍然是GPU,可以做圖形計算。我認為GPU是非常高效的并行計算架構。而我們并沒有犧牲任何其他的事情來做到這一點。

DT君:所以我們仍然可以期待TensorCore可以在圖形任務中發揮功能嗎?

BillDally:是的,事實上,深度學習和圖形學之間有很大的協同作用,我們的發現是,通過深度學習,我們可以使圖形更好。然后進行視頻研究,開發圖像抗鋸齒和去噪的新算法,并提供圖像的時間穩定性,這些都是基于深度學習。因此,通過擁有深厚的學習推理能力,芯片現在實際上在圖形表現方面會比沒有TensorCore更好。

DT君:您如何看待在深度學習領域的挑戰者,比如說FPGA?

BillDally:我不是很擔心FPGA。如果你想解決某個問題,并且你愿意投入大量的工程時間,那么干脆直接開發ASIC就好了。我是這么看FPGA的,如果你在ASIC上設計了一個門,那么把同一個門放在一個FPGA上,占用的芯片面積和功耗都會是相差很多。

所以對于實際上你必須用隨機門工作的東西,FPGA比ASIC要明顯更弱。FPGA只能在FPGA中使用大量硬件模塊的問題上做得很好。所以,如果你已經硬連接一些FPGA有18個beta算術單元來進行DSP操作,其他的有14個點單元。

當你不得不使用FPGA上的柵極時,它的表現會變得差強人意。也因此我們不認為它們是非常有競爭力的。

DT君:若FPGA并不是個值得擔憂的對手。那么您會擔心什么?

BillDally:有很多創業公司正在建立專門的深度學習芯片,我們當然也很關注這些發展。但是我的哲學總是“我們應該做我們認為可以做到最好的工作”,而他們的選擇基本限制了他們的發展空間,以致于不能做得更好,因為我們正在盡力做到最好。

如果我們以三個細分類別的方式細分深度學習的話,分別是訓練、推理和IoT設備的推理。

對于訓練,我們一直在做的是專注于深度學習的GPU。所以如果你光是單純為了深度學習而建立一個芯片,那應用可能會過于狹窄,無法兼顧到其他可能的應用。而在我們的架構中,由于HMMA的操作,Volta架構所集成的TensorCore可以做到很龐大的數學計算,它只需要一條指令即可完成128個浮點計算步驟,可以兼顧更多應用。

我們確實有一些對深度學習幫助不是那么大的額外的芯片區塊,比如說針對圖形繪制工作的光柵化(rasterization)和紋理映射和合成(texturemappingandcompositing)部分,但是這個部分并不大,若是構建一個專用芯片,他們的確可以擺脫一小部分芯片上的非計算必要區塊,理論上芯片成本會更有優勢。

雖然我們也可以這樣做,只是沒有任何商業意義,我們的想法是,最好是做一個芯片,并能夠做很多事情。不論是繪圖或者是用在數據中心,我們想要使用該芯片來盡量做到更多的事情。

DT君:EmTech大會上量子計算成為另一個熱點,那您怎么看這件事?NVIDIA有計劃進行相關領域的開發計劃嗎?

BillDally:我們成立了一個研究小組,研究量子計算的進展觀察。從科學的角度來看,這是一個很有意思的領域。

近來人們已經取得了很大的進步,現在人們已經超過了50量子比特,并且維持量子態的時間可以做到更長。但是,對于一個可行的商業應用程序來說,仍然有數量級的需求。量子優勢在于,在量子計算機上運行的算法,沒有辦法在傳統計算機上以相同的性能運行。

所以算法的過程就是模擬量子計算機。但那并不重要。人們關心的是能夠運行模擬量子化學這樣的算法,或者運行諸如將復合數字分解成兩個部落的算法來破解編碼。這兩者所需的量子比特都是數千以上。所以我們離這個問題還有很遠的距離。

雖然我們認為量子計算還沒有到實用的地步,但我們仍非常仔細地關注相關技術的發展腳步,藉此避免發生我們無法掌握的變化。

BillDally:我們實際上提供的不僅僅是架構,也同時為自動駕駛汽車提供完整的解決方案。比如說基于Xavier架構的DrivePX。這是最有效的計算平臺,我的意思是,其30TeraOps的深度學習性能僅需要10瓦左右的功耗,所以每瓦計算能力超過3Teraflops。而DLA中的部分是每瓦特超過4Teraflops。所以這是一個效率非常高的平臺。

最重要的是,作為DrivePX系統的一部分,我們有一個完整的軟件平臺,包括用于感知的神經網絡,相機和激光雷達以及雷達,然后是用于路徑規劃和控制的軟件車輛。

我們自己測試車隊的自動駕駛汽車已經完全運行NVIDIA軟件。我們也向汽車廠商提供該硬件和該軟件。我們在車里也有一個以前叫做Co-Pilot的軟件,現在重新命名為DriveIX,它的主要功能就是監視著司機,它有眼睛跟蹤和頭部跟蹤,它要是看到司機心不在焉,或過度勞累就可要求汽車做出適度警示。它有手勢識別,所以你可以用手勢來控制汽車。我們同時也為汽車制造商提供完整的自動駕駛解決方案。我認為這是業界目前能獲得最具競爭力的解決方案。

DT君:您看來不是很擔心來自業界的競爭?

BillDally:我總是擔心我們的競爭對手。但是我們的理念是向前看,而不是頻頻回頭,所以我們是領先的,我們想要做的就是弄清楚我們如何能夠盡可能高效地運行,不論是市場策略或產品架構。

Copyright 2017-2025 © 嘉興麥特萊博軟件開發工作室
  • 網站備案號:浙ICP備18008591號-1