8月28日在北京舉行的2019人工智能計算大會(AICC2019)上,浪潮宣布開源發布基于FPGA的高效AI計算框架TF2,這一框架的推理引擎采用全球首創的DNN移位計算技術,結合多項最新優化技術,可實現通用深度學習模型基于FPGA芯片的高性能低延遲部署,這也是全球首個包含從模型裁剪、壓縮、量化到通用模型實現等優化算法的完整方案的FPGA上AI開源框架,項目開源網址為https://github.com/TF2-Engine/TF2。據悉目前已有快手、上海大學、華大智造、遠鑒科技、睿視智覺、華展匯元等多家公司或研究機構加入TF2開源社區,社區將共同推動基于可定制芯片FPGA的AI技術的開源開放合作發展,降低高性能AI計算技術門檻,幫助AI用戶和開發者縮短開發周期。
當前,可定制、低延遲、高性能功耗比的FPGA技術成為很多AI用戶部署推理應用的選擇,但FPGA開發難度大、周期長,難以適應快速迭代的深度學習算法應用需求。TF2可快速實現基于主流AI訓練軟件和深度神經網絡模型DNN的FPGA線上推理,幫助用戶最大限度的發揮FPGA計算能力,實現FPGA的高性能、低延遲部署。同時TF2計算架構也可以快速實現AI芯片級設計和性能驗證。
TF2計算加速流程
TF2由兩部分組成。第一部分是模型優化轉換工具TF2 Transform Kit,可將經過PyTorch、TensorFlow、Caffe等框架訓練得到的網絡模型數據進行壓縮、裁剪、8位量化等操作,減少模型計算量。如對于ResNet50模型,通過壓縮32位浮點模型為4位整數模型、通道裁剪,可將模型文件裁剪掉93.75%,幾乎無精度損失并保持原始模型的基本計算架構。第二部分是FPGA智能運行引擎TF2 Runtime Engine,可將已優化轉換的模型文件自動轉化為FPGA目標運行文件,通過創新的DNN移位計算技術大幅提升FPGA做推理計算的性能,并有效降低其實際運行功耗。TF2已完成在ResNet50、FaceNet、GoogLeNet、SqueezeNet等主流DNN模型上的測試驗證。在浪潮F10A FPGA卡上采用FaceNet模型對TF2進行的測試(BatchSize=1)表明,運行TF2后單張圖片的計算耗時為0.612ms,提速12.8倍。
同時,浪潮開源的項目中還包括TF2的軟件定義的可重構芯片設計架構。此架構完整支持當前CNN網絡模型的開發,并可快速移植使其支持Transformer、LSTM等網絡模型開發。以此架構為基礎,可進一步實現ASIC芯片開發原型設計。
開源的FPGA芯片級設計
根據浪潮公布的開源社區建設計劃,浪潮將持續投入對TF2進行更新,將開發開源自動模型解析、結構性裁剪、任意比特量化、基于AutoML的裁剪和量化等新功能,支持稀疏計算、Transformer網絡模型、NLP通用模型等。此外,社區將定期舉行開發者會議和線上公開課,分享最新技術進展和經驗成果,并通過高校教育計劃培養開發者,同時開展用戶移植方案制定和開發技術支持。
浪潮集團AI&HPC總經理劉軍表示:“AI應用部署涵蓋云端、邊端、移動端,需求非常多樣,TF2可極大提升跨端應用部署的效率,快速適應不同場景下模型推理需求。歡迎廣大AI用戶和開發者加入TF2開源社區,共同加速AI應用部署,推動更多AI應用落地。”
浪潮是人工智能計算的領導品牌,AI服務器中國市場份額保持50%以上,并與人工智能領先科技公司保持在系統與應用方面的深入緊密合作,幫助AI客戶在語音、語義、圖像、視頻、搜索、網絡等方面取得數量級的應用性能提升。浪潮與合作伙伴共建元腦生態,共享AI計算、資源與算法三大核心平臺能力,助力行業用戶開發并部署屬于自己的“行業大腦”,加速推進產業AI化落地。