鯤云創(chuàng)始人兼CEO牛昕宇博士,在世博園的上交會演講臺上,向與會嘉賓提出了這樣一個問題。
是跑AI算法嗎?并不盡然,幾乎所有的計算芯片都能跑AI算法,只是算力大小有區(qū)別。
牛昕宇用一道數學題回答了這個問題。
假如世博園要部署一個25000路的攝像頭項目,實現員工門禁、垃圾管理等各種各樣的智慧化功能。而這些功能的背后其實是對算力的需求,需要通過服務器、計算平臺來實現。
假設基于某國際大廠的算力平臺,一臺服務器可以支持250路視頻的分析,部署整個世博園的智慧項目,需要100臺服務器。
如果現在有一款算力平臺,與現有服務器產品相比,在成本不變的情況下可提升4.47倍的性能。那么,一臺服務器就從250路的分析能力,變成超過1000路的分析能力。這也意味著,落地同樣的應用,實現同樣的功能,只需要22臺服務器,成本降低接近80%。
“這就是AI芯片的價值——大幅降低AI應用的落地成本”,牛昕宇道出當前AI的落地應用中,算力平臺該有的價值。
之所以說到提升4.47倍的性能,正是因為牛昕宇手中的這款星空加速卡X9,對標英偉達的旗艦產品T4,在不到其一半峰值算力的情況下,實測算力最高可以達到4.47倍的性能提升。這是如何做到的?
就像長跑一樣,制勝的關鍵不是瞬間的爆發(fā)力,而是跑下整場比賽的平均速度。AI芯片也是如此,像上文提到的智慧園區(qū)項目,用戶關注的不僅是峰值算力,更是芯片的實測性能,即能夠在實際應用中分析多少路視頻。提供給用戶所需的算力性價比——這是鯤云對標英偉達的底氣。
與英偉達T4相比,星空X9加速卡在運行ResNet50, YOLO v3等算法模型時的芯片利用率提升了2.76-11.05倍,最高可以實現94.4%的芯片利用率。在性能方面,X9在運行ResNet50網絡時性能可以達到6037.73FPS,相較T4性能提升1.12倍,運行YOLO v3、U-Net Industrial檢測分割網絡性能有1.99-4.47倍提升。在達到最優(yōu)性能時,X9處理延時最低可達到2.65ms,處理速度相比T4提升35.73倍,適用于智算中心、云計算中心、高性能計算等對低延時有要求的高性能AI計算加速場景(注:測試基于INT8 量化)。
鯤云為什么能夠在更低的峰值算力甚至更低的芯片成本下,實現更高的實測性能?這要從X9加速卡背后的CAISA芯片說起。X9搭載了4顆CAISA 芯片,據鯤云官方介紹,該芯片“在支持深度學習通用算法的同時可發(fā)揮最高95.4%的芯片利用率,較同類產品提升最高11.6倍,在同等峰值性能下,提供遠超于指令集芯片的實測算力?!?/p>
據牛昕宇介紹,CAISA芯片是全球第一顆量產的數據流AI芯片,基于鯤云從底層創(chuàng)新的數據流架構CAISA3.0。作為新一代AI計算平臺,CAISA3.0架構并未延續(xù)傳統(tǒng)的指令集架構。這是因為對于大規(guī)模計算芯片來說,馮諾依曼體系架構中數據的搬運和計算是串行進行的,因此造成了一個典型的問題:馮諾依曼瓶頸/內存墻,在運算過程中存在閑置的計算單元,這些計算單元在計算中要么在等待指令,要么在等待數據,造成了芯片利用率并不高。
而數據流架構不同于馮諾依曼體系,它依靠的是數據的流動次序來控制計算次序,可以簡單理解為數據的搬運和計算是重疊的。在這樣一個重疊的計算方式下,可以最大化地發(fā)揮出每個時鐘周期的性能,把接近芯片極限的物理性能“壓榨”出來。
“做AI芯片有兩條路。第一條路就是基于傳統(tǒng)的指令集架構,這條路相對容易,但是在芯片利用率上很難拉開差距。英偉達T4可以做到130TOPS、12nm工藝,在每一個指標上已經非常領先了,在這種情況下,我們在這條路上比拼峰值算力和工藝,是非常難的”,牛昕宇表示。
在英國帝國理工學院定制計算實驗室時,牛昕宇就已經將數據流底層技術作為主要的研發(fā)方向,并致力于推進數據流架構和各個特定應用領域的融合,比如金融、機器學習、物理仿真等?!霸谂c這些特定領域融合時,需要支持成百上千種算法,積累了高性能情況下的架構通用性基礎,這些都是數據流架構長期研發(fā)的重點,”牛昕宇表示。
AI創(chuàng)業(yè)公司在初期的技術路線選擇上至關重要,往往決定了未來的落地方向和長期的核心競爭力。
全球從事數據流芯片開發(fā)的企業(yè)屈指可數,除鯤云外,目前可追溯到的主要有:脫胎于斯坦福大學的SambaNova、前谷歌TPU核心團隊創(chuàng)辦的Groq,以及Wave computing。這三家中,只有SambaNova據稱已經推出了產品,但其AI芯片和客戶很大程度仍處于保密狀態(tài),可考數據不多。
那么,鯤云為什么能夠成為全球首家量產數據流AI芯片的企業(yè)?其核心優(yōu)勢是什么?
牛昕宇表示,鯤云創(chuàng)始團隊來自數據流技術的源頭實驗室,自90年代開始就深耕數據流架構與不同領域的領域專用架構研發(fā),具備深厚的研發(fā)和迭代積累,掌握數據流技術從0到1研發(fā)的經驗和能力,具備原創(chuàng)基礎。第二,在此基礎上,針對人工智能領域開發(fā)CAISA架構,鯤云從底層研發(fā)開始,實現了從0到1、一步步的突破和演化,對于架構的優(yōu)勢和迭代的方向都了然于心,目前CAISA架構已經迭代了三代,并且仍處于迭代升級中;第三,鯤云始終貼近落地需求,主要針對人工智能應用場景推進,如智慧園區(qū)、智慧工業(yè)等垂直領域,注重發(fā)揮數據流架構的算力性價比優(yōu)勢?!白鳛榈谝患伊慨a落地的數據流AI產品,客戶使用的越多,來自一線的反饋就越多,就越有利于迭代升級,能夠越來越契合市場的真正需求”,他強調。
成立以來,鯤云一直聚焦于數據流和深度學習領域的融合。為什么選定深度學習?核心原因有兩點,一是深度學習本身就是流式的處理方式,和數據流的特質相符,能夠較好地發(fā)揮性能;二是深度學習的應用領域非常廣泛,出貨量也足夠大,針對這個領域做定制化的架構可以支持ASIC芯片的量產,從而能夠進一步發(fā)揮出數據流架構的性能優(yōu)勢。
對于定制類架構,有人擔心深度定制會導致通用性不足,但這卻恰恰是數據流架構所解決的問題,牛昕宇表示。CAISA定制數據流架構是一個針對深度學習領域的通用架構,保持高性能的同時,提供AI領域通用性是CAISA架構的核心研發(fā)目標,也是我們的核心優(yōu)勢。人工智能算法是多樣化的,其變化主要來自三方面:算子的變化、算子組合的變化、以及開發(fā)框架的變化。CAISA架構底層算子可配置支持不同計算方式,支持不同算子組合和拓展;針對不同算子組合,CAISA 架構內通過本地互聯網絡和全局互聯網絡可以實現不同計算單元的組合,從而保證支持不同算法的同時,又可以實現對特定算法的高性能支持;最后,不同框架和開發(fā)方式可通過端到端的編譯器RainBuilder來支持實現。
目前,CAISA3.0 架構可支持多種深度學習算法,包括目標檢測、分割、分類等領域的主流算法,實現了在深度學習領域的通用性。此外,鯤云提供RainBuilder開發(fā)工具鏈,能夠實現自頂層深度學習開源框架算法至底層架構時鐘的精確映射,兼容現有AI開發(fā)框架、生態(tài)及軟件,在軟件的易用性方面進一步降低了應用門檻。
面向高性能AI推理市場,鯤云牢牢扣住數據流技術路線所帶來的算力性價比的優(yōu)勢。最新的星空加速卡X9與上一代X3相比,向中心端更進一步,主要面向更高性能AI服務器,助力更高峰值算力、更高算力密度應用在中心的聚集。據了解,該產品已經完成了量產,將于近期完成產品適配,推出搭載星空X9加速卡的AI服務器。
不同于傳統(tǒng)數據中心,智算中心更注重構建先進的AI算力基礎設施來承載AI創(chuàng)新,下一個十年,堪稱算力的黃金十年。高性能AI計算芯片作為核心生產力,從架構升級到應用場景的落地,都蘊含了巨大的市場空間和機遇。
“一方面,算力基礎設施的更新換代,會降低數據的傳輸成本,導致更多的數據被收集,產生更大的算力需求;另一方面,算力的密度將會越來越高,系統(tǒng)性能越來越強,部署成本也將越來越可控,這是未來算力設施升級的兩個方面”,牛昕宇表示,“而邊緣和云將會是共存的關系,邊緣側主要進行實時處理,數據中心匯集后進行更深入的分析,二者都在快速增長中,且都有廣闊的市場前景?!?/p>
不過,雖然市場升級是大趨勢,半導體產業(yè)也在持續(xù)成長中。但必須承認的是,商業(yè)落地絕非易事,更何況云端市場面臨的都是英偉達、英特爾這樣的國際巨頭。AI芯片的戰(zhàn)略價值在被業(yè)界所認同的同時,也成為兵家必爭之地。
牛昕宇認為,不論是巨頭還是創(chuàng)企,對于AI芯片各有各的布局和優(yōu)勢,初創(chuàng)企業(yè)不一定要和巨頭正面競爭,一是要關注中短期的落地方式,二是要關注長期的核心競爭力。在垂直領域,把自己具有性價比的算力產品做好,把客戶支持做好,單點打通仍然能夠產生很高的價值。
最終,落地的核心點在于:算力性價比和應用生態(tài)?;氐奖疚拈_頭,計算平臺的價值究竟是什么?“因為所有的計算領域都有一定的性能要求,所有算法都需要附著在芯片上,完成最后部署”,牛昕宇表示,“這就是下一代AI計算平臺的價值和所承載的責任,鯤云將繼續(xù)在算力性價比、架構通用性,軟件易用性這三方面均衡演進,降低AI的落地門檻和成本?!?/p>
本文轉載自:https://mp.weixin.qq.com/s/t7bynwBzY0LXotUR4yHKiQ
提供下一代計算平臺 加速人工智能落地
聯系我們:contact@corerain.com
銷售聯絡:sales@corerain.com
媒體合作:media@corerain.com
展會合作:events@corerain.com
深圳 | 深圳市福田保稅區(qū)市花路長富金茂大廈14層(總部)
上海 | 上海市閔行區(qū)龍湖虹橋天街A棟608A
濟南 | 山東省濟南市濟南市高新區(qū)旅游路8661號高科技創(chuàng)新園 5 號樓 9 層
北京 | 北京市海淀區(qū)知春路23號4層406A室
西安 | 陜西省西安市碑林區(qū)大差市十字西南角1幢1單元10503室 (萬達新天地)
廣州 | 廣東省廣州市番禺區(qū)鐘村街鐘二村鐘漢路13號星光薈直播小鎮(zhèn)508A
重慶 | 重慶市九龍坡區(qū)渝州路121號A區(qū)D207
杭州 | 杭州市江干區(qū)錢江新城城星路98號迪凱城星國際A座27樓
南京 | 江蘇省南京市鼓樓區(qū)漢中路2號亞太商務樓31層
武漢 | 湖北省武漢市武昌區(qū)中南路街街道武珞路與丁字橋交匯路口中南國際匯18樓OVU創(chuàng)客星(理想國際站)