2019年,新的云端AI芯片戰(zhàn)場正風起云涌。過去幾年,人工智能(AI)從一個被輕視的學術(shù)冷門研究突然爆紅,一路狂奔到商業(yè)化的前沿,在安防、金融、教育、制造、家居、娛樂等各個與人們生活息息相關(guān)的領(lǐng)域掀起了一股智能化升級和萬物互聯(lián)的颶風。
這場前所未有的技術(shù)革命的直接推動者,是國外谷歌微軟Facebook、國內(nèi)BAT等互聯(lián)網(wǎng)巨頭以及一眾新生的AI初創(chuàng)企業(yè),而這些公司快速在AI領(lǐng)域開疆辟土的靈魂支柱,則是提供源源不斷高密度計算能力的AI硬件提供商。
AI硬件應(yīng)用場景通常分為云端和終端,云端主要指大規(guī)模數(shù)據(jù)中心和服務(wù)器,終端包括手機、車載、安防攝像頭、機器人等豐富的場景。
無論是在線翻譯、語音助手、個性化推薦還是各種降低開發(fā)者使用門檻的AI開發(fā)平臺,但凡需要AI技術(shù)之處,背后都需要云端AI芯片夜以繼日地為數(shù)據(jù)中心提供強大的算力支撐。
根據(jù)NVIDIA在2017年亮出的數(shù)據(jù),到2020年,全球云端AI芯片的市場規(guī)模累計將超過200億美元,這個體量龐大的市場已成為各路芯片巨頭虎視眈眈之地。
NVIDIA通用圖形處理單元(GPGPU)即是乘著深度學習的東風扶搖直上,股價在2015年還是20美元,到2018年10月飆升至292美元,市值超過肯德基和麥當勞,一躍成為AI領(lǐng)域第一股,市值數(shù)十億美元,坐享風光。
其火箭般的漲勢驚醒了一眾潛在競爭對手,風暴出現(xiàn)在地平線上。半導(dǎo)體巨頭英特爾、AMD等奮起直追,谷歌、亞馬遜、百度、華為跨界自研,還有數(shù)十家新生芯片創(chuàng)企揭竿而起,意圖通過自研架構(gòu)等方式突破云端AI芯片性能的天花板,重塑這一市場的版圖。
本文將對云端AI芯片的戰(zhàn)事進行全景式復(fù)盤,盤點加入戰(zhàn)局的五大半導(dǎo)體巨頭、七大中美科技巨頭和20家國內(nèi)外芯片創(chuàng)企,看曾經(jīng)締造神話的NVIDIA,能否維系它的傳奇帝國?如今已經(jīng)出現(xiàn)或者正在開發(fā)的新計算架構(gòu),能否適配未來的算法?哪些企業(yè)更有望在強手如林的競爭環(huán)境中生存下來?
誰能主導(dǎo)這場云端AI芯片戰(zhàn)事,誰就掌握了將在未來云計算和AI市場的戰(zhàn)役中贏得更多話語權(quán)。
一、十年押注,AI發(fā)射
一切始于意外,又絕非一次意外。
十幾年前,英偉達(NVIDIA)在經(jīng)歷過和數(shù)十家對手的激烈廝殺后,和AMD成為圖形顯卡領(lǐng)域的兩大霸主。那時,大多數(shù)NVIDIA員工們,并不知道人工智能(AI)是什么。
彼時,NVIDIA總營收規(guī)模約30億美元,其創(chuàng)始人兼CEO黃仁勛做了一個冒險的決定——每年為CUDA項目砸5億美元,通過一系列改動和軟件開發(fā),將GPU轉(zhuǎn)化成更通用的計算工具,累計總額近100億美元。
這是一個極具前瞻性的決定。2006年,GPU上的通用計算解決方案CUDA現(xiàn)世,這一技術(shù)為編程人員帶來越來越方便的入門體驗,逐漸為NVIDIA GPU積累了強健穩(wěn)固的開發(fā)者生態(tài)。
直到2012年,NVIDIA遇到了深度學習的風口。
這一年,加拿大多倫多大學教授、機器學習領(lǐng)域泰斗、神經(jīng)網(wǎng)絡(luò)之父Geoffrey Hinton帶領(lǐng)課題組用GPU訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)AlexNet,一舉拿下ImageNet圖像識別比賽的冠軍,將AI推到了學術(shù)界焦點的歷史性拐點。
GPU并非為深度學習而生,其并行計算能力竟與深度學習算法的邏輯一拍即合。每個GPU有數(shù)千個內(nèi)核并行,這些核心通常執(zhí)行許多低級的、繁復(fù)的數(shù)學運算,非常適合運行深度學習算法。
之后,越來越強的“CUDA+GPU”組合,憑借無敵的處理速度和多任務(wù)處理能力,迅速俘獲一大批研究人員們的芳心,很快就成為全球各大數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施的必備組件。
巨頭們的云端AI芯片之戰(zhàn),悄然拉開序幕。
二、芯片巨頭鏖戰(zhàn)云端:NVIDIA獨霸,英特爾AMD奮起
起步早加上生態(tài)穩(wěn)健,NVIDIA很快就成為云端AI芯片市場的領(lǐng)導(dǎo)者。
NVIDIA在通往更強的道路上一往無前,陸續(xù)展示令人驚嘆的Tensor Core、NVSwitch等技術(shù),不斷打造新的性能標桿。此外,它還構(gòu)建了GPU云,使得開發(fā)者隨時可以下載新版的深度學習優(yōu)化軟件堆棧容器,極大程度上降低了AI研發(fā)與應(yīng)用的門檻。
就這樣,NVIDIA靠時間、人才和技術(shù)的積累,壘起了堅不可摧的城墻。想要城池者,無不需要遵循NVIDIA指定的法則。截至今日,NVIDIA的工程師軍團已逾萬人,其GPU+CUDA計算平臺是迄今為止成熟的AI訓(xùn)練方案,吞食掉絕大多數(shù)訓(xùn)練市場的蛋糕。
從功能來看,云AI芯片主要在做兩件事:訓(xùn)練(Training)和推理(Inference)。
訓(xùn)練是把海量數(shù)據(jù)塞給機器,通過反復(fù)調(diào)整AI算法,使其學習掌握特定的功能。這個過程需要極高的計算性能、精度和通用性。
推理則是將訓(xùn)練好的模型拿來應(yīng)用,它的參數(shù)已經(jīng)固化,也不需要海量數(shù)據(jù),對性能、精度和通用性的要求沒有訓(xùn)練那么高。
GPU在訓(xùn)練市場的是一座難以翻越的高山,但在對功耗要求更高的推理市場,它的優(yōu)勢相對沒那么明顯。
而這里,也是入局偏晚的半導(dǎo)體巨頭們聚集的方向。
1、GPU:NVIDIA贏者通吃,AMD搶壘7nm
芯片是贏者通吃的市場,云端AI芯片亦不例外,NVIDIA為加速數(shù)據(jù)中心應(yīng)用推出的高中低端通用GPU,一直是各路玩家參考的性能標桿。
NVIDIA在短時間內(nèi)投入數(shù)十億美元動用數(shù)千工程師,于2016年推出了第一個專為深度學習優(yōu)化的Pascal GPU。2017年,它又推出了性能相比Pascal提升5倍的新GPU架構(gòu)Volta,神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同期亮相。
在新季度財報中,NVIDIA數(shù)據(jù)中心收入同比增長58%至7.92億美元,占公司總收入的近25%,在過去的四個季度中總共達到了28.6億美元。如果它能夠保持這種增長,預(yù)計2019年的數(shù)據(jù)中心將達到約45億美元。
和NVIDIA在GPU領(lǐng)域長期相爭的AMD,亦在積極地推進對AI加速計算的研發(fā)。2016年12月,AMD宣布主打AI與深度學習的加速卡計劃——Radeon Instinct。
說起來,AMD在深度學習領(lǐng)域的起步離不開中國公司的支持。百度是第一家在數(shù)據(jù)中心采用AMD Radeon Instinct GPU的中國公司,后來阿里巴巴也跟AMD簽了合同。
目前AMD的GPU仍然至少落后于NVIDIA的一代Tesla V100,不過在NVIDIA新招未發(fā)之時,AMD率先在其Next Horizon會議上宣布推出7nm GPU,名為Radeon Instinct MI60,內(nèi)存帶寬高達1 TB /秒,并聲稱其7nm GPU通過AMD Infinity Fabric link等技術(shù),成為世界上快的雙精度加速器,可以提供高達7.4 TFLOPS的浮點性能。
除了提供GPU芯片,AMD也在通過推出ROCm開放軟件平臺等方式構(gòu)建更強大的開源機器學習生態(tài)系統(tǒng)。
雖說GPU暫時還抗不過NVIDIA,不過AMD有自己獨特的優(yōu)勢。AMD既有GPU又有CPU,可以在其GPU與CPU間用Infinity Fabric實現(xiàn)無縫連接,而英特爾至強處理器+NVIDIA GPU就很難做到這樣的完美連接。
同樣扎在GPU市場安營扎寨的還有Imagination Technologies,只不過它長期深耕于移動GPU。從2017年到2018年,Imagination宣布了三款新的PowerVR圖形處理單元(GPU),主打AI終端市場。
在去年年底,Imagination高管在接受采訪時透露,Imagination可能會宣布推出面向AI訓(xùn)練的GPU。
2、FPGA:賽靈思打出創(chuàng)新牌,英特爾“買”出全套大禮包
在AI推理的應(yīng)用當中,F(xiàn)PGA相較專用集成電路(ASIC)具有靈活可編程的優(yōu)勢,它們可以針對特定的工作進行即時重新配置,比GPU功耗更低。

▲處理器的靈活性與性能差異
FPGA領(lǐng)域的老大老二常年是賽靈思和英特爾Altera,面對新興的AI市場,體內(nèi)的創(chuàng)新基因亦是躍躍欲試。
賽靈思即將上線的大殺器叫Versal,這是業(yè)界自適應(yīng)計算加速平臺(Adaptive Compute Acceleration Platform ,ACAP),采用臺積電7nm工藝,集成了AI和DSP引擎,其軟硬件均可由開發(fā)者進行編程和優(yōu)化。
這一殺器用了4年的時間來打磨,據(jù)稱Versal AI Core的AI推斷性能預(yù)計比業(yè)領(lǐng)先的GPU提升8倍。按照此前賽靈思釋放的消息,Versal將在今年發(fā)貨。
有業(yè)內(nèi)人士認為,Versal系列可能會改變AI推理市場。
如果說NVIDIA打開AI的大門,靠的是天然契合的基因,那么英特爾則是靠“買買買”的捷徑,快速躋身云AI芯片的前排。作為幾十年的半導(dǎo)體霸主,英特爾一出手目標就是成為“全才”。
眾所周知,英特爾屹立不倒的王牌是至強處理器。至強處理器猶如一個智慧超群的軍師,運籌帷幄,能處理各種任務(wù),但如果你讓他去鑄造兵器,他的效率則完全比不過一個頭腦簡單但有一身蠻力的武夫。
因此,面對擁有大量重復(fù)性簡單運算的AI,讓至強處理器去處理此類任務(wù)既是大材小用,結(jié)果又很低效。英特爾的做法是給至強處理器搭配加速器。
沒有做AI加速器的技術(shù)背景怎么辦?英特爾大筆一揮,直接買!
2015年12月,英特爾砸下167億美元買走當時的可編程邏輯器件(FPGA)的前年老二Altera,如今英特爾憑著“Xeon+Altera FPGA”異構(gòu)芯片的打法,將數(shù)據(jù)中心某些任務(wù)提速十倍有余。
尤其是近一年來,英特爾對FPGA的加碼肉眼可見。前兩年,英特爾陸續(xù)推出號稱是史上最快FPGA芯片的Stratix 10系列,這一系列獲得了微軟的青睞。
微軟推出基于英特爾Stratix 10 FPGA的云端解決方案Project Brainwave,稱其運行速度達39.5 TFLOPS,延遲不足1 ms。
除了Stratix 10 FPGA芯片外,英特爾先是去年12月在重慶落戶了其全球最大的FPGA創(chuàng)新中心,后又在今年4月亮出被悄然打磨了數(shù)年的新武器——全新架構(gòu)的FPGA Agilex,集成了英特爾先進的10nm工藝、3D封裝、第二代HyperFlex等多種創(chuàng)新技術(shù)。
英特爾的FPGA已經(jīng)在服務(wù)器市場初步站穩(wěn)腳跟,而另一項重要的交易還處于蟄伏期。
2016年8月,英特爾花了三四億美元買下專注于打造深度學習專用于硬件的加州創(chuàng)企Nervana,收購后不久,前Nervana CEO就被晉升為英特爾AI事業(yè)部總負責人,采用臺積電28nm工藝的深度學習專用芯片Lake Crest在2018年量產(chǎn),并宣稱性能是當時快的GPU的10倍。
2018年5月,英特爾全新云AI芯片Nervana神經(jīng)網(wǎng)絡(luò)處理器(Nervana Neural Network Processors,NNP)——Spring Crest正式亮相,據(jù)稱其功耗小于210瓦,訓(xùn)練性能比Lake Crest提升3-4倍,將于2019年下半年向用戶開放。
對于云端AI芯片推理,英特爾在拉斯維加斯舉行的CES上透露,它正在與Facebook就Nervana神經(jīng)網(wǎng)絡(luò)處理器NNP-I的推理版本密切合作。NNP-I將是一個片上系統(tǒng)(SoC),內(nèi)置英特爾10nm晶體管,并將包括IceLake x86內(nèi)核。
對比谷歌的TPU來看,英特爾人工智能事業(yè)群(AIPG)副總裁、Nervana團隊核心成員Carey Kloss認為TPU 2.0類似于Lake Crest,TPU 3.0類似于Spring Crest。
3、新晉入局者:終端芯片巨頭高通
在移動芯片領(lǐng)域如日中天的高通,也剛剛舉起進軍云計算和超算領(lǐng)域的敲門磚。
今年4月,高通宣布推出Cloud AI 100加速器,將高通的技術(shù)拓展至數(shù)據(jù)中心,預(yù)計將于2019年下半年開始向客戶出樣。
據(jù)悉,這款加速器基于高通在信號處理和功效方面的技術(shù)積累,專為滿足急劇增長的云端AI推理處理的需求而設(shè)計,可以讓分布式智能從云端遍布至用戶的邊緣終端,以及云端和邊緣終端之間的全部節(jié)點。
高通產(chǎn)品管理高級副總裁Keith Kressin稱:“高通CloudAI 100加速器將為當今業(yè)界的數(shù)據(jù)中心的AI推理處理器樹立全新標桿——無論是采用CPU、GPU和/或FPGA的哪種組合方式來實現(xiàn)AI推理的處理器。”
此外,他還介紹說,高通目前正處在優(yōu)勢地位支持完整的從云端到邊緣的AI解決方案,所有的AI解決方案均可與具備高速率和低時延優(yōu)勢的5G實現(xiàn)連接。
三、跨界巨頭層出不窮:互聯(lián)網(wǎng)霸主爭上游
相比上面對云和數(shù)據(jù)中心市場野心勃勃的芯片巨頭們,下面這些跨界玩家的心思可就相對“單純”很多。
這些中美互聯(lián)網(wǎng)巨頭的目標不是直接與NVIDIA、英特爾或AMD競爭,而是向他們自己的云客戶提供強大的算力,減少對傳統(tǒng)芯片制造商的依賴。
他們自研芯片的選擇也不盡相同,谷歌、亞馬遜等選擇專用芯片(ASIC)的路線,而微軟等則致力于使用現(xiàn)場可編程門列(FPGA)。
1、谷歌:專用AI芯片商用開路人
作為開始做AI相關(guān)研發(fā)的科技公司之一,谷歌亦是試水專用AI芯片的先鋒,驗證ASIC可以在深度學習領(lǐng)域替代GPU。
谷歌于2016年推出了自己開發(fā)的AI芯片Tensor Processing Unit(TPU),現(xiàn)已進入第三代,為谷歌的語音助理、谷歌地圖、谷歌翻譯等各種AI應(yīng)用提供算力支撐。最初設(shè)計的TPU用于深度學習的推理階段,而新版本已經(jīng)可以用于AI訓(xùn)練。
谷歌聲稱,使用32種好的商用GPU訓(xùn)練機器翻譯系統(tǒng)需要一天的時間,相同的工作量需要在8個連接的TPU上花費6個小時。
谷歌目前只在自己的數(shù)據(jù)中心內(nèi)運營這種設(shè)備,沒有對外出售。不過谷歌表示將允許其他公司通過其云計算機服務(wù)購買其TPU芯片。
谷歌TPU在谷歌對外服務(wù)的市場是有限制的,TPU只能用與和運行Google TensorFlow AI框架,用戶無法使用它們來訓(xùn)練或運行使用Apache MxNet或Facebook的PyTorch構(gòu)建的AI,也不能將它們用于GPU占據(jù)著至高無上地位的非AI HPC應(yīng)用程序中。
但谷歌對此表示滿意,因為它將TPU和TensorFlow視為其全面的AI領(lǐng)導(dǎo)力的戰(zhàn)略。針對其軟件進行了優(yōu)化的軟件針對其軟件進行了優(yōu)化,可以構(gòu)建強大而耐用的平臺。
今年開年的新消息是谷歌在印度班加羅爾成立了新的芯片團隊gChips,并從英特爾、高通、博通和NVIDIA等傳統(tǒng)芯片公司那里大舉招兵買馬,至少招募了16名技術(shù)老兵。
2、內(nèi)部商用在即:微軟FPGA、百度昆侖與華為昇騰
去年5月,微軟AI芯片Brainwave開放云端測試版,稱Project Brainwave計算平臺使用的FPGA芯片為實時AI而設(shè)計,比谷歌使用的TPU芯片處理速度快上了5倍(微軟AI芯片Brainwave開放云端試用版 比TPU快5倍)。微軟Azure執(zhí)行副總裁Jason Zander還曾表示,微軟Azure實際上設(shè)計了許多自研芯片,用于數(shù)據(jù)中心。
不得不承認,國內(nèi)科技巨頭給芯片起名字,那文化水平高出國外不止一個Level。
百度給云端AI芯片命名的“昆侖”是中國第一神山,相傳這座山的先主,被古人尊為“萬山之宗”、“龍脈之祖”,嫦娥奔月、西游記、白蛇傳等家喻戶曉的神話傳說都與此山有所關(guān)聯(lián)。
華為云端AI芯片的“昇騰”則取超脫塵世、上升、器宇軒昂之義,頗受文人墨客的喜愛。
百度和華為都是國內(nèi)早早跨界造芯的科技公司。早在2017年8月,百度就在加州Hot Chips大會上發(fā)布了一款256核、基于FPGA的云計算加速芯片,合作伙伴是賽靈思。華為做芯片就更早了,2004年就成立半導(dǎo)體公司海思,只不過以前都是做終端的芯片解決方案。
2018年下半年,以它們?yōu)榇淼男乱惠喸煨緞萘Υ淀懥酥袊贫薃I芯片沖鋒的號角。
百度是國內(nèi)較早試水造芯的科技巨頭,早在2010年就開始用FPGA做AI架構(gòu)的研發(fā),2011年開展小規(guī)模部署上線,2015年打破幾千片的部署規(guī)模,2017年部署超過了10000片F(xiàn)PGA,百度內(nèi)部數(shù)據(jù)中心、自動駕駛系統(tǒng)等都在大規(guī)模使用。
2017年8月,百度發(fā)布了一款256核、基于FPGA的XPU芯片,這款是和賽靈思合作的,核心很小,沒有緩存或操作系統(tǒng),效率與CPU相當。
隨后在2018年7月舉辦的百度AI開發(fā)者大會上,百度宣布當時業(yè)內(nèi)的算力最高的AI芯片——昆侖。
參數(shù)方面,昆侖芯片由三星代工,采用14nm工藝,內(nèi)存帶寬達512GB/s,核心有數(shù)萬個,能在100W以上的功耗提供260 TOPS的算力。
以NVIDIA最新圖靈(Turing)架構(gòu)的T4 GPU為對比,T4最大功耗為70W,能提供的最高算力也是260 TOPS,但這款GPU比昆侖芯片的發(fā)布晚了2個月,并且初期并沒有在中國開售。百度主任架構(gòu)師歐陽劍在今年的AI芯片創(chuàng)新峰會上透露,今年“昆侖”會在百度內(nèi)部大規(guī)模使用。
華為的云端AI芯片昇騰910更是直接在發(fā)布現(xiàn)場和NVIDIA與谷歌正面PK。昇騰910直接用起了先進的7nm工藝,采用華為自研的達芬奇架構(gòu),最大功耗350W。華為打的旗號是截止到發(fā)布日期“單芯片計算密度最大的芯片”,半精度(FP16)運算能力達到256 TFLOPS,比NVIDIA V100的125 TFLOPS足足高了一倍。
徐直軍甚至表示,假設(shè)集齊1024個昇騰910,會出現(xiàn)“迄今為止全球最大的AI計算集群,性能達到256P,不管多么復(fù)雜的模型都能輕松訓(xùn)練。”這個大規(guī)模分布式訓(xùn)練系統(tǒng),名為“Ascend Cluster”。
落地方面,百度 稱其昆侖將于今年年內(nèi)在百度數(shù)據(jù)中心大規(guī)模使用,華為的昇騰910原計劃在今年Q2上市,現(xiàn)在在貿(mào)易戰(zhàn)的背景之下,不知道會不會延遲。
3、神秘主義:亞馬遜、阿里與臉書
作為中美云計算市場的龍頭,阿里巴巴和亞馬遜雖然稍微遲到,但絕對不會缺席。
兩家的研發(fā)目的都很明確,是為了解決圖像、視頻識別、云計算等商業(yè)場景的AI推理運算問題,提升運算效率、降低成本。
阿里巴巴達摩院去年4月宣布,Ali-NPU性能將是現(xiàn)在市面上主流CPU、GPU架構(gòu)AI芯片的10倍,制造成本和功耗僅為一半,性價比超40倍。同月,阿里全資收購大陸唯一的自主嵌入式CPU IP核公司中天微。
新進展發(fā)生在9月,阿里將中天微與達摩院自研芯片業(yè)務(wù)合并,整合成一家芯片公司平頭哥。研發(fā)Ali-NPU的重任由平頭哥接棒,首批AI芯片預(yù)計2019年下半年面世,將應(yīng)用在阿里數(shù)據(jù)中心、城市大腦和自動駕駛等云端數(shù)據(jù)場景中。未來將通過阿里云對外開放使用。
在模擬驗證測試中,這款芯片的原型讓鋪設(shè)阿里城市大腦的硬件成本節(jié)約了35%。但此后,阿里幾乎未再發(fā)出相關(guān)進展的聲音。
亞馬遜的云AI芯片Inferentia是去年11月在拉斯維加斯舉行的re:Invent大會上公布的。
這款芯片的技術(shù)源頭要追溯到亞馬遜在2015年初花費3.5億美元收購的以色列芯片公司Annapurna Labs。按照介紹,每個Inferentia芯片提供高達幾百TOPS的算力,多個AWS Inferentia芯片可形成成千上萬的TOPS算力。該芯片仍在開發(fā)中,按預(yù)告,這款芯片將于2019年底上市。
Facebook的造芯計劃浮出水面的很早,但卻是信息曝光少的玩家。
除了買下相對成熟的芯片公司外,招兵買馬也是常備之選。Facebook的造芯計劃在去年4月初露端倪,上發(fā)布了招聘ASIC&FPGA設(shè)計工程師的廣告,用于組建芯片團隊。3個月后,美媒彭博社報道稱,F(xiàn)acebook挖走谷歌高級工程師主管Shahriar Rabii擔任副總裁兼芯片負責人。
Facebook首席人工智能科學家、新圖靈獎獲得者Yann LeCun在接受采訪時透露,其造芯主要是未來滿足對網(wǎng)站進行實時視頻監(jiān)控的需求。
而等到今年1月時,英特爾在全球消費電子展(CES)上表示,正與Facebook合作開發(fā)一款新的AI芯片,用于加速推理,并力爭在今年下半年開發(fā)完成。
不過迄今為止,外界對Facebook AI芯片的性能信息一無所知。
四、新秀迭出:國內(nèi)創(chuàng)企搶先落地,國外創(chuàng)企醞釀大招
AI的復(fù)興顛覆了以往由英特爾、AMD、高通等芯片公司carry全產(chǎn)業(yè)的穩(wěn)定局面,為新的一批芯片創(chuàng)業(yè)者創(chuàng)造了機會。
一些初創(chuàng)公司希望從頭開始創(chuàng)建一個新平臺,一直到硬件,專門針對AI操作進行優(yōu)化。希望通過這樣做,它能夠在速度,功耗,甚至可能是芯片的實際尺寸方面超越GPU。
1、中國創(chuàng)企:比特大陸寒武紀領(lǐng)銜,依圖智能密度超NVIDIA
先說國內(nèi)做云端AI芯片創(chuàng)企,其中耀眼的當屬比特大陸和中科寒武紀。
比特大陸作為礦機芯片老大業(yè)界聞名,但在過去一年的比特幣大退潮中,比特大陸首當其沖陷入輿論漩渦,上市計劃未能如期實現(xiàn)。
這家2013年成立的公司,在2015年就啟動AI芯片業(yè)務(wù)。繼2017年推出第一代28nm云端AI芯片產(chǎn)品BM1680后,它在2018年第一季度發(fā)布第二代BM1682,迭代時間僅9個月。
按照比特大陸去年公布的造芯計劃,12nm的云端芯片BM1684應(yīng)在2018年年底推出,BM1686將在2019年推出,很可能采用7nm制程,不過這兩款芯片都姍姍來遲。
和比特大陸一樣同時發(fā)力云端和終端芯片的還有AI小芯片獨角獸中科寒武紀。
寒武紀曾因嵌在華為手機AI芯片中麒麟970中的神經(jīng)網(wǎng)絡(luò)處理器(NPU)成功打響知名度,成為國內(nèi)外AI芯片創(chuàng)企中的當紅炸子雞,在經(jīng)歷A、B兩輪融資后,整體估值約25億美元(約170多億人民幣)。
2018年5月,寒武紀正式發(fā)布第一代云AI芯片MLU100,據(jù)稱可以以更低的功率提供比NVIDIA V100更好的性能。其客戶科大訊飛曾披露測試結(jié)果,稱MLU100芯片在語音智能處理的能耗效率領(lǐng)先國際競爭對手的云端GPU方案5倍以上。
一年后,其第二代云端AI芯片思元270芯片未發(fā)先熱,部分性能被知乎網(wǎng)友曝光,峰值性能和功耗都基本與NVIDIA Tesla T4基本持平,業(yè)內(nèi)傳聞寒武紀可能在低精度訓(xùn)練領(lǐng)域有所突破。該芯片不出意外地話將于近期發(fā)布。
欲對標NVIDIA和谷歌的創(chuàng)企不止于此。
令人稍感意外的玩家是國內(nèi)計算機視覺(CV)四小龍之一依圖科技。今年5月,依圖發(fā)布了與AI芯片創(chuàng)企熠知電子(ThinkForce)聯(lián)合開發(fā)的云端AI芯片求索questcore。
熠知電子是一家低調(diào)但不容小覷的上海AI芯片創(chuàng)企,于2017年獲依圖科技、云鋒基金、紅杉資本、高瓴資本的4.5億元人民幣A輪融資。其核心成員來自IBM、AMD、英特爾、博通、Cadence等半導(dǎo)體巨頭,均有十年以上的芯片行業(yè)從業(yè)經(jīng)歷。
這款云端深度學習推理定制化SoC芯片采用16nm制程和擁有自主知識產(chǎn)權(quán)的ManyCore架構(gòu),據(jù)稱最高能提供每秒15 TOPS的視覺推理性能,僅針對INT 8數(shù)據(jù)(8 位整數(shù)數(shù)據(jù)類型)進行加速,最大功耗僅20W,比一個普通的電燈泡還小。
依圖表示,開發(fā)這款芯片不是想追求NVIDIA那樣幾百個T的算力,而是看重高計算密度。
和前述的跨界科技巨頭們一樣,依圖芯片商用的第一步也是結(jié)合其自身軟硬件和解決方案打包出售,不會單獨售賣,第二、三代產(chǎn)品也都在籌備中。
上海的熱門造芯新勢力還有燧原科技。它可以說是國內(nèi)年輕的AI芯片造芯者,2018年3月成立,獲得由騰訊領(lǐng)投的3.4億元人民幣Pre-A輪融資,主攻云端AI加速芯片及相關(guān)軟件生態(tài)的研發(fā)投入。這是騰訊第一次投資國內(nèi)AI芯片創(chuàng)企。
燧原科技的創(chuàng)始團隊主要來自于AMD,其創(chuàng)始人趙立東此前曾任職于 AMD 中國,后又赴銳迪科(現(xiàn)與展訊合并為紫光展銳)任職總裁。
2019年6月6日,燧原科技宣布新一輪3億元人民幣融資,由紅點創(chuàng)投中國基金領(lǐng)投,海松資本、騰訊等投資。其深度學習高端芯片的神秘面紗尚未揭開。
和前幾位玩家不同的是,天數(shù)智芯和登臨科技選擇的是直接與NVIDIA對標的通用GPU(GPU)。
在國內(nèi),尚無能與NVIDIA分庭抗禮的GPGPU公司,這對創(chuàng)企而言是個值得切入的機會。
兩家公司的造芯陣容都很成熟,天數(shù)智芯的硬件團隊基于AMD在上海和硅谷的GPU團隊,登臨科技的創(chuàng)始團隊也是在GPU行業(yè)多年的老將。
目前天數(shù)智芯的高中低端GPGPU產(chǎn)品都在研發(fā)中,其高端芯片Big Island將同時支持云端推理和訓(xùn)練。登臨科技的GPGPU處理器也已通過FPGA驗證,第一代產(chǎn)品Goldwasser的設(shè)計已完成,計劃在今年年底前可供客戶測試使用。
還有一家創(chuàng)企名為龍加智,創(chuàng)立于2017年7月,由摯信資本和翊翎資本領(lǐng)投,致力于研發(fā)TPU芯片。
為了滿足對低時延、高可靠性和數(shù)據(jù)安全的需求,龍加智推出新的芯片類型關(guān)鍵任務(wù)芯片 (Mission-Critical AI Processor),第一代芯片命名Dino-TPU,先應(yīng)用于云端數(shù)據(jù)中心,算力超過除新款Nvidia Volta之外的所有GPU,時延僅為Volta V100的1/10,功耗為75W,且獨具冗余備份和數(shù)據(jù)安全保障。
按照龍加智的開發(fā)計劃,公司計劃于 2018 年底完成第一款芯片的流片。
2、美國創(chuàng)企:Wave 7nm芯片推出在即,Cerebras仍處于秘密模式
在大洋彼岸,美國多家AI芯片創(chuàng)企也瞄準了云與計算中心市場。
一家去年存在感較強的企業(yè)是Wave Computing。這家創(chuàng)企去年收購了老芯片IP供應(yīng)商MIPS,還推出MIPS開放計劃。它的累計融資達到1.17億美元。
它的核心產(chǎn)品叫其數(shù)據(jù)流處理器單元(DPU),采用非馮諾依曼(von Neumann)架構(gòu)的軟件可動態(tài)重構(gòu)處理器CGRA(Coarse grain reconfigurable array/accelerator)技術(shù),適用于大規(guī)模異步并行計算問題。
其主要優(yōu)勢是使得硬件更加靈活地適配于軟件,在可編程性(或通用性)和性能方面達到很好的綜合平衡,降低AI芯片開發(fā)門檻,不會受到GPU等加速器中存在的內(nèi)存瓶頸的影響。
Wave的第一代DPU采用16nm制程工藝,以6 GHz以上的速度運行,已經(jīng)落地商用。據(jù)其高級副總裁兼CTO Chris Nicol介紹,新一代7nm DPU將引入MIPS技術(shù),并采用高帶寬內(nèi)存HBM(High Band Memory),預(yù)計在明年發(fā)布。
還有一家十分神秘的創(chuàng)企Cerebras System,它于2016年在美國加利福尼亞創(chuàng)辦。即便它至今未發(fā)布任何產(chǎn)品,這并不妨礙它常常被與芯片巨頭們相提并論。
Cerebras的創(chuàng)始團隊大多來自芯片巨頭AMD。其聯(lián)合創(chuàng)始人兼首席CEO安德魯·費爾德曼(Andrew Feldman)此前曾創(chuàng)辦SeaMicro,這是一家低功耗服務(wù)器制造商,在2012年被AMD以3.34億美元收購。此后,費爾德曼花了兩年半的時間爬上了AMD的副總裁之位。
在三輪融資中,Cerebras籌集了1.12億美元,其估值已飆升至高達8.6億美元。如今,Cerebras仍處于秘密模式,據(jù)相關(guān)人士透露,其硬件將為“訓(xùn)練”深度學習算法量身定制。

▲Cerebras使用深度學習加速器進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理專利
2017年4月成立的Groq創(chuàng)始團隊更是搶眼,來自谷歌TPU十人核心團隊中的8人。這家創(chuàng)企一出場就雄心勃勃,顯示器芯片算力將能達到400 TOPS。
SambaNova Systems比Groq晚7個月成立,總部位于加州Palo Alto,創(chuàng)始人包括兩位斯坦福大學教授Kunle Olukotun和ChrisRé和一位老牌芯片公司(Sun前任開發(fā)高級副總裁)高管。
其A輪融資由谷歌母公司Alphabet的風險投資部門Google Venture(GV)領(lǐng)投,這是GV首次對人工智能芯片公司進行投資。今年4月,英特爾投資宣布向14家科技創(chuàng)業(yè)公司新投資總計1.17億美元,SambaNova Systems也在名單中。
3、其他創(chuàng)企:英國獨角獸Graphcore受青睞,多數(shù)芯片尚未推出
除了中美外,其他地域的AI芯片創(chuàng)企也在蓄勢待發(fā)。
被看好的是一家資金雄厚的英國獨角獸Graphcore,成立于2016年,估值達到17億美元,累計融資3.12億美元。這家創(chuàng)企堪稱巨頭收割機,投資陣容很強大,包括紅杉資本、寶馬、微軟、博世和戴爾科技。
這家公司打造了一款專為機器智能工作負載而設(shè)計的智能處理單元(IPU),采用支持片上互連和片上存儲,從邊緣設(shè)備擴展到用于數(shù)據(jù)中心訓(xùn)練和推理的“Colossus”雙芯片封裝。
Graphcore在上如是寫道:我們的IPU系統(tǒng)旨在降低在云和企業(yè)數(shù)據(jù)中心加速AI應(yīng)用程序的成本,與目前最快的系統(tǒng)相比,將訓(xùn)練和推理的性能提高多達100倍。
在去年年底的NeurIPS活動中,Graphcore展示了一個示例配置RackScale IPU-Pod,包括32個1U IPU-Machines,每個由4個Colossus GC2 IPU處理器組成,提供500 TFLOPS混合精度計算,超過1.2GB的處理器內(nèi)存以及超過200TB/s的內(nèi)存帶寬。
另一家2016年成立的以色列創(chuàng)企Habana Labs,在去年9月的AI硬件峰會上宣布已經(jīng)準備推出其首款用于推理的AI芯片Goya,它顯示了在Resnet50圖像分類數(shù)據(jù)庫中每秒分類15000張圖像的吞吐量,比NVIDIA的T4設(shè)備高出約50%,延遲時間為1.3ms,功耗僅為100 W。
其新7500萬美元B輪融資(2018年12月)由英特爾風險投資公司領(lǐng)投,資金將部分用于研發(fā)第二款芯片Gaudi,該芯片將面向訓(xùn)練市場,據(jù)稱訓(xùn)練性能可線性擴展到1000多個處理器。
印度AlphaICs公司也是在2016年成立,正在設(shè)計AI芯片并致力于AI 2.0,希望通過該系列產(chǎn)品實現(xiàn)下一代AI。
AlphaICs的一位聯(lián)合創(chuàng)始人之一是有“奔騰芯片之父”稱號的Vinod Dham,他與一些年輕的芯片設(shè)計師們合作打造了可執(zhí)行基于代理的AI協(xié)處理芯片——RAP芯片。
Dham表示,AlphaICs芯片在處理速度上相較競爭對手更有優(yōu)勢,并稱當前我們看到的大多屬于弱AI,而他們可以被稱之為“強AI”。
按照Dham的說法,RAP芯片有望在2019年年中推出,“希望為真正的AI創(chuàng)造一個大爆炸”。
Tenstorrent是位于加拿大多倫多的創(chuàng)企,由兩位AMD前工程師Ljubisa Bajic和Milos Trajkovic創(chuàng)辦,核心團隊大多來自NVIDIA和AMD,研發(fā)專為深度學習和智能硬件而設(shè)計的高性能處理器。
去年早些時候,這家公司獲得來自Real Ventures的種子輪投資,不過至今仍處于秘密模式。
4、獨特戰(zhàn)隊:光子AI芯片
在面向云和數(shù)據(jù)中心領(lǐng)域的硬件勢力中,一支特別的戰(zhàn)隊正受到國內(nèi)外科技巨頭的青睞,它就是光子AI芯片。
和常規(guī)芯片不同,這些芯片采用光子電路來代替電子傳輸信號,他們比電子電路擁有更高的傳輸速度、更低的延遲和更高的吞吐量。
2016年,MIT研究團隊打造了首個光學計算系統(tǒng),該成果于2017年以封面文章的形式發(fā)表在頂級期刊Nature Photonics雜志。正是這篇論文,在全球范圍內(nèi)啟發(fā)更多人投入到光子AI芯片的研發(fā)之中。
僅是這一MIT團隊,就在2017年孵化出Lightelligence和LightMatter兩家美國公司。
Lightelligence在2018年2月拿到百度風投和和美國半導(dǎo)體行業(yè)高管1000萬美元種子輪融資,LightMatter在2019年2月拿到由谷歌母公司Alphabet旗下的風險投資部門Google Ventures領(lǐng)投的2200萬美元B輪融資。
Lightelligence稱光子電路(Photonic Circuits)不僅能在云計算領(lǐng)域作為CPU的協(xié)處理器加速深度學習訓(xùn)練和推理,還能用于要求高效低能耗的網(wǎng)絡(luò)邊緣設(shè)備。
今年4月,Lightelligence宣布成功開發(fā)出世界第一款光子芯片原型板卡(Prototype),其光子芯片已與谷歌、Facebook、AWS、BAT級別的客戶接洽。
LightMatter同樣重點面向大型云計算數(shù)據(jù)中心和高性能計算集群,他們曾打造出2個早期的芯片,其中一個芯片包含超過十一個晶體管。
受MIT那篇論文的啟發(fā),2017年,國內(nèi)第一家光子AI芯片創(chuàng)企光子算數(shù)由來自由清華大學、北京大學、北京交通大學等10所高校的博士生創(chuàng)立。
這家公司在2018年9月獲得天使輪融資,據(jù)稱其光子芯片的性能是電子芯片的1000倍,而功耗只有電子芯片的1%。
就在本月,比爾蓋茨也開始投資AI芯片,而且投資的是同樣研發(fā)硅光技術(shù)的Luminous。其他投資者還包括Uber聯(lián)合創(chuàng)始人Travis Kalanick的10100基金,以及現(xiàn)任Uber CEO Dara Khosrowshahi。
Luminous目前僅有7位成員,但它的胃口可不小,目標是為包含谷歌新的Tensor Processing Unit AI芯片的3000塊電路板創(chuàng)建一個替代品。它們采用的方法借鑒了其聯(lián)合創(chuàng)始人Mitchell Nahmias在普林斯頓大學的早期神經(jīng)形態(tài)光子學工作。
現(xiàn)在這幾家創(chuàng)企共同存在的問題是,不清楚多久能發(fā)布量產(chǎn)的光子AI芯片,以及這些芯片的實際應(yīng)用效果能否真正取代電子芯片的位置。
五、當前云端AI芯片主要挑戰(zhàn)
如今切入云AI芯片市場的玩家已經(jīng)有數(shù)十家,不過由NVIDIA主導(dǎo)、多家半導(dǎo)體巨頭分食的軟硬件和服務(wù)市場大體格局依然比較穩(wěn)定,產(chǎn)生新的格局變動絕非一件易事。
1、粥多僧少,聚攏效應(yīng)明顯
對于芯片行業(yè)來說,足量的產(chǎn)能至關(guān)重要。
半導(dǎo)體巨頭可以實現(xiàn)十倍、百倍的產(chǎn)能,而創(chuàng)企很難在創(chuàng)業(yè)初期就做到這一點。現(xiàn)在的創(chuàng)企多為IC設(shè)計廠商,如果他們想要成為像英特爾、三星那樣“自給自足”的公司,可能需要花數(shù)十億美元不止。
經(jīng)過2015-2016年的半導(dǎo)體行業(yè)整合浪潮后,近兩年半導(dǎo)體并購潮正在逐漸“退燒”,大公司對芯片創(chuàng)企的投資或收購行動會更加謹慎。
2、人才爭奪愈演愈烈
云端AI芯片的核心競爭力在于人才。
從當前市場上較受關(guān)注的云AI芯片公司來看,它們的研究團隊多是在芯片巨頭有超過十年從業(yè)經(jīng)歷的行業(yè)老兵,而且往往有帶頭研發(fā)出相關(guān)成功產(chǎn)品的經(jīng)驗。
無論是半導(dǎo)體巨頭還是跨界造芯的科技巨頭,基本上都在走兩種路徑,一是投資并購成熟的芯片公司,另一種就是從挖走其他大公司的芯片高管。
3、創(chuàng)新難+落地難
英特爾研究院院長宋繼強曾經(jīng)向智東西表示,AI芯片的未來一定是多樣化,不同種類的產(chǎn)品滿足不同功耗、尺寸、價錢的要求,AI一場馬拉松,現(xiàn)在這場比賽才剛剛開始。
現(xiàn)階段,入局云AI芯片領(lǐng)域的絕大多數(shù)巨頭和創(chuàng)企都在打創(chuàng)新的招牌,包括創(chuàng)新的架構(gòu)、存儲技術(shù)以及硅光技術(shù)等。
由于對推動深度學習的新型計算資源的需求激增,許多人認為這是初創(chuàng)企業(yè)從巨頭和投資機構(gòu)手中爭取資金的難得機會。
盡管玩家正在增多,打出的旗幟也趨于多樣化,但就目前而言,真正落地量產(chǎn)的創(chuàng)新硬件還很有限。云端AI芯片面臨的困境仍有很多,比如計算機體系結(jié)構(gòu)普遍存在的摩爾定律難以維系和半導(dǎo)體器件方面的瓶頸。
研發(fā)芯片的過程可能需要數(shù)年時間,目前大部分硬件仍在開發(fā)中或在早期試驗計劃中進行。因此,很難預(yù)測哪些企業(yè)會實現(xiàn)承諾的性能。
結(jié)語:三股勢力,決戰(zhàn)云端AI芯片之巔
總體來看,云端AI芯片市場正逐漸分成三股勢力,以英偉達、英特爾等為代表的半導(dǎo)體巨頭,以谷歌、華為等為代表的中美科技巨頭,和以寒武紀、Groq等為代表的芯片創(chuàng)企。其中,半導(dǎo)體巨頭和芯片創(chuàng)企面向主攻通用芯片,而跨界造芯的科技巨頭以及AI創(chuàng)企依圖暫時不對外直接銷售。
從應(yīng)用領(lǐng)域來看,盡管GPU的高能耗遭到業(yè)界越來越多的吐槽,但因其并行運算能力,使得云端AI訓(xùn)練領(lǐng)域至今尚未出現(xiàn)能與NVIDIA GPU分庭抗禮的玩家。挑戰(zhàn)這一領(lǐng)域的玩家主要是傳統(tǒng)芯片巨頭和創(chuàng)企,跨界的科技巨頭有谷歌、百度和華為,主要采用的架構(gòu)是通用GPU和ASIC。
在更注重能耗、時延、成本、性價比等綜合能力的云端AI推理領(lǐng)域,入局的玩家相對更多,F(xiàn)PGA和ASIC的優(yōu)勢相對高于GPU。擁有全面AI芯片布局的英特爾勢頭正猛,其他玩家也不遑多讓,中美幾大互聯(lián)網(wǎng)巨頭基本上全部加入戰(zhàn)局,但部分巨頭的芯片研發(fā)進展尚未可知。
關(guān)于提升造芯實力,多數(shù)半導(dǎo)體巨頭和科技巨頭均選擇了投資、并購和挖芯片大牛的捷徑,從而直接得到成熟芯片團隊的輔助,快速補足人才和業(yè)務(wù)的空缺。而對于創(chuàng)企來說,獲得投資界青睞的基本都具備兩大因素——富有經(jīng)驗的創(chuàng)始團隊和擁有創(chuàng)新技術(shù)的產(chǎn)品,從落地進程來看,我國芯片創(chuàng)企的步伐可以排在世界前列。
就目前來看,絕大多數(shù)AI應(yīng)用仍然依賴于在云端的訓(xùn)練和推理,在訓(xùn)練領(lǐng)域,NVIDIA穩(wěn)固的生態(tài)體系依然是難以撼動的一座高山,在推理領(lǐng)域,更是群雄逐鹿能者勝。隨著AI更加廣泛地落地到各行各業(yè),云端AI芯片市場也會獲得更大的增長空間,但這篇市場未必容得下這么多的玩家,資金、器件瓶頸、架構(gòu)創(chuàng)新、適配快速改變的AI算法以及構(gòu)建生態(tài)系統(tǒng)都是擺在這些企業(yè)面前的難題。什么是完全適合云端訓(xùn)練和推理的AI芯片形態(tài),也尚未出現(xiàn)統(tǒng)一的結(jié)論。
這場前所未有的技術(shù)革命的直接推動者,是國外谷歌微軟Facebook、國內(nèi)BAT等互聯(lián)網(wǎng)巨頭以及一眾新生的AI初創(chuàng)企業(yè),而這些公司快速在AI領(lǐng)域開疆辟土的靈魂支柱,則是提供源源不斷高密度計算能力的AI硬件提供商。
AI硬件應(yīng)用場景通常分為云端和終端,云端主要指大規(guī)模數(shù)據(jù)中心和服務(wù)器,終端包括手機、車載、安防攝像頭、機器人等豐富的場景。
無論是在線翻譯、語音助手、個性化推薦還是各種降低開發(fā)者使用門檻的AI開發(fā)平臺,但凡需要AI技術(shù)之處,背后都需要云端AI芯片夜以繼日地為數(shù)據(jù)中心提供強大的算力支撐。
根據(jù)NVIDIA在2017年亮出的數(shù)據(jù),到2020年,全球云端AI芯片的市場規(guī)模累計將超過200億美元,這個體量龐大的市場已成為各路芯片巨頭虎視眈眈之地。
NVIDIA通用圖形處理單元(GPGPU)即是乘著深度學習的東風扶搖直上,股價在2015年還是20美元,到2018年10月飆升至292美元,市值超過肯德基和麥當勞,一躍成為AI領(lǐng)域第一股,市值數(shù)十億美元,坐享風光。
其火箭般的漲勢驚醒了一眾潛在競爭對手,風暴出現(xiàn)在地平線上。半導(dǎo)體巨頭英特爾、AMD等奮起直追,谷歌、亞馬遜、百度、華為跨界自研,還有數(shù)十家新生芯片創(chuàng)企揭竿而起,意圖通過自研架構(gòu)等方式突破云端AI芯片性能的天花板,重塑這一市場的版圖。
本文將對云端AI芯片的戰(zhàn)事進行全景式復(fù)盤,盤點加入戰(zhàn)局的五大半導(dǎo)體巨頭、七大中美科技巨頭和20家國內(nèi)外芯片創(chuàng)企,看曾經(jīng)締造神話的NVIDIA,能否維系它的傳奇帝國?如今已經(jīng)出現(xiàn)或者正在開發(fā)的新計算架構(gòu),能否適配未來的算法?哪些企業(yè)更有望在強手如林的競爭環(huán)境中生存下來?
誰能主導(dǎo)這場云端AI芯片戰(zhàn)事,誰就掌握了將在未來云計算和AI市場的戰(zhàn)役中贏得更多話語權(quán)。
一、十年押注,AI發(fā)射
一切始于意外,又絕非一次意外。
十幾年前,英偉達(NVIDIA)在經(jīng)歷過和數(shù)十家對手的激烈廝殺后,和AMD成為圖形顯卡領(lǐng)域的兩大霸主。那時,大多數(shù)NVIDIA員工們,并不知道人工智能(AI)是什么。
彼時,NVIDIA總營收規(guī)模約30億美元,其創(chuàng)始人兼CEO黃仁勛做了一個冒險的決定——每年為CUDA項目砸5億美元,通過一系列改動和軟件開發(fā),將GPU轉(zhuǎn)化成更通用的計算工具,累計總額近100億美元。
這是一個極具前瞻性的決定。2006年,GPU上的通用計算解決方案CUDA現(xiàn)世,這一技術(shù)為編程人員帶來越來越方便的入門體驗,逐漸為NVIDIA GPU積累了強健穩(wěn)固的開發(fā)者生態(tài)。
直到2012年,NVIDIA遇到了深度學習的風口。
這一年,加拿大多倫多大學教授、機器學習領(lǐng)域泰斗、神經(jīng)網(wǎng)絡(luò)之父Geoffrey Hinton帶領(lǐng)課題組用GPU訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)AlexNet,一舉拿下ImageNet圖像識別比賽的冠軍,將AI推到了學術(shù)界焦點的歷史性拐點。
GPU并非為深度學習而生,其并行計算能力竟與深度學習算法的邏輯一拍即合。每個GPU有數(shù)千個內(nèi)核并行,這些核心通常執(zhí)行許多低級的、繁復(fù)的數(shù)學運算,非常適合運行深度學習算法。
之后,越來越強的“CUDA+GPU”組合,憑借無敵的處理速度和多任務(wù)處理能力,迅速俘獲一大批研究人員們的芳心,很快就成為全球各大數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施的必備組件。
巨頭們的云端AI芯片之戰(zhàn),悄然拉開序幕。
二、芯片巨頭鏖戰(zhàn)云端:NVIDIA獨霸,英特爾AMD奮起
起步早加上生態(tài)穩(wěn)健,NVIDIA很快就成為云端AI芯片市場的領(lǐng)導(dǎo)者。
NVIDIA在通往更強的道路上一往無前,陸續(xù)展示令人驚嘆的Tensor Core、NVSwitch等技術(shù),不斷打造新的性能標桿。此外,它還構(gòu)建了GPU云,使得開發(fā)者隨時可以下載新版的深度學習優(yōu)化軟件堆棧容器,極大程度上降低了AI研發(fā)與應(yīng)用的門檻。
就這樣,NVIDIA靠時間、人才和技術(shù)的積累,壘起了堅不可摧的城墻。想要城池者,無不需要遵循NVIDIA指定的法則。截至今日,NVIDIA的工程師軍團已逾萬人,其GPU+CUDA計算平臺是迄今為止成熟的AI訓(xùn)練方案,吞食掉絕大多數(shù)訓(xùn)練市場的蛋糕。
從功能來看,云AI芯片主要在做兩件事:訓(xùn)練(Training)和推理(Inference)。
訓(xùn)練是把海量數(shù)據(jù)塞給機器,通過反復(fù)調(diào)整AI算法,使其學習掌握特定的功能。這個過程需要極高的計算性能、精度和通用性。
推理則是將訓(xùn)練好的模型拿來應(yīng)用,它的參數(shù)已經(jīng)固化,也不需要海量數(shù)據(jù),對性能、精度和通用性的要求沒有訓(xùn)練那么高。
GPU在訓(xùn)練市場的是一座難以翻越的高山,但在對功耗要求更高的推理市場,它的優(yōu)勢相對沒那么明顯。
而這里,也是入局偏晚的半導(dǎo)體巨頭們聚集的方向。
1、GPU:NVIDIA贏者通吃,AMD搶壘7nm
芯片是贏者通吃的市場,云端AI芯片亦不例外,NVIDIA為加速數(shù)據(jù)中心應(yīng)用推出的高中低端通用GPU,一直是各路玩家參考的性能標桿。
NVIDIA在短時間內(nèi)投入數(shù)十億美元動用數(shù)千工程師,于2016年推出了第一個專為深度學習優(yōu)化的Pascal GPU。2017年,它又推出了性能相比Pascal提升5倍的新GPU架構(gòu)Volta,神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同期亮相。
在新季度財報中,NVIDIA數(shù)據(jù)中心收入同比增長58%至7.92億美元,占公司總收入的近25%,在過去的四個季度中總共達到了28.6億美元。如果它能夠保持這種增長,預(yù)計2019年的數(shù)據(jù)中心將達到約45億美元。
和NVIDIA在GPU領(lǐng)域長期相爭的AMD,亦在積極地推進對AI加速計算的研發(fā)。2016年12月,AMD宣布主打AI與深度學習的加速卡計劃——Radeon Instinct。
說起來,AMD在深度學習領(lǐng)域的起步離不開中國公司的支持。百度是第一家在數(shù)據(jù)中心采用AMD Radeon Instinct GPU的中國公司,后來阿里巴巴也跟AMD簽了合同。
目前AMD的GPU仍然至少落后于NVIDIA的一代Tesla V100,不過在NVIDIA新招未發(fā)之時,AMD率先在其Next Horizon會議上宣布推出7nm GPU,名為Radeon Instinct MI60,內(nèi)存帶寬高達1 TB /秒,并聲稱其7nm GPU通過AMD Infinity Fabric link等技術(shù),成為世界上快的雙精度加速器,可以提供高達7.4 TFLOPS的浮點性能。
除了提供GPU芯片,AMD也在通過推出ROCm開放軟件平臺等方式構(gòu)建更強大的開源機器學習生態(tài)系統(tǒng)。
雖說GPU暫時還抗不過NVIDIA,不過AMD有自己獨特的優(yōu)勢。AMD既有GPU又有CPU,可以在其GPU與CPU間用Infinity Fabric實現(xiàn)無縫連接,而英特爾至強處理器+NVIDIA GPU就很難做到這樣的完美連接。
同樣扎在GPU市場安營扎寨的還有Imagination Technologies,只不過它長期深耕于移動GPU。從2017年到2018年,Imagination宣布了三款新的PowerVR圖形處理單元(GPU),主打AI終端市場。
在去年年底,Imagination高管在接受采訪時透露,Imagination可能會宣布推出面向AI訓(xùn)練的GPU。
2、FPGA:賽靈思打出創(chuàng)新牌,英特爾“買”出全套大禮包
在AI推理的應(yīng)用當中,F(xiàn)PGA相較專用集成電路(ASIC)具有靈活可編程的優(yōu)勢,它們可以針對特定的工作進行即時重新配置,比GPU功耗更低。

▲處理器的靈活性與性能差異
FPGA領(lǐng)域的老大老二常年是賽靈思和英特爾Altera,面對新興的AI市場,體內(nèi)的創(chuàng)新基因亦是躍躍欲試。
賽靈思即將上線的大殺器叫Versal,這是業(yè)界自適應(yīng)計算加速平臺(Adaptive Compute Acceleration Platform ,ACAP),采用臺積電7nm工藝,集成了AI和DSP引擎,其軟硬件均可由開發(fā)者進行編程和優(yōu)化。
這一殺器用了4年的時間來打磨,據(jù)稱Versal AI Core的AI推斷性能預(yù)計比業(yè)領(lǐng)先的GPU提升8倍。按照此前賽靈思釋放的消息,Versal將在今年發(fā)貨。
有業(yè)內(nèi)人士認為,Versal系列可能會改變AI推理市場。
如果說NVIDIA打開AI的大門,靠的是天然契合的基因,那么英特爾則是靠“買買買”的捷徑,快速躋身云AI芯片的前排。作為幾十年的半導(dǎo)體霸主,英特爾一出手目標就是成為“全才”。
眾所周知,英特爾屹立不倒的王牌是至強處理器。至強處理器猶如一個智慧超群的軍師,運籌帷幄,能處理各種任務(wù),但如果你讓他去鑄造兵器,他的效率則完全比不過一個頭腦簡單但有一身蠻力的武夫。
因此,面對擁有大量重復(fù)性簡單運算的AI,讓至強處理器去處理此類任務(wù)既是大材小用,結(jié)果又很低效。英特爾的做法是給至強處理器搭配加速器。
沒有做AI加速器的技術(shù)背景怎么辦?英特爾大筆一揮,直接買!
2015年12月,英特爾砸下167億美元買走當時的可編程邏輯器件(FPGA)的前年老二Altera,如今英特爾憑著“Xeon+Altera FPGA”異構(gòu)芯片的打法,將數(shù)據(jù)中心某些任務(wù)提速十倍有余。
尤其是近一年來,英特爾對FPGA的加碼肉眼可見。前兩年,英特爾陸續(xù)推出號稱是史上最快FPGA芯片的Stratix 10系列,這一系列獲得了微軟的青睞。
微軟推出基于英特爾Stratix 10 FPGA的云端解決方案Project Brainwave,稱其運行速度達39.5 TFLOPS,延遲不足1 ms。
除了Stratix 10 FPGA芯片外,英特爾先是去年12月在重慶落戶了其全球最大的FPGA創(chuàng)新中心,后又在今年4月亮出被悄然打磨了數(shù)年的新武器——全新架構(gòu)的FPGA Agilex,集成了英特爾先進的10nm工藝、3D封裝、第二代HyperFlex等多種創(chuàng)新技術(shù)。
英特爾的FPGA已經(jīng)在服務(wù)器市場初步站穩(wěn)腳跟,而另一項重要的交易還處于蟄伏期。
2016年8月,英特爾花了三四億美元買下專注于打造深度學習專用于硬件的加州創(chuàng)企Nervana,收購后不久,前Nervana CEO就被晉升為英特爾AI事業(yè)部總負責人,采用臺積電28nm工藝的深度學習專用芯片Lake Crest在2018年量產(chǎn),并宣稱性能是當時快的GPU的10倍。
2018年5月,英特爾全新云AI芯片Nervana神經(jīng)網(wǎng)絡(luò)處理器(Nervana Neural Network Processors,NNP)——Spring Crest正式亮相,據(jù)稱其功耗小于210瓦,訓(xùn)練性能比Lake Crest提升3-4倍,將于2019年下半年向用戶開放。
對于云端AI芯片推理,英特爾在拉斯維加斯舉行的CES上透露,它正在與Facebook就Nervana神經(jīng)網(wǎng)絡(luò)處理器NNP-I的推理版本密切合作。NNP-I將是一個片上系統(tǒng)(SoC),內(nèi)置英特爾10nm晶體管,并將包括IceLake x86內(nèi)核。
對比谷歌的TPU來看,英特爾人工智能事業(yè)群(AIPG)副總裁、Nervana團隊核心成員Carey Kloss認為TPU 2.0類似于Lake Crest,TPU 3.0類似于Spring Crest。
3、新晉入局者:終端芯片巨頭高通
在移動芯片領(lǐng)域如日中天的高通,也剛剛舉起進軍云計算和超算領(lǐng)域的敲門磚。
今年4月,高通宣布推出Cloud AI 100加速器,將高通的技術(shù)拓展至數(shù)據(jù)中心,預(yù)計將于2019年下半年開始向客戶出樣。
據(jù)悉,這款加速器基于高通在信號處理和功效方面的技術(shù)積累,專為滿足急劇增長的云端AI推理處理的需求而設(shè)計,可以讓分布式智能從云端遍布至用戶的邊緣終端,以及云端和邊緣終端之間的全部節(jié)點。
高通產(chǎn)品管理高級副總裁Keith Kressin稱:“高通CloudAI 100加速器將為當今業(yè)界的數(shù)據(jù)中心的AI推理處理器樹立全新標桿——無論是采用CPU、GPU和/或FPGA的哪種組合方式來實現(xiàn)AI推理的處理器。”
此外,他還介紹說,高通目前正處在優(yōu)勢地位支持完整的從云端到邊緣的AI解決方案,所有的AI解決方案均可與具備高速率和低時延優(yōu)勢的5G實現(xiàn)連接。
三、跨界巨頭層出不窮:互聯(lián)網(wǎng)霸主爭上游
相比上面對云和數(shù)據(jù)中心市場野心勃勃的芯片巨頭們,下面這些跨界玩家的心思可就相對“單純”很多。
這些中美互聯(lián)網(wǎng)巨頭的目標不是直接與NVIDIA、英特爾或AMD競爭,而是向他們自己的云客戶提供強大的算力,減少對傳統(tǒng)芯片制造商的依賴。
他們自研芯片的選擇也不盡相同,谷歌、亞馬遜等選擇專用芯片(ASIC)的路線,而微軟等則致力于使用現(xiàn)場可編程門列(FPGA)。
1、谷歌:專用AI芯片商用開路人
作為開始做AI相關(guān)研發(fā)的科技公司之一,谷歌亦是試水專用AI芯片的先鋒,驗證ASIC可以在深度學習領(lǐng)域替代GPU。
谷歌于2016年推出了自己開發(fā)的AI芯片Tensor Processing Unit(TPU),現(xiàn)已進入第三代,為谷歌的語音助理、谷歌地圖、谷歌翻譯等各種AI應(yīng)用提供算力支撐。最初設(shè)計的TPU用于深度學習的推理階段,而新版本已經(jīng)可以用于AI訓(xùn)練。
谷歌聲稱,使用32種好的商用GPU訓(xùn)練機器翻譯系統(tǒng)需要一天的時間,相同的工作量需要在8個連接的TPU上花費6個小時。
谷歌目前只在自己的數(shù)據(jù)中心內(nèi)運營這種設(shè)備,沒有對外出售。不過谷歌表示將允許其他公司通過其云計算機服務(wù)購買其TPU芯片。
谷歌TPU在谷歌對外服務(wù)的市場是有限制的,TPU只能用與和運行Google TensorFlow AI框架,用戶無法使用它們來訓(xùn)練或運行使用Apache MxNet或Facebook的PyTorch構(gòu)建的AI,也不能將它們用于GPU占據(jù)著至高無上地位的非AI HPC應(yīng)用程序中。
但谷歌對此表示滿意,因為它將TPU和TensorFlow視為其全面的AI領(lǐng)導(dǎo)力的戰(zhàn)略。針對其軟件進行了優(yōu)化的軟件針對其軟件進行了優(yōu)化,可以構(gòu)建強大而耐用的平臺。
今年開年的新消息是谷歌在印度班加羅爾成立了新的芯片團隊gChips,并從英特爾、高通、博通和NVIDIA等傳統(tǒng)芯片公司那里大舉招兵買馬,至少招募了16名技術(shù)老兵。
2、內(nèi)部商用在即:微軟FPGA、百度昆侖與華為昇騰
去年5月,微軟AI芯片Brainwave開放云端測試版,稱Project Brainwave計算平臺使用的FPGA芯片為實時AI而設(shè)計,比谷歌使用的TPU芯片處理速度快上了5倍(微軟AI芯片Brainwave開放云端試用版 比TPU快5倍)。微軟Azure執(zhí)行副總裁Jason Zander還曾表示,微軟Azure實際上設(shè)計了許多自研芯片,用于數(shù)據(jù)中心。
不得不承認,國內(nèi)科技巨頭給芯片起名字,那文化水平高出國外不止一個Level。
百度給云端AI芯片命名的“昆侖”是中國第一神山,相傳這座山的先主,被古人尊為“萬山之宗”、“龍脈之祖”,嫦娥奔月、西游記、白蛇傳等家喻戶曉的神話傳說都與此山有所關(guān)聯(lián)。
華為云端AI芯片的“昇騰”則取超脫塵世、上升、器宇軒昂之義,頗受文人墨客的喜愛。
百度和華為都是國內(nèi)早早跨界造芯的科技公司。早在2017年8月,百度就在加州Hot Chips大會上發(fā)布了一款256核、基于FPGA的云計算加速芯片,合作伙伴是賽靈思。華為做芯片就更早了,2004年就成立半導(dǎo)體公司海思,只不過以前都是做終端的芯片解決方案。
2018年下半年,以它們?yōu)榇淼男乱惠喸煨緞萘Υ淀懥酥袊贫薃I芯片沖鋒的號角。
百度是國內(nèi)較早試水造芯的科技巨頭,早在2010年就開始用FPGA做AI架構(gòu)的研發(fā),2011年開展小規(guī)模部署上線,2015年打破幾千片的部署規(guī)模,2017年部署超過了10000片F(xiàn)PGA,百度內(nèi)部數(shù)據(jù)中心、自動駕駛系統(tǒng)等都在大規(guī)模使用。
2017年8月,百度發(fā)布了一款256核、基于FPGA的XPU芯片,這款是和賽靈思合作的,核心很小,沒有緩存或操作系統(tǒng),效率與CPU相當。
隨后在2018年7月舉辦的百度AI開發(fā)者大會上,百度宣布當時業(yè)內(nèi)的算力最高的AI芯片——昆侖。
參數(shù)方面,昆侖芯片由三星代工,采用14nm工藝,內(nèi)存帶寬達512GB/s,核心有數(shù)萬個,能在100W以上的功耗提供260 TOPS的算力。
以NVIDIA最新圖靈(Turing)架構(gòu)的T4 GPU為對比,T4最大功耗為70W,能提供的最高算力也是260 TOPS,但這款GPU比昆侖芯片的發(fā)布晚了2個月,并且初期并沒有在中國開售。百度主任架構(gòu)師歐陽劍在今年的AI芯片創(chuàng)新峰會上透露,今年“昆侖”會在百度內(nèi)部大規(guī)模使用。
華為的云端AI芯片昇騰910更是直接在發(fā)布現(xiàn)場和NVIDIA與谷歌正面PK。昇騰910直接用起了先進的7nm工藝,采用華為自研的達芬奇架構(gòu),最大功耗350W。華為打的旗號是截止到發(fā)布日期“單芯片計算密度最大的芯片”,半精度(FP16)運算能力達到256 TFLOPS,比NVIDIA V100的125 TFLOPS足足高了一倍。
徐直軍甚至表示,假設(shè)集齊1024個昇騰910,會出現(xiàn)“迄今為止全球最大的AI計算集群,性能達到256P,不管多么復(fù)雜的模型都能輕松訓(xùn)練。”這個大規(guī)模分布式訓(xùn)練系統(tǒng),名為“Ascend Cluster”。
落地方面,百度 稱其昆侖將于今年年內(nèi)在百度數(shù)據(jù)中心大規(guī)模使用,華為的昇騰910原計劃在今年Q2上市,現(xiàn)在在貿(mào)易戰(zhàn)的背景之下,不知道會不會延遲。
3、神秘主義:亞馬遜、阿里與臉書
作為中美云計算市場的龍頭,阿里巴巴和亞馬遜雖然稍微遲到,但絕對不會缺席。
兩家的研發(fā)目的都很明確,是為了解決圖像、視頻識別、云計算等商業(yè)場景的AI推理運算問題,提升運算效率、降低成本。
阿里巴巴達摩院去年4月宣布,Ali-NPU性能將是現(xiàn)在市面上主流CPU、GPU架構(gòu)AI芯片的10倍,制造成本和功耗僅為一半,性價比超40倍。同月,阿里全資收購大陸唯一的自主嵌入式CPU IP核公司中天微。
新進展發(fā)生在9月,阿里將中天微與達摩院自研芯片業(yè)務(wù)合并,整合成一家芯片公司平頭哥。研發(fā)Ali-NPU的重任由平頭哥接棒,首批AI芯片預(yù)計2019年下半年面世,將應(yīng)用在阿里數(shù)據(jù)中心、城市大腦和自動駕駛等云端數(shù)據(jù)場景中。未來將通過阿里云對外開放使用。
在模擬驗證測試中,這款芯片的原型讓鋪設(shè)阿里城市大腦的硬件成本節(jié)約了35%。但此后,阿里幾乎未再發(fā)出相關(guān)進展的聲音。
亞馬遜的云AI芯片Inferentia是去年11月在拉斯維加斯舉行的re:Invent大會上公布的。
這款芯片的技術(shù)源頭要追溯到亞馬遜在2015年初花費3.5億美元收購的以色列芯片公司Annapurna Labs。按照介紹,每個Inferentia芯片提供高達幾百TOPS的算力,多個AWS Inferentia芯片可形成成千上萬的TOPS算力。該芯片仍在開發(fā)中,按預(yù)告,這款芯片將于2019年底上市。
Facebook的造芯計劃浮出水面的很早,但卻是信息曝光少的玩家。
除了買下相對成熟的芯片公司外,招兵買馬也是常備之選。Facebook的造芯計劃在去年4月初露端倪,上發(fā)布了招聘ASIC&FPGA設(shè)計工程師的廣告,用于組建芯片團隊。3個月后,美媒彭博社報道稱,F(xiàn)acebook挖走谷歌高級工程師主管Shahriar Rabii擔任副總裁兼芯片負責人。
Facebook首席人工智能科學家、新圖靈獎獲得者Yann LeCun在接受采訪時透露,其造芯主要是未來滿足對網(wǎng)站進行實時視頻監(jiān)控的需求。
而等到今年1月時,英特爾在全球消費電子展(CES)上表示,正與Facebook合作開發(fā)一款新的AI芯片,用于加速推理,并力爭在今年下半年開發(fā)完成。
不過迄今為止,外界對Facebook AI芯片的性能信息一無所知。
四、新秀迭出:國內(nèi)創(chuàng)企搶先落地,國外創(chuàng)企醞釀大招
AI的復(fù)興顛覆了以往由英特爾、AMD、高通等芯片公司carry全產(chǎn)業(yè)的穩(wěn)定局面,為新的一批芯片創(chuàng)業(yè)者創(chuàng)造了機會。
一些初創(chuàng)公司希望從頭開始創(chuàng)建一個新平臺,一直到硬件,專門針對AI操作進行優(yōu)化。希望通過這樣做,它能夠在速度,功耗,甚至可能是芯片的實際尺寸方面超越GPU。
1、中國創(chuàng)企:比特大陸寒武紀領(lǐng)銜,依圖智能密度超NVIDIA
先說國內(nèi)做云端AI芯片創(chuàng)企,其中耀眼的當屬比特大陸和中科寒武紀。
比特大陸作為礦機芯片老大業(yè)界聞名,但在過去一年的比特幣大退潮中,比特大陸首當其沖陷入輿論漩渦,上市計劃未能如期實現(xiàn)。
這家2013年成立的公司,在2015年就啟動AI芯片業(yè)務(wù)。繼2017年推出第一代28nm云端AI芯片產(chǎn)品BM1680后,它在2018年第一季度發(fā)布第二代BM1682,迭代時間僅9個月。
按照比特大陸去年公布的造芯計劃,12nm的云端芯片BM1684應(yīng)在2018年年底推出,BM1686將在2019年推出,很可能采用7nm制程,不過這兩款芯片都姍姍來遲。
和比特大陸一樣同時發(fā)力云端和終端芯片的還有AI小芯片獨角獸中科寒武紀。
寒武紀曾因嵌在華為手機AI芯片中麒麟970中的神經(jīng)網(wǎng)絡(luò)處理器(NPU)成功打響知名度,成為國內(nèi)外AI芯片創(chuàng)企中的當紅炸子雞,在經(jīng)歷A、B兩輪融資后,整體估值約25億美元(約170多億人民幣)。
2018年5月,寒武紀正式發(fā)布第一代云AI芯片MLU100,據(jù)稱可以以更低的功率提供比NVIDIA V100更好的性能。其客戶科大訊飛曾披露測試結(jié)果,稱MLU100芯片在語音智能處理的能耗效率領(lǐng)先國際競爭對手的云端GPU方案5倍以上。
一年后,其第二代云端AI芯片思元270芯片未發(fā)先熱,部分性能被知乎網(wǎng)友曝光,峰值性能和功耗都基本與NVIDIA Tesla T4基本持平,業(yè)內(nèi)傳聞寒武紀可能在低精度訓(xùn)練領(lǐng)域有所突破。該芯片不出意外地話將于近期發(fā)布。
欲對標NVIDIA和谷歌的創(chuàng)企不止于此。
令人稍感意外的玩家是國內(nèi)計算機視覺(CV)四小龍之一依圖科技。今年5月,依圖發(fā)布了與AI芯片創(chuàng)企熠知電子(ThinkForce)聯(lián)合開發(fā)的云端AI芯片求索questcore。
熠知電子是一家低調(diào)但不容小覷的上海AI芯片創(chuàng)企,于2017年獲依圖科技、云鋒基金、紅杉資本、高瓴資本的4.5億元人民幣A輪融資。其核心成員來自IBM、AMD、英特爾、博通、Cadence等半導(dǎo)體巨頭,均有十年以上的芯片行業(yè)從業(yè)經(jīng)歷。
這款云端深度學習推理定制化SoC芯片采用16nm制程和擁有自主知識產(chǎn)權(quán)的ManyCore架構(gòu),據(jù)稱最高能提供每秒15 TOPS的視覺推理性能,僅針對INT 8數(shù)據(jù)(8 位整數(shù)數(shù)據(jù)類型)進行加速,最大功耗僅20W,比一個普通的電燈泡還小。
依圖表示,開發(fā)這款芯片不是想追求NVIDIA那樣幾百個T的算力,而是看重高計算密度。
和前述的跨界科技巨頭們一樣,依圖芯片商用的第一步也是結(jié)合其自身軟硬件和解決方案打包出售,不會單獨售賣,第二、三代產(chǎn)品也都在籌備中。
上海的熱門造芯新勢力還有燧原科技。它可以說是國內(nèi)年輕的AI芯片造芯者,2018年3月成立,獲得由騰訊領(lǐng)投的3.4億元人民幣Pre-A輪融資,主攻云端AI加速芯片及相關(guān)軟件生態(tài)的研發(fā)投入。這是騰訊第一次投資國內(nèi)AI芯片創(chuàng)企。
燧原科技的創(chuàng)始團隊主要來自于AMD,其創(chuàng)始人趙立東此前曾任職于 AMD 中國,后又赴銳迪科(現(xiàn)與展訊合并為紫光展銳)任職總裁。
2019年6月6日,燧原科技宣布新一輪3億元人民幣融資,由紅點創(chuàng)投中國基金領(lǐng)投,海松資本、騰訊等投資。其深度學習高端芯片的神秘面紗尚未揭開。
和前幾位玩家不同的是,天數(shù)智芯和登臨科技選擇的是直接與NVIDIA對標的通用GPU(GPU)。
在國內(nèi),尚無能與NVIDIA分庭抗禮的GPGPU公司,這對創(chuàng)企而言是個值得切入的機會。
兩家公司的造芯陣容都很成熟,天數(shù)智芯的硬件團隊基于AMD在上海和硅谷的GPU團隊,登臨科技的創(chuàng)始團隊也是在GPU行業(yè)多年的老將。
目前天數(shù)智芯的高中低端GPGPU產(chǎn)品都在研發(fā)中,其高端芯片Big Island將同時支持云端推理和訓(xùn)練。登臨科技的GPGPU處理器也已通過FPGA驗證,第一代產(chǎn)品Goldwasser的設(shè)計已完成,計劃在今年年底前可供客戶測試使用。
還有一家創(chuàng)企名為龍加智,創(chuàng)立于2017年7月,由摯信資本和翊翎資本領(lǐng)投,致力于研發(fā)TPU芯片。
為了滿足對低時延、高可靠性和數(shù)據(jù)安全的需求,龍加智推出新的芯片類型關(guān)鍵任務(wù)芯片 (Mission-Critical AI Processor),第一代芯片命名Dino-TPU,先應(yīng)用于云端數(shù)據(jù)中心,算力超過除新款Nvidia Volta之外的所有GPU,時延僅為Volta V100的1/10,功耗為75W,且獨具冗余備份和數(shù)據(jù)安全保障。
按照龍加智的開發(fā)計劃,公司計劃于 2018 年底完成第一款芯片的流片。
2、美國創(chuàng)企:Wave 7nm芯片推出在即,Cerebras仍處于秘密模式
在大洋彼岸,美國多家AI芯片創(chuàng)企也瞄準了云與計算中心市場。
一家去年存在感較強的企業(yè)是Wave Computing。這家創(chuàng)企去年收購了老芯片IP供應(yīng)商MIPS,還推出MIPS開放計劃。它的累計融資達到1.17億美元。
它的核心產(chǎn)品叫其數(shù)據(jù)流處理器單元(DPU),采用非馮諾依曼(von Neumann)架構(gòu)的軟件可動態(tài)重構(gòu)處理器CGRA(Coarse grain reconfigurable array/accelerator)技術(shù),適用于大規(guī)模異步并行計算問題。
其主要優(yōu)勢是使得硬件更加靈活地適配于軟件,在可編程性(或通用性)和性能方面達到很好的綜合平衡,降低AI芯片開發(fā)門檻,不會受到GPU等加速器中存在的內(nèi)存瓶頸的影響。
Wave的第一代DPU采用16nm制程工藝,以6 GHz以上的速度運行,已經(jīng)落地商用。據(jù)其高級副總裁兼CTO Chris Nicol介紹,新一代7nm DPU將引入MIPS技術(shù),并采用高帶寬內(nèi)存HBM(High Band Memory),預(yù)計在明年發(fā)布。
還有一家十分神秘的創(chuàng)企Cerebras System,它于2016年在美國加利福尼亞創(chuàng)辦。即便它至今未發(fā)布任何產(chǎn)品,這并不妨礙它常常被與芯片巨頭們相提并論。
Cerebras的創(chuàng)始團隊大多來自芯片巨頭AMD。其聯(lián)合創(chuàng)始人兼首席CEO安德魯·費爾德曼(Andrew Feldman)此前曾創(chuàng)辦SeaMicro,這是一家低功耗服務(wù)器制造商,在2012年被AMD以3.34億美元收購。此后,費爾德曼花了兩年半的時間爬上了AMD的副總裁之位。
在三輪融資中,Cerebras籌集了1.12億美元,其估值已飆升至高達8.6億美元。如今,Cerebras仍處于秘密模式,據(jù)相關(guān)人士透露,其硬件將為“訓(xùn)練”深度學習算法量身定制。

▲Cerebras使用深度學習加速器進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理專利
2017年4月成立的Groq創(chuàng)始團隊更是搶眼,來自谷歌TPU十人核心團隊中的8人。這家創(chuàng)企一出場就雄心勃勃,顯示器芯片算力將能達到400 TOPS。
SambaNova Systems比Groq晚7個月成立,總部位于加州Palo Alto,創(chuàng)始人包括兩位斯坦福大學教授Kunle Olukotun和ChrisRé和一位老牌芯片公司(Sun前任開發(fā)高級副總裁)高管。
其A輪融資由谷歌母公司Alphabet的風險投資部門Google Venture(GV)領(lǐng)投,這是GV首次對人工智能芯片公司進行投資。今年4月,英特爾投資宣布向14家科技創(chuàng)業(yè)公司新投資總計1.17億美元,SambaNova Systems也在名單中。
3、其他創(chuàng)企:英國獨角獸Graphcore受青睞,多數(shù)芯片尚未推出
除了中美外,其他地域的AI芯片創(chuàng)企也在蓄勢待發(fā)。
被看好的是一家資金雄厚的英國獨角獸Graphcore,成立于2016年,估值達到17億美元,累計融資3.12億美元。這家創(chuàng)企堪稱巨頭收割機,投資陣容很強大,包括紅杉資本、寶馬、微軟、博世和戴爾科技。
這家公司打造了一款專為機器智能工作負載而設(shè)計的智能處理單元(IPU),采用支持片上互連和片上存儲,從邊緣設(shè)備擴展到用于數(shù)據(jù)中心訓(xùn)練和推理的“Colossus”雙芯片封裝。
Graphcore在上如是寫道:我們的IPU系統(tǒng)旨在降低在云和企業(yè)數(shù)據(jù)中心加速AI應(yīng)用程序的成本,與目前最快的系統(tǒng)相比,將訓(xùn)練和推理的性能提高多達100倍。
在去年年底的NeurIPS活動中,Graphcore展示了一個示例配置RackScale IPU-Pod,包括32個1U IPU-Machines,每個由4個Colossus GC2 IPU處理器組成,提供500 TFLOPS混合精度計算,超過1.2GB的處理器內(nèi)存以及超過200TB/s的內(nèi)存帶寬。
另一家2016年成立的以色列創(chuàng)企Habana Labs,在去年9月的AI硬件峰會上宣布已經(jīng)準備推出其首款用于推理的AI芯片Goya,它顯示了在Resnet50圖像分類數(shù)據(jù)庫中每秒分類15000張圖像的吞吐量,比NVIDIA的T4設(shè)備高出約50%,延遲時間為1.3ms,功耗僅為100 W。
其新7500萬美元B輪融資(2018年12月)由英特爾風險投資公司領(lǐng)投,資金將部分用于研發(fā)第二款芯片Gaudi,該芯片將面向訓(xùn)練市場,據(jù)稱訓(xùn)練性能可線性擴展到1000多個處理器。
印度AlphaICs公司也是在2016年成立,正在設(shè)計AI芯片并致力于AI 2.0,希望通過該系列產(chǎn)品實現(xiàn)下一代AI。
AlphaICs的一位聯(lián)合創(chuàng)始人之一是有“奔騰芯片之父”稱號的Vinod Dham,他與一些年輕的芯片設(shè)計師們合作打造了可執(zhí)行基于代理的AI協(xié)處理芯片——RAP芯片。
Dham表示,AlphaICs芯片在處理速度上相較競爭對手更有優(yōu)勢,并稱當前我們看到的大多屬于弱AI,而他們可以被稱之為“強AI”。
按照Dham的說法,RAP芯片有望在2019年年中推出,“希望為真正的AI創(chuàng)造一個大爆炸”。
Tenstorrent是位于加拿大多倫多的創(chuàng)企,由兩位AMD前工程師Ljubisa Bajic和Milos Trajkovic創(chuàng)辦,核心團隊大多來自NVIDIA和AMD,研發(fā)專為深度學習和智能硬件而設(shè)計的高性能處理器。
去年早些時候,這家公司獲得來自Real Ventures的種子輪投資,不過至今仍處于秘密模式。
4、獨特戰(zhàn)隊:光子AI芯片
在面向云和數(shù)據(jù)中心領(lǐng)域的硬件勢力中,一支特別的戰(zhàn)隊正受到國內(nèi)外科技巨頭的青睞,它就是光子AI芯片。
和常規(guī)芯片不同,這些芯片采用光子電路來代替電子傳輸信號,他們比電子電路擁有更高的傳輸速度、更低的延遲和更高的吞吐量。
2016年,MIT研究團隊打造了首個光學計算系統(tǒng),該成果于2017年以封面文章的形式發(fā)表在頂級期刊Nature Photonics雜志。正是這篇論文,在全球范圍內(nèi)啟發(fā)更多人投入到光子AI芯片的研發(fā)之中。
僅是這一MIT團隊,就在2017年孵化出Lightelligence和LightMatter兩家美國公司。
Lightelligence在2018年2月拿到百度風投和和美國半導(dǎo)體行業(yè)高管1000萬美元種子輪融資,LightMatter在2019年2月拿到由谷歌母公司Alphabet旗下的風險投資部門Google Ventures領(lǐng)投的2200萬美元B輪融資。
Lightelligence稱光子電路(Photonic Circuits)不僅能在云計算領(lǐng)域作為CPU的協(xié)處理器加速深度學習訓(xùn)練和推理,還能用于要求高效低能耗的網(wǎng)絡(luò)邊緣設(shè)備。
今年4月,Lightelligence宣布成功開發(fā)出世界第一款光子芯片原型板卡(Prototype),其光子芯片已與谷歌、Facebook、AWS、BAT級別的客戶接洽。
LightMatter同樣重點面向大型云計算數(shù)據(jù)中心和高性能計算集群,他們曾打造出2個早期的芯片,其中一個芯片包含超過十一個晶體管。
受MIT那篇論文的啟發(fā),2017年,國內(nèi)第一家光子AI芯片創(chuàng)企光子算數(shù)由來自由清華大學、北京大學、北京交通大學等10所高校的博士生創(chuàng)立。
這家公司在2018年9月獲得天使輪融資,據(jù)稱其光子芯片的性能是電子芯片的1000倍,而功耗只有電子芯片的1%。
就在本月,比爾蓋茨也開始投資AI芯片,而且投資的是同樣研發(fā)硅光技術(shù)的Luminous。其他投資者還包括Uber聯(lián)合創(chuàng)始人Travis Kalanick的10100基金,以及現(xiàn)任Uber CEO Dara Khosrowshahi。
Luminous目前僅有7位成員,但它的胃口可不小,目標是為包含谷歌新的Tensor Processing Unit AI芯片的3000塊電路板創(chuàng)建一個替代品。它們采用的方法借鑒了其聯(lián)合創(chuàng)始人Mitchell Nahmias在普林斯頓大學的早期神經(jīng)形態(tài)光子學工作。
現(xiàn)在這幾家創(chuàng)企共同存在的問題是,不清楚多久能發(fā)布量產(chǎn)的光子AI芯片,以及這些芯片的實際應(yīng)用效果能否真正取代電子芯片的位置。
五、當前云端AI芯片主要挑戰(zhàn)
如今切入云AI芯片市場的玩家已經(jīng)有數(shù)十家,不過由NVIDIA主導(dǎo)、多家半導(dǎo)體巨頭分食的軟硬件和服務(wù)市場大體格局依然比較穩(wěn)定,產(chǎn)生新的格局變動絕非一件易事。
1、粥多僧少,聚攏效應(yīng)明顯
對于芯片行業(yè)來說,足量的產(chǎn)能至關(guān)重要。
半導(dǎo)體巨頭可以實現(xiàn)十倍、百倍的產(chǎn)能,而創(chuàng)企很難在創(chuàng)業(yè)初期就做到這一點。現(xiàn)在的創(chuàng)企多為IC設(shè)計廠商,如果他們想要成為像英特爾、三星那樣“自給自足”的公司,可能需要花數(shù)十億美元不止。
經(jīng)過2015-2016年的半導(dǎo)體行業(yè)整合浪潮后,近兩年半導(dǎo)體并購潮正在逐漸“退燒”,大公司對芯片創(chuàng)企的投資或收購行動會更加謹慎。
2、人才爭奪愈演愈烈
云端AI芯片的核心競爭力在于人才。
從當前市場上較受關(guān)注的云AI芯片公司來看,它們的研究團隊多是在芯片巨頭有超過十年從業(yè)經(jīng)歷的行業(yè)老兵,而且往往有帶頭研發(fā)出相關(guān)成功產(chǎn)品的經(jīng)驗。
無論是半導(dǎo)體巨頭還是跨界造芯的科技巨頭,基本上都在走兩種路徑,一是投資并購成熟的芯片公司,另一種就是從挖走其他大公司的芯片高管。
3、創(chuàng)新難+落地難
英特爾研究院院長宋繼強曾經(jīng)向智東西表示,AI芯片的未來一定是多樣化,不同種類的產(chǎn)品滿足不同功耗、尺寸、價錢的要求,AI一場馬拉松,現(xiàn)在這場比賽才剛剛開始。
現(xiàn)階段,入局云AI芯片領(lǐng)域的絕大多數(shù)巨頭和創(chuàng)企都在打創(chuàng)新的招牌,包括創(chuàng)新的架構(gòu)、存儲技術(shù)以及硅光技術(shù)等。
由于對推動深度學習的新型計算資源的需求激增,許多人認為這是初創(chuàng)企業(yè)從巨頭和投資機構(gòu)手中爭取資金的難得機會。
盡管玩家正在增多,打出的旗幟也趨于多樣化,但就目前而言,真正落地量產(chǎn)的創(chuàng)新硬件還很有限。云端AI芯片面臨的困境仍有很多,比如計算機體系結(jié)構(gòu)普遍存在的摩爾定律難以維系和半導(dǎo)體器件方面的瓶頸。
研發(fā)芯片的過程可能需要數(shù)年時間,目前大部分硬件仍在開發(fā)中或在早期試驗計劃中進行。因此,很難預(yù)測哪些企業(yè)會實現(xiàn)承諾的性能。
結(jié)語:三股勢力,決戰(zhàn)云端AI芯片之巔
總體來看,云端AI芯片市場正逐漸分成三股勢力,以英偉達、英特爾等為代表的半導(dǎo)體巨頭,以谷歌、華為等為代表的中美科技巨頭,和以寒武紀、Groq等為代表的芯片創(chuàng)企。其中,半導(dǎo)體巨頭和芯片創(chuàng)企面向主攻通用芯片,而跨界造芯的科技巨頭以及AI創(chuàng)企依圖暫時不對外直接銷售。
從應(yīng)用領(lǐng)域來看,盡管GPU的高能耗遭到業(yè)界越來越多的吐槽,但因其并行運算能力,使得云端AI訓(xùn)練領(lǐng)域至今尚未出現(xiàn)能與NVIDIA GPU分庭抗禮的玩家。挑戰(zhàn)這一領(lǐng)域的玩家主要是傳統(tǒng)芯片巨頭和創(chuàng)企,跨界的科技巨頭有谷歌、百度和華為,主要采用的架構(gòu)是通用GPU和ASIC。
在更注重能耗、時延、成本、性價比等綜合能力的云端AI推理領(lǐng)域,入局的玩家相對更多,F(xiàn)PGA和ASIC的優(yōu)勢相對高于GPU。擁有全面AI芯片布局的英特爾勢頭正猛,其他玩家也不遑多讓,中美幾大互聯(lián)網(wǎng)巨頭基本上全部加入戰(zhàn)局,但部分巨頭的芯片研發(fā)進展尚未可知。
關(guān)于提升造芯實力,多數(shù)半導(dǎo)體巨頭和科技巨頭均選擇了投資、并購和挖芯片大牛的捷徑,從而直接得到成熟芯片團隊的輔助,快速補足人才和業(yè)務(wù)的空缺。而對于創(chuàng)企來說,獲得投資界青睞的基本都具備兩大因素——富有經(jīng)驗的創(chuàng)始團隊和擁有創(chuàng)新技術(shù)的產(chǎn)品,從落地進程來看,我國芯片創(chuàng)企的步伐可以排在世界前列。
就目前來看,絕大多數(shù)AI應(yīng)用仍然依賴于在云端的訓(xùn)練和推理,在訓(xùn)練領(lǐng)域,NVIDIA穩(wěn)固的生態(tài)體系依然是難以撼動的一座高山,在推理領(lǐng)域,更是群雄逐鹿能者勝。隨著AI更加廣泛地落地到各行各業(yè),云端AI芯片市場也會獲得更大的增長空間,但這篇市場未必容得下這么多的玩家,資金、器件瓶頸、架構(gòu)創(chuàng)新、適配快速改變的AI算法以及構(gòu)建生態(tài)系統(tǒng)都是擺在這些企業(yè)面前的難題。什么是完全適合云端訓(xùn)練和推理的AI芯片形態(tài),也尚未出現(xiàn)統(tǒng)一的結(jié)論。