導讀:人工智能已滲透人們的生活,但其背后支撐算力的AI芯片卻鮮少有人真正了解。中國需要芯片強國,在AI芯片方面的差距又在哪里?本文將從技術(shù)、市場、廠商、未來展望等方面全面科普AI芯片,很多問題的答案就在其中。
AI的三大關(guān)鍵基礎(chǔ)要素是數(shù)據(jù)、算法和算力。隨著云計算的廣泛應用,特別是深度學習成為當前AI研究和運用的主流方式,AI對于算力的要求不斷快速提升。
AI的三大關(guān)鍵基礎(chǔ)要素是數(shù)據(jù)、算法和算力。隨著云計算的廣泛應用,特別是深度學習成為當前AI研究和運用的主流方式,AI對于算力的要求不斷快速提升。
AI的許多數(shù)據(jù)處理涉及矩陣乘法和加法。AI算法,在圖像識別等領(lǐng)域,常用的是CNN;語音識別、自然語言處理等領(lǐng)域,主要是RNN,這是兩類有區(qū)別的算法;但是,他們本質(zhì)上,都是矩陣或vector的乘法、加法,然后配合一些除法、指數(shù)等算法。
CPU可以拿來執(zhí)行AI算法,但因為內(nèi)部有大量其他邏輯,而這些邏輯對于目前的AI算法來說是完全用不上的,所以,自然造成CPU并不能達到最優(yōu)的性價比。因此,具有海量并行計算能力、能夠加速AI計算的AI芯片應運而生。
一般的說,AI芯片被稱為AI加速器或計算卡,即專門用于加速AI應用中的大量計算任務的模塊(其他非計算任務仍由CPU負責)。
而從廣義范疇上講,面向AI計算應用的芯片都可以稱為AI芯片。除了以GPU、FPGA、ASIC為代表的AI加速芯片(基于傳統(tǒng)芯片架構(gòu),對某類特定算法或者場景進行AI計算加速),還有比較前沿性的研究,例如類腦芯片、可重構(gòu)通用AI芯片等(但距離大規(guī)模商用還有較長距離)。
以GPU、FPGA、ASIC為代表的AI芯片,是目前可大規(guī)模商用的技術(shù)路線,是AI芯片的主戰(zhàn)場,本文以下主要討論的就是這類AI芯片。
一、從兩個維度對AI芯片進行分類
維度1:部署位置(云端、終端)
AI芯片部署的位置有兩種:云端、終端。所以根據(jù)部署的位置不同,AI芯片可以分為:云AI芯片、端AI芯片。
云端,即數(shù)據(jù)中心,在深度學習的訓練階段需要極大的數(shù)據(jù)量和大運算量,單一處理器無法獨立完成,因此訓練環(huán)節(jié)只能在云端實現(xiàn)。
終端,即手機、安防攝像頭、汽車、智能家居設備、各種IoT設備等執(zhí)行邊緣計算的智能設備。終端的數(shù)量龐大,而且需求差異較大。
云AI芯片的特點是性能強大、能夠同時支持大量運算、并且能夠靈活地支持圖片、語音、視頻等不同AI應用?;谠艫I芯片的技術(shù),能夠讓各種智能設備和云端服務器進行快速的連接,并且連接能夠保持最大的穩(wěn)定。
端AI芯片的特點是體積小、耗電少,而且性能不需要特別強大,通常只需要支持一兩種AI能力。
相比于云AI芯片來說,端AI芯片是需要嵌入進設備內(nèi)部的,當在設備內(nèi)部中嵌入了端AI芯片之后,能夠讓設備的AI能力進一步提升,并且讓設備在沒有聯(lián)網(wǎng)的情況之下也能夠使用相應的AI能力,這樣AI的覆蓋變得更為全面。
維度2:承擔任務(訓練、推理)
AI的實現(xiàn)包括兩個環(huán)節(jié):訓練、推理。所以根據(jù)承擔任務的不同,AI芯片可以分為:用于構(gòu)建神經(jīng)網(wǎng)絡模型的訓練芯片,利用神經(jīng)網(wǎng)絡模型進行推理預測的推理芯片。
訓練,是指通過大數(shù)據(jù)訓練出一個復雜的神經(jīng)網(wǎng)絡模型,即用大量標記過的數(shù)據(jù)來“訓練”相應的系統(tǒng),使之可以適應特定的功能。訓練需要極高的計算性能,需要較高的精度,需要能處理海量的數(shù)據(jù),需要有一定的通用性,以便完成各種各樣的學習任務。
推理,是指利用訓練好的模型,使用新數(shù)據(jù)推理出各種結(jié)論。即借助現(xiàn)有神經(jīng)網(wǎng)絡模型進行運算, 利用新的輸入數(shù)據(jù)來一次性獲得正確結(jié)論的過程。也有叫做預測或推斷。
訓練芯片,注重絕對的計算能力,而推斷芯片更注重綜合指標, 單位能耗算力、時延、成本等都要考慮。
訓練將在很長一段時間里集中在云端,推理的完成目前也主要集中在云端,但隨著越來越多廠商的努力,很多的應用將逐漸轉(zhuǎn)移到終端。
推理相對來說對性能的要求并不高,對精度要求也要更低,在特定的場景下,對通用性要求也低,能完成特定任務即可,但因為推理的結(jié)果直接提供給終端用戶,所以更關(guān)注用戶體驗方面的優(yōu)化。
二、AI芯片市場劃分
以部署位置(云端、終端)和承擔任務(訓練、推理)為橫縱坐標,可以清晰的劃分出AI芯片的市場領(lǐng)域,上表,列出了適用于各個市場的技術(shù)路線及相應廠商。
1、云端訓練
訓練芯片受算力約束,一般只在云端部署。
CPU由于計算單元少,并行計算能力較弱,不適合直接執(zhí)行訓練任務,因此訓練一般采用“CPU+加速芯片”的異構(gòu)計算模式。目前NVIDIA的GPU+CUDA計算平臺是最成熟的AI訓練方案,除此還有兩種方案:
第三方異構(gòu)計算平臺OpenCL + AMD GPU或OpenCL + Intel/Xilinx FPGA;
云計算服務商自研加速芯片(如Google的TPU)。
訓練市場目前能與NVIDIA競爭的就是Google,傳統(tǒng)CPU/GPU廠家Intel和AMD也在努力進入訓練市場。
2、云端推理
如果說云端訓練芯片是NVIDIA一家獨大,那云端推理芯片則是百家爭鳴,各有千秋。
相比訓練芯片,推理芯片考慮的因素更加綜合:單位功耗算力,時延,成本等等。AI發(fā)展初期推理也采用GPU進行加速,目前來看,競爭態(tài)勢中英偉達依然占大頭,但由于應用場景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡算法優(yōu)化會帶來更高的效率,F(xiàn)PGA/ASIC的表現(xiàn)可能更突出。
除了Nvidia、Google、Xilinx、Altera(Intel)等傳統(tǒng)芯片大廠涉足云端推理芯片以外,Wave computing、Groq 等初創(chuàng)公司也加入競爭。中國公司里,寒武紀、比特大陸等同樣積極布局云端芯片業(yè)務。
3、終端推理
在面向智能手機、智能攝像頭、機器人/無人機、自動駕駛、VR、智能家居設備、各種IoT設備等設備的終端推理AI芯片方面,目前多采用ASIC,還未形成一家獨大的態(tài)勢。
終端的數(shù)量龐大,而且需求差異較大。AI芯片廠商可發(fā)揮市場作用,面向各個細分市場,研究應用場景,以應用帶動芯片。
傳統(tǒng)芯片大廠如NVIDIA、Intel、ARM、高通等都積極布局,中國芯片創(chuàng)業(yè)企業(yè),如寒武紀、地平線等,也有不俗表現(xiàn),在一些細分市場領(lǐng)域頗有建樹。
一、AI芯片主要技術(shù)路線
目前,作為加速應用的AI芯片,主要的技術(shù)路線有三種:GPU、FPGA、ASIC。
1、GPU
GPU(Graphics Processing Unit),即圖形處理器,是一種由大量核心組成的大規(guī)模并行計算架構(gòu),專為同時處理多重任務而設計。GPU是專門處理圖像計算的,包括各種特效的顯示,更加針對圖像的渲染等計算算法。這些算法與深度學習的算法還是有比較大的區(qū)別。當然,GPU非常適合做并行計算,也可以用來給AI加速。
GPU因良好的矩陣計算能力和并行計算優(yōu)勢,最早被用于AI計算,在數(shù)據(jù)中心中獲得大量應用。GPU采用并行架構(gòu),超過80%部分為運算單元,具備較高性能運算速度。相比較下,CPU僅有20%為運算單元,更多的是邏輯單元,因此CPU擅長邏輯控制與串行運算,而GPU擅長大規(guī)模并行運算。GPU最早作為深度學習算法的芯片被引入人工智能領(lǐng)域,因其良好的浮點計算能力適用于矩陣計算,且相比CPU具有明顯的數(shù)據(jù)吞吐量和并行計算優(yōu)勢。
2011年谷歌大腦率先應用GPU芯片,當時12顆英偉達的GPU可以提供約等于2000顆CPU的深度學習性能,展示了其驚人的運算能力。目前GPU已經(jīng)成為人工智能領(lǐng)域最普遍最成熟的智能芯片,應用于數(shù)據(jù)中心加速和部分智能終端領(lǐng)域,在深度學習的訓練階段其性能更是無所匹敵。
在深度學習上游訓練端(主要用在云計算數(shù)據(jù)中心里),GPU是當仁不讓的第一選擇。目前GPU的市場格局以英偉達為主(超過70%),AMD為輔,預計未來幾年內(nèi)GPU仍然是深度學習訓練市場的第一選擇。
另外,GPU無法單獨工作,必須由CPU進行控制調(diào)用才能工作。CPU可單獨作用,處理復雜的邏輯運算和不同的數(shù)據(jù)類型,當需要大量的處理類型統(tǒng)一的數(shù)據(jù)時,則可調(diào)用GPU進行并行計算。
2、FPGA
FPGA(Field-Programmable Gate Array),即現(xiàn)場可編程門陣列,作為專用集成電路領(lǐng)域中的一種半定制電路出現(xiàn)。FPGA利用門電路直接運算,速度快,而用戶可以自由定義這些門電路和存儲器之間的布線,改變執(zhí)行方案,以期得到最佳效果。
FPGA可以采用OpenCL等更高效的編程語言,降低了硬件編程的難度,還可以集成重要的控制功能,整合系統(tǒng)模塊,提高了應用的靈活性,與GPU相比,F(xiàn)PGA具備更強的平均計算能力和更低的功耗。
FPGA適用于多指令,單數(shù)據(jù)流的分析,與GPU相反,因此常用于推理階段。FPGA是用硬件實現(xiàn)軟件算法,因此在實現(xiàn)復雜算法方面有一定的難度,缺點是價格比較高。
FPGA因其在靈活性和效率上的優(yōu)勢,適用于虛擬化云平臺和推理階段,在2015年后異軍突起。2015年Intel收購FPGA市場第二大企業(yè)Altera,開始了FPGA在人工智能領(lǐng)域的應用熱潮。因為FPGA靈活性較好、處理簡單指令重復計算比較強,用在云計算架構(gòu)形成CPU+FPGA的混合異構(gòu)中相比GPU更加的低功效和高性能,適用于高密度計算,在深度學習的推理階段有著更高的效率和更低的成本,使得全球科技巨頭紛紛布局云端FPGA生態(tài)。
國外包括亞馬遜、微軟都推出了基于FPGA的云計算服務,而國內(nèi)包括騰訊云、阿里云均在2017年推出了基于FPGA的服務,百度大腦也使用了FPGA芯片。中國剛剛被Xilinx收購的深鑒科技也是基于FPGA來設計深度學習的加速器架構(gòu),可以靈活擴展用于服務器端和嵌入式端。
3、ASIC
ASIC(Application Specific Integrated Circuits),即專用集成電路,是一種為專用目的設計的,面向特定用戶需求的定制芯片,在大規(guī)模量產(chǎn)的情況下具備性能更強、體積更小、功耗更低、成本更低、可靠性更髙等優(yōu)點。
ASIC與GPU和FPGA不同,GPU和FPGA除了是一種技術(shù)路線之外,還是實實在在的確定的產(chǎn)品,而ASIC就是一種技術(shù)路線或者方案,其呈現(xiàn)出的最終形態(tài)與功能也是多種多樣的。
近年來越來越多的公司開始采用ASIC芯片進行深度學習算法加速,其中表現(xiàn)最為突出的是Google的TPU。TPU比同時期的GPU或CPU平均提速15~30倍,能效比提升30~80倍。相比FPGA,ASIC芯片具備更低的能耗與更高的計算效率。但是ASIC研發(fā)周期較長、商業(yè)應用風險較大等不足也使得只有大企業(yè)或背靠大企業(yè)的團隊愿意投入到它的完整開發(fā)中。
AlphaGo就使用TPU,同時TPU也支持著Google的Cloud TPU平臺和基于此的機器學習超級計算機。此外,國內(nèi)企業(yè)寒武紀開發(fā)的Cambricon系列芯片受到廣泛關(guān)注。華為的麒麟980處理器所搭載的NPU就是寒武紀的處理器。
二、AI芯片技術(shù)路線走向
1、短期:GPU仍延續(xù)AI芯片的領(lǐng)導地位,F(xiàn)PGA增長較快
GPU短期將延續(xù)AI芯片的領(lǐng)導地位。目前GPU是市場上用于AI計算最成熟應用最廣泛的通用型芯片,在算法技術(shù)和應用層次尚淺時期,GPU由于其強大的計算能力、較低的研發(fā)成本和通用性將繼續(xù)占領(lǐng)AI芯片的主要市場份額。GPU的領(lǐng)軍廠商英偉達仍在不斷探尋GPU的技術(shù)突破,新推出的Volta架構(gòu)使得GPU一定程度上克服了在深度學習推理階段的短板,在效率要求和場景應用進一步深入之前,作為數(shù)據(jù)中心和大型計算力支撐的主力軍,GPU仍具有很大的優(yōu)勢。
FPGA是目前增長點,F(xiàn)PGA的最大優(yōu)勢在于可編程帶來的配置靈活性,在目前技術(shù)與運用都在快速更迭的時期具有巨大的實用性,而且FPGA還具有比GPU更高的功效能耗比。企業(yè)通過FPGA可以有效降低研發(fā)調(diào)試成本,提高市場響應能力,推出差異化產(chǎn)品。
在專業(yè)芯片發(fā)展得足夠重要之前,F(xiàn)PGA是最好的過渡產(chǎn)品,所以科技巨頭紛紛布局云計算+FPGA的平臺。隨著FPGA的開發(fā)者生態(tài)逐漸豐富,適用的編程語言增加,F(xiàn)PGA運用會更加廣泛。因此短期內(nèi),F(xiàn)PGA作為兼顧效率和靈活性的硬件選擇仍將是熱點所在。
2、長期:三大類技術(shù)路線各有優(yōu)劣,會長期并存
1)GPU主攻高級復雜算法和通用型人工智能平臺
GPU未來的進化路線可能會逐漸發(fā)展為兩條路,一條主攻高端復雜算法的實現(xiàn),由于GPU相比FPGA和ASIC高性能計算能力較強,同時對于指令的邏輯控制上也更復雜一些,在面臨需求通用型AI計算的應用方面具有較大優(yōu)勢。第二條路則是通型人工智能平臺,GPU由于設計方面,通用性強,性能較高,應用于大型人工智能平臺夠高效地完成不同種類的調(diào)用需求。
2) FPGA適用變化多的垂直細分行業(yè)
FPGA具有獨一無二的靈活性優(yōu)勢,對于部分市場變化迅速的行業(yè)非常適用。同時,F(xiàn)PGA的高端器件中也可以逐漸增加DSP、ARM核等高級模塊,以實現(xiàn)較為復雜的算法。FPGA以及新一代ACAP芯片,具備了高度的靈活性,可以根據(jù)需求定義計算架構(gòu),開發(fā)周期遠遠小于設計一款專用芯片,更適用于各種細分的行業(yè)。ACAP的出現(xiàn),引入了AI核的優(yōu)點,勢必會進一步拉近與專用芯片的差距。隨著 FPGA 應用生態(tài)的逐步成熟,F(xiàn)PGA 的優(yōu)勢也會逐漸為更多用戶所了解。
3) ASIC芯片是全定制芯片,長遠看適用于人工智能
因為算法復雜度越強,越需要一套專用的芯片架構(gòu)與其進行對應,而ASIC基于人工智能算法進行定制,其發(fā)展前景看好。ASIC是AI領(lǐng)域未來潛力較大的芯片,AI算法廠商有望通過算法嵌入切入該領(lǐng)域。ASIC具有高性能低消耗的特點,可以基于多個人工智算法進行定制,其定制化的特點使其能夠針對不同環(huán)境達到最佳適應,在深度學習的訓練和推理階段皆能占據(jù)一定地位。
目前由于人工智能產(chǎn)業(yè)仍處在發(fā)展的初期,較高的研發(fā)成本和變幻莫測的市場使得很多企業(yè)望而卻步。未來當人工智能技術(shù)、平臺和終端的發(fā)展達到足夠成熟度,人工智能應用的普及程使得專用芯片能夠達到量產(chǎn)水平,此時ASIC芯片的發(fā)展將更上一層樓。
此外,AI算法提供商也有望將已經(jīng)優(yōu)化設計好的算法直接燒錄進芯片,從而實現(xiàn)算法IP的芯片化,這將為AI芯片的發(fā)展注入新的動力。
一、AI芯片市場概覽
2018年全球AI芯片市場規(guī)模預計將超過20億美元,隨著包括谷歌、Facebook、微軟、亞馬遜以及百度、阿里、騰訊在內(nèi)的互聯(lián)網(wǎng)巨頭相繼入局,預計到2020年全球市場規(guī)模將超過100億美元,其中中國的市場規(guī)模近25億美元,增長非常迅猛,發(fā)展空間巨大。
目前全球各大芯片公司都在積極進行AI芯片的布局。在云端,Nvidia的GPU芯片被廣泛應用于深度神經(jīng)網(wǎng)絡的訓練和推理。Google TPU通過云服務Cloud TPU的形式把TPU開放商用。老牌芯片巨頭Intel推出了Nervana Neural Network Processors(NNP)。而初創(chuàng)公司如Wave Computing、Groq、寒武紀、比特大陸等也加入了競爭的行列,陸續(xù)推出了針對AI的芯片和硬件系統(tǒng)。
智能手機是目前應用最為廣泛的邊緣計算終端設備,包括三星、蘋果、華為、高通、聯(lián)發(fā)科在內(nèi)的手機芯片廠商紛紛推出或者正在研發(fā)專門適應AI應用的芯片產(chǎn)品。另外,也有很多初創(chuàng)公司加入這個領(lǐng)域,為包括智能手機在內(nèi)的眾多類型邊緣計算設備提供芯片和系統(tǒng)方案,比如寒武紀、地平線等。傳統(tǒng)的IP廠商,包括ARM、Synopsys、Cadence等公司也都為手機、平板電腦、智能攝像頭、無人機、工業(yè)和服務機器人、智能音箱等邊緣計算設備開發(fā)專用IP產(chǎn)品。此外在終端應用中還蘊藏著IoT這一金礦,AI芯片只有實現(xiàn)從云端走向終端,才能真正賦予“萬物智能”。
二、四大場景的芯片賽道
1、數(shù)據(jù)中心
在云計算數(shù)據(jù)中心,上游訓練端GPU是當仁不讓的第一選擇。目前GPU的市場格局以英偉達為主(超過70%),AMD為輔,預計未來幾年GPU仍然是深度學習市場的第一選擇。
下游推理端更接近終端應用,更關(guān)注響應時間而不是吞吐率,需求更加細分,除了主流的GPU芯片之外,下游推理端可容納FPGA、ASIC等芯片。競爭態(tài)勢中英偉達依然占大頭,但隨著AI的發(fā)展,F(xiàn)PGA的低延遲、低功耗、可編程性(適用于傳感器數(shù)據(jù)預處理工作以及小型開發(fā)試錯升級迭代階段)和ASIC的特定優(yōu)化和效能優(yōu)勢(適用于在確定性執(zhí)行模型)將凸顯出來。
2、自動駕駛
自動駕駛對芯片算力有很高的要求, 而受限于時延及可靠性,有關(guān)自動駕駛的計算不能在云端進行,因此終端推理芯片升級勢在必行。根據(jù)豐田公司的統(tǒng)計數(shù)據(jù),實現(xiàn)L5級完全自動駕駛,至少需要12TOPS的推理算力,按照Nvidia PX2自動駕駛平臺測算,差不多需要15塊PX2車載計算機,才能滿足完全自動駕駛的需求。
目前,自動駕駛上游系統(tǒng)解決方案逐漸形成英偉達與英特爾-Mobileye聯(lián)盟兩大競爭者。
除了上述兩大主力汽車芯片競爭方,百度雖然與英偉達合作密切(Apollo開放平臺從數(shù)據(jù)中心到自動駕駛都將使用英偉達技術(shù),包括Tesla GPU和DRIVE PX 2,以及CUDA和TensorRT在內(nèi)的英偉達軟件),卻也采用Xilinx的FPGA芯片加速機器學習,用于語音識別和汽車自動駕駛。
3、安防
AI正在以極其聲勢浩大的節(jié)奏全面“入侵”整個安防產(chǎn)業(yè)。作為這一波人工智能浪潮最大落地領(lǐng)域——安防,是必爭之地。一大批AI芯片廠商扎堆涌入,其中既有AI芯片創(chuàng)業(yè)玩家,也有傳統(tǒng)安防芯片霸主海思的強勢入局。
總的來說,寒武紀、地平線等AI芯片公司提供的安防AI芯片屬于協(xié)處理器,需要搭配其他公司的攝像機SoC芯片使用。而海思的安防AI芯片本身就是安防攝像機SoC芯片,只是新加入了AI模塊——這也是海思安防AI芯片的最大競爭力。
也要看到,AI與AI芯片離大規(guī)??焖俾涞厝杂芯嚯x,其中一大原因就是工程化困難——尤其是在安防這種產(chǎn)業(yè)鏈漫長而復雜的產(chǎn)業(yè),新技術(shù)落地需要長時間的積累與打磨,以及人力資源的不斷投入,這些都是擺在AI與AI芯片企業(yè)面前的難題。
4、手機終端AI
手機芯片市場的玩家定位包括:
采用芯片+整機垂直商業(yè)模式的廠商:蘋果,三星,華為等;
獨立芯片供應商:高通,聯(lián)發(fā)科,展銳等;
向芯片企業(yè)提供獨立IP授權(quán)的供應商:ARM,Synopsys,Cadence,寒武紀等。
采用垂直商業(yè)模式廠商的芯片不對外發(fā)售,只服務于自身品牌的整機,性能針對自身軟件做出了特殊優(yōu)化,靠效率取勝。獨立芯片供應商以相對更強的性能指標,來獲得剩余廠商的市場份額。
從2017年開始,蘋果、華為海思、高通、聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持AI加速功能的新一代芯片,AI芯片逐漸向中端產(chǎn)品滲透。由于手機空間有限,獨立的AI芯片很難被手機廠商采用。在AI加速芯片設計能力上有先發(fā)優(yōu)勢的企業(yè)(如寒武紀)一般通過IP授權(quán)的方式切入。
高通很有可能在手機AI賽道延續(xù)優(yōu)勢地位。近日發(fā)布的驍龍855被稱為當前最強AI芯片,比起蘋果A12、華為麒麟980,性能提升1倍,并將成為全球第一款商用5G芯片。
在AI芯片領(lǐng)域,國外芯片巨頭占據(jù)了絕大部分市場份額,不論是在人才聚集還是公司合并等方面,都具有領(lǐng)先優(yōu)勢。尤其是美國巨頭企業(yè),憑借芯片領(lǐng)域多年的領(lǐng)先地位,迅速切入AI領(lǐng)域,積極布局,四處開花,目前處于引領(lǐng)產(chǎn)業(yè)發(fā)展的地位,并且在GPU和FPGA方面是完全壟斷地位。國內(nèi)AI芯片公司多為中小型初創(chuàng)公司,在一些細分市場也有建樹,誕生了多個獨角獸企業(yè)。
一、國外主要廠商
1、NVIDIA 英偉達
目前AI芯片領(lǐng)域主要的供應商仍然是英偉達,占全球AI芯片50%以上市場份額。英偉達保持了極大的投入力度,快速提高GPU的核心性能,增加新型功能,保持了在AI訓練市場的霸主地位,并積極拓展終端嵌入式產(chǎn)品形態(tài),推出Xavier系列。
英偉達旗下產(chǎn)品線遍布自動駕駛汽車、高性能計算、機器人、醫(yī)療保健、云計算、游戲視頻等眾多領(lǐng)域。
英偉達擁有目前最為成熟的開發(fā)生態(tài)環(huán)境——CUDA ,因其統(tǒng)一而完整的開發(fā)套件,豐富的庫以及對英偉達GPU的原生支持而成為開發(fā)主流,目前已開發(fā)至第9代,開發(fā)者人數(shù)超過51萬。
英偉達還將聯(lián)合芯片巨頭ARM打造IoT設備的AI芯片專用IP,這款機器學習IP集成到ARM的Project Trillium平臺上,以實現(xiàn)機器學習,其技術(shù)源于英偉達Xavier芯片以及去年開源的DLA深度學習加速器項目。
2、Intel 英特爾
英特爾作為傳統(tǒng)PC芯片的老大,也在積極向PC以外的市場轉(zhuǎn)型。
為了加強在AI芯片領(lǐng)域的實力,英特爾收購FPGA生產(chǎn)商Altera,收購自動駕駛技術(shù)公司Mobileye,以及機器視覺公司 Movidius和為自動駕駛汽車芯片提供安全工具的公司Yogitech,收購人工智能軟硬件創(chuàng)業(yè)公司Nervana。在數(shù)據(jù)中心、自動駕駛等重要領(lǐng)域布局扎實。
3、Google 谷歌
Google在2016年宣布獨立開發(fā)一種名為TPU的全新處理系統(tǒng)。在2016年3月打敗了李世石和2017年5月打敗了柯杰的的AlphaGo,就是采用了谷歌的TPU系列芯片。
TPU是專門為機器學習應用而設計的專用芯片。通過降低芯片的計算精度,減少實現(xiàn)每個計算操作所需的晶體管數(shù)量,從而能讓芯片的每秒運行的操作個數(shù)更高,這樣經(jīng)過精細調(diào)優(yōu)的機器學習模型就能在芯片上運行得更快,加深了人工智能在訓練和推理方面的能力,進而更快地讓用戶得到更智能的結(jié)果。
2018年3月Google I/O大會推出TPU3.0。據(jù)官方數(shù)據(jù),TPU3.0的性能是TPU2.0的八倍,高達 100 petaflops。
Cloud TPU是谷歌設計的硬件加速器,為加速、拓展特定tensorflow機器學習workload而優(yōu)化。每個TPU里內(nèi)置了四個定制ASIC,單塊板卡的計算能力達每秒180 teraflops,高帶寬內(nèi)存有64GB。這些板卡既能單獨使用,也可通過超高速專用網(wǎng)絡連接從而形成“TPU pod”。谷歌已在谷歌云(GCP)開放Cloud TPU的計算能力,幫助機器學習專家更快速訓練和運行模型。
Edge TPU的尺寸約為1美分硬幣的1/8大小,它可以在較小的物理尺寸以及功耗范圍內(nèi)提供不錯的性能,支持PCIe以及USB接口。Edge TPU優(yōu)勢在于可以加速設備上的機器學習推理,或者也可以與Google Cloud配對以創(chuàng)建完整的云端到邊緣機器學習堆棧。
4、Xilinx 賽靈思
2018年3月,賽靈思宣布推出一款超越FPGA功能的新產(chǎn)品——ACAP(自適應計算加速平臺)。其核心是新一代的FPGA架構(gòu)。10月,發(fā)布最新基于7nm工藝的ACAP平臺的第一款處理器——Versal。其使用多種計算加速技術(shù),可以為任何應用程序提供強大的異構(gòu)加速。Versal Prime系列和Versal AI Core系列產(chǎn)品也將于 2019 年推出。
Xilinx和Intel兩家不約而同把FPGA未來市場重心放到數(shù)據(jù)中心市場。
二、國內(nèi)主要廠商
國內(nèi)AI芯片廠商以中小公司為主,沒有巨頭,多集中于設備端AI ASIC的開發(fā),并已有所建樹,如寒武紀成為全球AI芯片領(lǐng)域第一個獨角獸初創(chuàng)公司,其NPU IP已被應用于全球首款手機AI芯片——麒麟970。
但是,中國在FPGA、GPU領(lǐng)域缺乏有競爭力的原創(chuàng)產(chǎn)品,只是基于FPGA/GPU做進一步開發(fā),這主要與我國在芯片領(lǐng)域一直缺乏關(guān)鍵核心自主技術(shù)有關(guān),F(xiàn)PGA/GPU的技術(shù)壁壘已很高,很難有所突破。
1、寒武紀 Cambricon
寒武紀創(chuàng)立于2016年3月,是中科院孵化的高科技企業(yè)。
2018年5月,寒武紀推出第一款智能處理板卡,搭載了寒武紀 MLU100 芯片,為云端推理提供強大的運算能力支撐。等效理論計算能力高達128 TOPS,支持4通道64 bit ECCDDR4內(nèi)存,并支持多種容量。
1M是寒武紀第三代機器學習專用芯片,使用TSMC 7nm工藝生產(chǎn),其8位運算效能比達 5Tops/watt(每瓦 5 萬億次運算)。寒武紀1M處理器延續(xù)了前兩代IP產(chǎn)品(1H/1A)的完備性,可支持CNN、RNN、SOM等多種深度學習模型,又進一步支持了SVM、K-NN、K-Means、決策樹等經(jīng)典機器學習算法的加速。這款芯片支持幫助終端設備進行本地訓練,可為視覺、語音、自然語言處理等任務提供高效計算平臺。
寒武紀也推出了面向開發(fā)者的寒武紀人工智能軟件平臺Cambricon NeuWare,這是在終端和云端的AI芯片共享的軟件接口和生態(tài),包含開發(fā)、調(diào)試和調(diào)優(yōu)三大部分,體現(xiàn)了創(chuàng)始人陳天石提出的“端云一體”的思路。
2、華為海思 Hisilicon
海思半導體成立于2004年10月,是華為集團的全資子公司。
麒麟970集成NPU神經(jīng)處理單元,是全球第一款手機AI芯片,它在處理靜態(tài)神經(jīng)網(wǎng)絡模型方面有得天獨厚的優(yōu)勢;新一代的麒麟980用于最新的Mate20系列和榮耀Magic 2。二者均采用寒武紀的AI IP。
安防是一眾AI芯片公司紛紛瞄準的重要落地場景,作為傳統(tǒng)安防芯片霸主,海思表示以后的所有IPC芯片新品,都將搭載專用AI模塊。
華為近期提出了全棧全場景AI解決方案,發(fā)布了兩款AI芯片,昇騰910和昇騰310。昇騰910是目前單芯片計算密度最大的芯片,計算力遠超谷歌及英偉達,而昇騰310芯片的最大功耗僅8W,是極致高效計算低功耗AI芯片。
3、地平線 Horizon Robotics
地平線成立于2015年7月,是一家注重軟硬件結(jié)合的AI初創(chuàng)公司,由Intel、嘉實資本、高瓴資本領(lǐng)投。
2017年12月,地平線自主設計研發(fā)了中國首款嵌入式人工智能視覺芯片——旭日1.0和征程1.0。
旭日1.0是面向智能攝像頭的處理器,具備在前端實現(xiàn)大規(guī)模人臉檢測跟蹤、視頻結(jié)構(gòu)化的處理能力,可廣泛用于智能城市、智能商業(yè)等場景。
征程1.0是面向自動駕駛的處理器,可同時對行人、機動車、非機動車、車道線交通標識等多類目標進行精準的實時監(jiān)測和識別,實現(xiàn)FCW/LDW/JACC等高級別輔助駕駛功能。
地平線今年又推出了基于旭日(Sunrise)2.0的架構(gòu)(BPU2.0,伯努利架構(gòu))的XForce邊緣AI計算平臺,其主芯片為Intel A10 FPGA,典型功耗35W,可用于視頻人臉識別、人體分割、肢體檢測等功能。
4、比特大陸 Bitmain
比特大陸成立于2013年10月,是全球第一大比特幣礦機公司,目前占領(lǐng)了全球比特幣礦機 70%以上的市場。并已將業(yè)務拓展至AI領(lǐng)域,于2017年推出云端AI芯片BM1680,支持訓練和推斷。目前已推出第二代產(chǎn)品BM1682,相較上一代性能提升5倍以上。
BM1880是比特大陸首款面向邊緣端計算的低功耗AI協(xié)處理器,采用28nm工藝,ARM A53雙核架構(gòu),RISC-V CPU,其典型功耗2W,int 8精度算力能夠達到1Tops。
比特大陸提供端云一體化的AI解決方案,與終端AI芯片不同,比特大陸的云端AI芯片將不會單獨發(fā)售,只搭載在板卡、云服務器中提供給合作伙伴。
比特大陸將其AI芯片落地產(chǎn)業(yè)拓展到了四大類,分別是:安防、園區(qū)、智慧城市、互聯(lián)網(wǎng)。
三、互聯(lián)網(wǎng)巨頭入局與新模式
1、互聯(lián)網(wǎng)巨頭入局
全球互聯(lián)網(wǎng)巨頭紛紛高調(diào)宣布進入半導體行業(yè),阿里、微軟、Google、Facebook、亞馬遜等都宣布在芯片領(lǐng)域的動作。當互聯(lián)網(wǎng)巨頭開始進入芯片市場時,會對芯片行業(yè)產(chǎn)生巨大的影響。
首先,互聯(lián)網(wǎng)巨頭追求硬件能實現(xiàn)極致化的性能以實現(xiàn)差異化用戶體驗用來吸引用戶。在摩爾定律即將遇到瓶頸之際,想要追求極致體驗需要走異構(gòu)計算,自己定制化芯片的道路,光靠采購傳統(tǒng)半導體廠商的芯片,已經(jīng)沒法滿足互聯(lián)網(wǎng)巨頭對于硬件的需求,至少在核心芯片部分是這樣。因此,F(xiàn)acebook、Google、阿里等互聯(lián)網(wǎng)巨頭都是異構(gòu)計算的積極擁護者,為了自己的硬件布局或計劃設計芯片,或已經(jīng)開始設計芯片。這么一來,原來是半導體公司下游客戶的互聯(lián)網(wǎng)公司現(xiàn)在不需要從半導體公司采購芯片了,這樣的產(chǎn)業(yè)分工變化會引起行業(yè)巨變。
其次,互聯(lián)網(wǎng)巨頭制造硬件的目的只是為了吸引用戶進入自己的生態(tài),使用自己的服務,其最終盈利點并不在販賣硬件上而是在增值服務上。因此,互聯(lián)網(wǎng)巨頭在為了自己的硬件設計芯片時可以不計成本。
從另一個角度來說,一旦自己設計核心芯片的互聯(lián)網(wǎng)公司進入同一個領(lǐng)域,那些靠采購半導體公司標準芯片搭硬件系統(tǒng)的公司,就完全沒有競爭力了,無論是從售價還是性能,擁有自己核心芯片的互聯(lián)網(wǎng)巨頭都能實施降維打擊。一旦這些硬件公司失去競爭力,那么依賴于這些客戶的半導體公司的生存空間又會進一步被壓縮。
總而言之,互聯(lián)網(wǎng)巨頭進入芯片領(lǐng)域,首先出于性能考慮不再從半導體公司采購核心芯片,這沖擊了傳統(tǒng)行業(yè)分工,使傳統(tǒng)芯片公司失去了一類大客戶;另一方面互聯(lián)網(wǎng)巨頭的生態(tài)式打法可以讓自研硬件芯片不考慮成本,這又沖擊了那些從半導體公司采購芯片的傳統(tǒng)硬件公司,從而進一步壓縮了半導體公司的市場。在這兩個作用下,半導體芯片公司的傳統(tǒng)經(jīng)營模式必須發(fā)生改變才能追上新的潮流。
2、Designless-Fabless模式
目前,半導體行業(yè)領(lǐng)域的分工,大概可以分為定義、設計、設計定案、制造等幾個環(huán)節(jié)。
今天的半導體行業(yè),最為大家熟知的是Fabless模式,即芯片設計公司負責定義、設計和設計定案,而制造則是在提供代工的Fab完成;如高通,是Fabless的典型代表。
在互聯(lián)網(wǎng)巨頭入局半導體行業(yè)后,又出現(xiàn)了一種新的模式,即互聯(lián)網(wǎng)公司負責定義芯片、完成小部分設計、并花錢完成設計定案流片,設計服務公司負責大部分設計,而代工廠負責芯片制造。這種新模式可以稱為Designless-Fabless模式。
歷史上,半導體公司從傳統(tǒng)的IDM走到Fabless模式,主要是因為Fab開銷過高,成為了半導體公司發(fā)展的包袱,而代工廠則提供了一個非常靈活的選項。
今天,互聯(lián)網(wǎng)公司入局半導體后走Designless-Fabless模式,把大量設計外包,則主要是因為時間成本。互聯(lián)網(wǎng)巨頭做芯片,追求的除了極致性能之外,還有快速的上市時間。對于他們來說,如果要像傳統(tǒng)半導體公司一樣,需要從頭開始培養(yǎng)自己的前端+后端設計團隊,從頭開始積累模塊IP,恐怕第一塊芯片上市要到數(shù)年之后。這樣的節(jié)奏,是跟不上互聯(lián)網(wǎng)公司的快速迭代節(jié)奏的。
那么如何實現(xiàn)高性能加快速上市呢?最佳方案就是這些巨頭自己招募芯片架構(gòu)設計團隊做芯片定義,用有豐富經(jīng)驗的業(yè)界老兵來根據(jù)需求定制架構(gòu)以滿足性能需求,而具體的實現(xiàn),包括物理版圖設計甚至前端電路設計都可以交給設計服務公司去做。半導體芯片的一個重要特點就是細節(jié)非常重要,ESD、散熱、IR Drop等一個小細節(jié)出錯就可能導致芯片性能大打折扣無法達到需求。因此,如果把具體設計工作交給有豐富經(jīng)驗的設計服務公司,就可以大大減少細節(jié)出錯的風險,從而減小芯片需要重新設計延誤上市時間的風險。
隨著分工的進一步細化,原先起輔助作用的設計服務公司,將越來越重要,能夠與互聯(lián)網(wǎng)巨頭產(chǎn)生互補效應。不少半導體公司也注意到了設計服務的潮流,并開始向設計服務靠攏。聯(lián)發(fā)科前一陣高調(diào)公開設計服務業(yè)務,就是半導體公司轉(zhuǎn)向的重要標志。
對于國內(nèi)的AI芯片初創(chuàng)公司來說,善用這種Designless-Fabless模式,對于縮短產(chǎn)品研發(fā)周期,提升產(chǎn)品設計水平,都有很大幫助。
一、AI芯片發(fā)展面臨的問題
目前,AI芯片發(fā)展速度雖然很快,但是現(xiàn)在的人工智能新算法也是層出不窮的,這樣一來就沒有一個具體的標準,也沒有對相應的規(guī)格進行固定。
其次,現(xiàn)在的人工智能算法都僅僅只是針對于單個應用進行研發(fā)的,并沒有能夠覆蓋全方位,所以鮮有殺手級別的AI應用。
在發(fā)展過程中,AI芯片首要解決的問題就是要適應現(xiàn)在人工智能算法的演進速度,并且要進行適應,這樣才能夠保證匹配發(fā)展。
此外,AI芯片也要適當?shù)膶軜?gòu)進行創(chuàng)新兼容,讓其能夠兼容適應更多的應用,這樣能夠開發(fā)出更好的包容性應用。
目前全球人工智能產(chǎn)業(yè)還處在高速變化發(fā)展中,廣泛的行業(yè)分布為人工智能的應用提供了廣闊的市場前景,快速迭代的算法推動人工智能技術(shù)快速走向商用,AI芯片是算法實現(xiàn)的硬件基礎(chǔ),也是未來人工智能時代的戰(zhàn)略制高點,但由于目前的 AI算法往往都各具優(yōu)劣,只有給它們設定一個合適的場景才能最好地發(fā)揮其作用,因此,確定應用領(lǐng)域就成為發(fā)展AI芯片的重要前提。
從芯片發(fā)展的大趨勢來看,現(xiàn)在還是AI芯片的初級階段。無論是科研還是產(chǎn)業(yè)應用都有巨大的創(chuàng)新空間。從確定算法、應用場景的AI加速芯片向具備更高靈活性、適應性的通用智能芯片發(fā)展是技術(shù)發(fā)展的必然方向。未來幾年AI芯片產(chǎn)業(yè)將持續(xù)火熱,公司扎堆進入,但也很可能會出現(xiàn)一批出局者,行業(yè)洗牌,最終的成功與否則將取決于各家公司技術(shù)路徑的選擇和產(chǎn)品落地的速度。
二、半導體行業(yè)周期:下一個黃金十年
分析半導體市場的歷史(如下圖),我們會看到典型的周期性現(xiàn)象,即每個周期都會有一個明星應用作為引擎驅(qū)動半導體市場快速上升,而在該明星應用的驅(qū)動力不足時半導體市場就會陷入原地踏步甚至衰退,直到下一個明星應用出現(xiàn)再次引領(lǐng)增長。這些明星應用包括90年代的PC,21世紀第一個十年的手機移動通信,以及2010年前后開始的智能手機。在兩個明星應用之間則可以看到明顯的半導體市場回調(diào),例如1996-1999年之間那段時間處于PC和手機之間的青黃不接,而2008-2009年則是傳統(tǒng)移動通信和智能手機之間的調(diào)整。
半導體過去的十年,是以iPhone為首的智能手機帶動的黃金十年?,F(xiàn)在的半導體行業(yè),即將進入兩個明星應用出現(xiàn)之間的調(diào)整期。
誰將成為引領(lǐng)半導體下一個黃金十年的明星應用?
一個應用對于整個半導體行業(yè)的驅(qū)動作用可以分為兩部分,即應用的芯片出貨量以及技術(shù)驅(qū)動力。
半導體行業(yè)是一個十分看重出貨量的領(lǐng)域,只有應用的芯片出貨量足夠大時,這個市場才能容下足夠多的競爭公司,從而驅(qū)動半導體行業(yè)。有些應用市場總額很大,但是其走的是高售價高利潤率的模式,芯片出貨量反而不大,這樣的話其對于半導體行業(yè)的驅(qū)動作用就有限。
除了出貨量之外,另一個重要因素是應用的技術(shù)驅(qū)動力,即該應用是否對于半導體技術(shù)的更新有著強烈而持續(xù)的要求,因為只有當半導體技術(shù)一直在快速更新迭代時,半導體行業(yè)才能是一個高附加值的朝陽行業(yè),才能吸引最好的人才以及資本進入,否則一旦半導體技術(shù)更新緩慢,整個行業(yè)就會陷入僵化的局面。
PC時代的PC機就是對半導體有強烈技術(shù)驅(qū)動力的典型,PC上的多媒體應用對于處理器速度有著永不滿足的需求,而這又轉(zhuǎn)化成了對于處理器相關(guān)半導體技術(shù)強烈而持續(xù)的更新需求,直接推動了摩爾定律和半導體行業(yè)在90年代的黃金時期。
反之,有一些應用的出貨量很大但是其對于半導體的技術(shù)驅(qū)動力并不大,例如傳統(tǒng)家電中的主控MCU芯片,這些MCU芯片出貨量很大,但是在技術(shù)上并沒有強烈的進步需求,不少傳統(tǒng)家電多年如一日一直在用成熟半導體工藝實現(xiàn)的8位MCU,那么這樣的應用對于半導體來說實質(zhì)上引領(lǐng)作用也比較有限。
應用出貨量決定了半導體行業(yè)的橫向市場規(guī)模,而技術(shù)驅(qū)動力則決定了半導體技術(shù)的縱向進化動能。回顧之前幾個成為半導體行業(yè)引擎的明星應用,無不是出貨量和技術(shù)驅(qū)動力雙雙領(lǐng)先。
PC出貨量(在當時)很大,且是當年摩爾定律黃金時代的主推者;移動手機在出貨量很大的同時還推動了CMOS/III-V族工藝射頻相關(guān)電路設計技術(shù)的大幅進展;智能手機則更是驅(qū)動了多項半導體芯片相關(guān)技術(shù)的發(fā)展,例如2.5D高級封裝,用于3D識別的激光模組,觸摸屏和指紋相關(guān)芯片等,而一個智能手機中包含的半導體芯片數(shù)量從射頻前端、存儲器到慣性傳感器數(shù)量也極多,因此其能撐起半導體的上一個黃金十年。
所以,能撐起下一個半導體黃金十年的應用,必然在芯片出貨量和技術(shù)驅(qū)動力,這兩個維度上都有強勁的動力。
從這個觀點出發(fā),可以發(fā)現(xiàn):
只存在于云端的云AI芯片,是作為一種基礎(chǔ)設施出現(xiàn)的,歸根到底是服務2B客戶,因此云AI芯片的出貨量相比智能手機這樣的智能設備要小很多。技術(shù)驅(qū)動力很強,但是出貨量相對較小。
IoT的出貨量很大,但是對于半導體技術(shù)發(fā)展的驅(qū)動力就比較有限。
汽車電子的增長點主要還是汽車的智能化,包括自動駕駛,車聯(lián)網(wǎng)等等,但是汽車電子的出貨量比起智能手機設備少很多。
以上三種應用雖然有巨大的空間,但還不能成為支撐力量。
能夠起到支撐作用的,推測應該是在當前智能手機基礎(chǔ)上發(fā)展起來的下一代個人智能設備,可能是以AI手機的形勢呈現(xiàn)。手機首先出貨量很大,幾乎人手一個;此外AI手機上運行的應用程序的不斷更新迭代對于手機中的芯片技術(shù)提出了強烈而持續(xù)的技術(shù)進化需求,因此其對于半導體行業(yè)的技術(shù)驅(qū)動力極強。
一、類腦芯片
這類AI芯片屬于神經(jīng)擬態(tài)芯片,從結(jié)構(gòu)層面去模擬大腦,參考人腦神經(jīng)元結(jié)構(gòu)和人腦感知認知方式來設計芯片,俗稱“類腦芯片”。
類腦芯片在架構(gòu)上直接通過模仿大腦結(jié)構(gòu)進行神經(jīng)擬態(tài)計算,完全開辟了另一條實現(xiàn)人工智能的道路,而不是作為人工神經(jīng)網(wǎng)絡或深度學習的加速器存在。類腦芯片可以將內(nèi)存、CPU和通信部件完全集成在一起,實現(xiàn)極高的通信效率和極低的能耗。目前該類芯片還只是小規(guī)模研究與應用,低能耗的優(yōu)勢也帶來預測精度不高等問題,沒有高效的學習算法支持使得類腦芯片的進化較慢,還不能真正實現(xiàn)商用。
目前神經(jīng)擬態(tài)芯片的設計方法主要分為非硅和硅技術(shù)。非硅主要指采用憶阻器等新型材料和器件搭建的神經(jīng)形態(tài)芯片,還處于研究階段。硅技術(shù)包括模擬和數(shù)字兩種。模擬集成電路的代表是瑞士蘇黎世聯(lián)邦理工學院的ROLLS芯片和海德堡大學的BrainScales芯片。數(shù)字集成電路又分為異步同步混合和純同步兩種。其中異步(無全局時鐘)數(shù)字電路的代表是IBM的TrueNorth,純同步的數(shù)字電路代表是清華大學的“天機”系列芯片。
另外,對于片上自學習能力,最近Intel推出了Loihi芯片,帶有自主片上學習能力,通過脈沖或尖峰傳遞信息,并自動調(diào)節(jié)突觸強度,能夠通過環(huán)境中的各種反饋信息進行自主學習。中國研究類腦芯片的企業(yè)還有:西井科技,靈汐科技,深思創(chuàng)芯等。
二、可重構(gòu)通用AI芯片
這類AI芯片遵循軟件定義芯片思想,是基于可重構(gòu)計算架構(gòu)的芯片,兼具處理器的通用性和ASIC的高性能與低功耗,是未來通用AI芯片的方向之一。
可重構(gòu)計算技術(shù)允許硬件架構(gòu)和功能隨軟件變化而變化,兼具處理器的通用性和ASIC的高性能和低功耗,是實現(xiàn)軟件定義芯片的核心,被公認為是突破性的下一代集成電路技術(shù)。清華大學微電子學研究所設計的AI芯片Thinker,采用可重構(gòu)計算架構(gòu),能夠支持卷積神經(jīng)網(wǎng)絡、全連接神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡等多種AI算法。
值得一提的是,DARPA在電子振興計劃(ERI)中提出了三個支柱:材料、架構(gòu)、設計,用于支撐美國2025 - 2030年之間的國家電子設計能力。這其中每一個方向都設置了一個課題,其中一個課題在架構(gòu)中提出了軟件定義硬件的概念,也就是 Software defines Hardware。
ERI中講道:所謂要建立運行時可以實時重新配置的硬件和軟件,他們具備像ASIC一樣的性能,而沒有犧牲數(shù)據(jù)密集型計算的可編程性。
現(xiàn)今的AI芯片在某些具體任務上可以大幅超越人的能力,但究其通用性與適應性,與人類智能相比差距甚遠,大多處于對特定算法的加速階段。而AI芯片的最終成果將是通用AI芯片,并且最好是淡化人工干預的自學習、自適應芯片。因此未來通用 AI芯片應包含以下特征。
1)可編程性:適應算法的演進和應用的多樣性。
2)架構(gòu)的動態(tài)可變性:能適應不同的算法,實現(xiàn)高效計算。
3)高效的架構(gòu)重構(gòu)能力或自學習能力。
4)高計算效率:避免使用指令這類低效率的架構(gòu)。
5)高能量效率:能耗比大于5 Tops/W(即每瓦特進行5×10^12次運算)。
6)低成本低功耗:能夠進入物聯(lián)網(wǎng)設備及消費類電子中。
7)體積小:能夠加載在移動終端上。
8)應用開發(fā)簡便:不需要用戶具備芯片設計方面的知識。
對于可重構(gòu)架構(gòu),大家可能覺得FPGA早就可以這樣做了,但實際上FPGA有很多局限性,包括以下這些:
細粒度:由于要實現(xiàn)比特級運算,運算顆粒度必須為細粒度;
配置信息量大:通常為幾兆到十幾兆字節(jié);
配置時間長:通常需要十幾毫秒到幾十毫秒;
靜態(tài)編程:一旦配置完成,不可更改。如果要改變 FPGA 的功能,只能下電或在線重新載入配置信息;
邏輯不可復用:所有電路必須全部裝入FPGA ,復用性為零;
面積效率低:每個LUT只能實現(xiàn)一位運算,面積效率只有5%。一個千萬級的FPGA只能實現(xiàn)幾十萬門的邏輯電路;
能量效率低:由于邏輯利用率低,引發(fā)無效功耗巨大;
需要特種工藝:FPGA 往往需要最先進的制造工藝,且需對工藝進行特別調(diào)整;
電路設計技術(shù):應用者必須具備電路設計知識和經(jīng)驗;
成本高昂:目前的FPGA價格為幾千到幾萬美元一片。
目前尚沒有真正意義上的通用AI芯片誕生,而基于可重構(gòu)計算架構(gòu)的軟件定義芯片(software defined chip)或許是通用AI芯片的出路。
掃一掃在手機上閱讀本文章