芯片的分類
從應用目的區(qū)分,可以將芯片大致分為通用芯片和專用芯片兩類。
通用芯片是為了解決一些通用的任務而設計的,主要為各種架構(gòu)的CPU(中央處理器)芯片,例如x86、ARM、MIPS、PowerPC、RISC-V等等,這類芯片往往可以運行操作系統(tǒng),并具備豐富的外設接口,以滿足多種多樣的應用需求。在市場競爭過程中,MIPS、PowerPC等芯片架構(gòu)已不再輝煌,甚至逐漸退出了歷史舞臺。
專用芯片是為了解決某一類專門的應用而設計的,例如擅長處理圖像任務的GPU,擅長數(shù)字信號處理的DSP,擅長AI加速的AI芯片,以及可針對特定應用場景進行硬件編程的FPGA。這一種類的芯片在處理特定應用時效率很高,但是不擅長處理通用類型業(yè)務。

實際上,隨著芯片的演進,這兩類芯片也在發(fā)生一些融合。例如通用芯片中集成GPU、DSP,甚至FPGA,從而提供針對特定應用的加速能力;而專用芯片中也往往會集成一些通用的CPU,從而提供一定的靈活性和獨立部署能力。
芯片的歷史
x86芯片
在很長一段時間內(nèi),CPU和Intel/x86是劃上了等號的。CPU的歷史可以追溯到1971年。在這一年,Intel公司研發(fā)出了世界上第一款微處理器4004。它是一款4位處理器,每秒只能計算6萬次。這一劃時代的產(chǎn)品,盡管性能非常孱弱,但是CPU這一影響深遠的概念首次亮相了。隨后幾年,Intel迅速推出了4040、8008、8080等處理器。
1978年,Intel首次推出16位處理器i8086,它是x86架構(gòu)的鼻祖,該處理器上使用的指令集,被稱為x86指令集,并演進至今。
80年代,Intel相繼推出了80286、80386、80486,晶體管數(shù)量突破100萬個,CPU主頻提高到50MHz。
2000年,Intel推出了奔騰4系列,開始引入64位架構(gòu),并支持虛擬化。
2010年,Intel從酷睿系列開始,通過Tick-Tock節(jié)奏,即一年更新微架構(gòu)、一年升級制程的方式,不斷向前演進。但是,隨著工藝尺寸接近物理極限,Intel已經(jīng)由Tick-Tock變化為PAO(制程Process->架構(gòu)Architecture->優(yōu)化Optimization )策略。

ARM芯片
ARM芯片的歷史要追溯到1978在英國劍橋創(chuàng)辦的CPU公司(Cambridge Processing Unit),1979年更名為Acorn公司,主要業(yè)務是提供電子設備。1985年,Acorn基于RISC架構(gòu),自行研發(fā)了第一代32位、6MHz的處理器,簡稱ARM(Acorn RISC Machine),ARM名字由此而來。
RISC 的全稱是 “ 精簡指令集計算機 ”(Reduced Instruction Set Computer),它支持的指令比較簡單,所以功耗小、價格便宜,特別適合移動設備。早期使用 ARM 芯片的典型設備,就是蘋果公司的牛頓 PDA。
1990年代,ARM的32位嵌入式RISC進入了低功耗、低成本和高性能的嵌入式應用。進入二十一世紀之后,隨著手機的快速發(fā)展,ARM處理器占領了全球手機市場,一直延續(xù)至今。

AI芯片
當前對人工智能芯片的定義并沒有一個公認的標準。比較通用的看法是面向AI應用的芯片都可以稱為AI芯片,按設計思路主要分為三大類:專用于機器學習尤其是深度神經(jīng)網(wǎng)絡算法的訓練和推理加速芯片;受生物腦啟發(fā)設計的類腦仿生芯片;可高效計算各類人工智能算法的通用AI芯片。
AI芯片的歷史是隨著深度學習的興起同步發(fā)展 起來的。深度學習對算力的需求十分巨大,傳統(tǒng)的CPU無法滿足,算法研究人員發(fā)現(xiàn),GPU很適合用來處理深度學習的訓練和推理計算任務。所以英偉達借AI浪潮再次崛起,后來也推出了專門用于深度學習任務的Tesla、Jetson等系 列AI芯片。
近五年時間內(nèi),隨著深度學習的爆發(fā)式增長,涌現(xiàn)出大量的AI專用芯片和廠家。

芯片的產(chǎn)業(yè)鏈
芯片從設計到出廠,芯片產(chǎn)業(yè)鏈的分工主要包括六大部分。

芯片的發(fā)展趨勢
AI芯片的發(fā)展趨勢
現(xiàn)今的 AI芯片在某些具體任務上可以大幅超越人的能力,但究其通用性與適應性,與人類智能相比差距甚遠,大多處于對特定算法的加速階段,缺乏通用性。因此未來通用AI芯片應包含以下特征。
可編程性:適應算法的演進和應用的多樣性。
架構(gòu)的動態(tài)可變性:能適應不同的算法,實現(xiàn)高效計算。
高計算效率:算法對算力的需求是無止境的,現(xiàn)有的計算效率制約了很多算法的實際應用落地。
高能量效率:能耗比高,能夠應用在端側(cè)嵌入式設備中。
應用開發(fā)簡便:提供完備的軟件棧,降低AI開發(fā)的門檻。
通用芯片的發(fā)展趨勢
微架構(gòu)演進,IPC(Instruction Per Cycle)每代提升10%。IPC仍然是衡量通用芯片處理能力的一個重要指標,通過芯片內(nèi)部集成更大的緩存、更多的執(zhí)行單元、更精確的分支預測和任務調(diào)度機制,將IPC不斷提升。
工藝演進:目前通用芯片工藝已經(jīng)邁入7nm制程,后續(xù)5nm,甚至3nm的制程已經(jīng)在研究當中,雖然由于已經(jīng)逼近物理極限,但是工藝演進仍然是提升芯片性能的關鍵一環(huán)。
功耗控制:隨著通用芯片核數(shù)越來越多,尺寸越來越大,功耗控制成為制約芯片實際商用的重要因素。需要更加精細和智能的功耗控制機制。
互連帶寬:多芯片之間往往可以通過互連形成更強的單節(jié)點處理能力。
ARM芯片的優(yōu)勢戰(zhàn)場在嵌入式領域,而x86的優(yōu)勢戰(zhàn)場在桌面和數(shù)據(jù)中心。但是,雙方的競爭從未停止。目前已經(jīng)出現(xiàn)了一些服務器級別的ARM芯片,開始爭奪數(shù)據(jù)中心市場。但是x86在數(shù)據(jù)中心的體量和地位目前仍然遙遙領先。
ARM架構(gòu)處理器的單核性能往往較弱,所以單CPU核數(shù)較多;而x86的單核能力強,因此核數(shù)較少。兩者的架構(gòu)區(qū)別導致了其適用于不同的業(yè)務場景。
但是,隨著制程演進越來越困難,x86的流水線已經(jīng)非常深,微架構(gòu)上也很難再有大的突破,x86也在尋求在芯片內(nèi)集成更多的核。另一方面,ARM也面向數(shù)據(jù)中心領域推出了Cortex-X系列架構(gòu),不再一味追求performance per Watt,而是追求極致性能,即從原來的小核向大核演進。