在不久前的人機大戰(zhàn)中,AlphaGo依靠模仿人腦生物機理的深度學習算法而擊敗人類。深度學習,是源于對生物人腦機理的仿生學研究而形成的一種人工智能算法。作為深度學習神經(jīng)網(wǎng)絡的一種,卷積神經(jīng)網(wǎng)絡(CNN)算法已經(jīng)成為當前人工智能機器視覺領(lǐng)域的研究熱點,其特性可以概括為海量的輸入數(shù)據(jù)、大規(guī)模的MAC運算、稀疏的權(quán)值矩陣、靈活的數(shù)據(jù)位寬和多樣的網(wǎng)絡拓撲等。
中國神經(jīng)網(wǎng)絡處理器前進到哪里?
而兩家中國企業(yè)也在探索神經(jīng)網(wǎng)絡處理器的道路上取得了可喜的突破。今年3月,中科院計算技術(shù)研究所發(fā)布全球首個神經(jīng)網(wǎng)絡處理器科研成果。由陳云霽、陳天石課題組提出的深度學習處理器指令集DianNaoYu被計算機體系結(jié)構(gòu)領(lǐng)域頂級國際會議ISCA2016所接收,其評分排名在近300篇投稿中高居第一。該成果的模擬實驗表明,采用DianNaoYu指令集的寒武紀深度學習處理器相對于x86指令集的CPU有兩個數(shù)量級的性能提升,但是面積和功耗僅為1/10。預計該項成果今年年內(nèi)將正式投入產(chǎn)業(yè)化,未來將實現(xiàn)刷臉支付、手機圖片搜索等應用。
據(jù)了解,DianNao是寒武紀系列的第一個原型處理器結(jié)構(gòu),包含一個處理器核,主頻為0.98GHz,峰值性能達每秒4520億次神經(jīng)網(wǎng)絡基本運算,65nm工藝下功耗為0.485W,面積3.02mm2。在若干代表性神經(jīng)網(wǎng)絡上的實驗結(jié)果表明,DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU百分之一量級。DaDianNao則在DianNao的基礎上進一步擴大了處理器的規(guī)模,包含16個處理器核和更大的片上存儲,并支持多處理器芯片間直接高速互連,避免了高昂的內(nèi)存訪問開銷。
6月,中星微“數(shù)字多媒體芯片技術(shù)”國家重點實驗室也宣布,經(jīng)過五年多的攻堅克難和不懈努力,中國首款嵌入式神經(jīng)網(wǎng)絡處理器(NPU)芯片誕生,并已于今年3月6日在臺積電(TSMC)實現(xiàn)投片量產(chǎn)。NPU采用了“數(shù)據(jù)驅(qū)動并行計算”的架構(gòu),顛覆了傳統(tǒng)的馮諾依曼架構(gòu)。這種數(shù)據(jù)流(Dataflow)類型的處理器,極大地提升了計算能力與功耗的比例,特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù),使得人工智能在嵌入式機器視覺應用中可以大顯身手。目前,該芯片已成功在視頻監(jiān)控領(lǐng)域?qū)崿F(xiàn)產(chǎn)業(yè)化,并可廣泛應用于智能駕駛輔助、無人機、機器人等嵌入式機器視覺領(lǐng)域。
型號為VC0758的NPU是針對CNN的算法模型特性而專門設計的一款神經(jīng)網(wǎng)絡處理器。每個NPU處理器具有4個內(nèi)核,每個內(nèi)核有兩個數(shù)據(jù)流處理器, 每個數(shù)據(jù)流處理器具有8個長位寬或16個短位寬的單指令多數(shù)據(jù)(SIMD)運算單元。在一個時鐘周期內(nèi)可同時完成64個長位寬MAC運算或者128個短位寬MAC運算。每個NPU核具有38G Ops的長位寬處理能力或者76G Ops的短位寬處理能力。NPU的處理性能可以組成多核陣列來提升,也可以通過多芯片級聯(lián)的方式進一步擴展,以滿足更復雜的CNN網(wǎng)絡運算的性能需求。
“每個NPU核還具有256KB Level-2 Cache,以及整塊數(shù)據(jù)搬移(Block Data Access),片內(nèi)數(shù)據(jù)共享(Data-sharing Between Processor Units),提升數(shù)據(jù)流的吞吐效率。”國家重點實驗室執(zhí)行主任張韻東表示,在軟件方面,利用了稀疏數(shù)據(jù)優(yōu)化(Optimization for Sparse Data)等特性提高計算效率。NPU支持Caffe、TensorFlow等多種神經(jīng)網(wǎng)絡框架, 支持AlexNet、GoogleNet等各類神經(jīng)網(wǎng)絡。
此外,通過集成NPU處理器內(nèi)核以及國家標準的音視頻編解碼器(SVAC Codec),VC0758芯片也成為全球首顆具備深度學習人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級芯片。
后摩爾時代,中國企業(yè)變道超車的機會
“隨著逐步逼近香農(nóng)定理、摩爾定律的極限,面對大流量、低延時的理論還未創(chuàng)造出來。大家感到前途茫茫,找不到方向。”張韻東說,后摩爾定律時代有幾條不同的路徑,一種觀點是繼續(xù)推進摩爾定律,繼續(xù)在新型材料、工藝制程和器件結(jié)構(gòu)上努力,將摩爾定律再推進一步;另一種觀點是超越摩爾定律,通過SoC將數(shù)字電路、模擬電路、存儲器甚至射頻電路集成在一顆芯片里,以實現(xiàn)更多的功能,或通過SIP采用多芯片堆疊的方式,將多顆裸芯片封裝在一起。
面對摩爾定律的盡頭,中星微通過NPU這塊“引玉之磚”給出了全新的技術(shù)路線:智能摩爾之路(Intelligent Moore)。其內(nèi)涵是,雖然物理層面和信號層面都受到物理規(guī)律的制約,但在信息層面的技術(shù)創(chuàng)新還遠沒有達到極限。如何進一步借鑒人腦智慧機制,研究新型人工智能計算方法,進一步提升信息處理的性能功耗價格比,可能是下一次信息革命的關(guān)鍵。
陳天石此前曾表示,寒武紀科技通過前期的工作,積累了多項深度學習芯片的“山頂專利”,形成了對深度學習處理器所有關(guān)鍵技術(shù)的全覆蓋,構(gòu)建寒武紀科技在這個領(lǐng)域的專業(yè)壁壘。如同過去中國人進入處理器行業(yè),必須面臨虛擬架構(gòu)的一些技術(shù)壁壘一樣,之后進入這個領(lǐng)域的公司,也必須面臨寒武紀的壁壘,這是中國人的機會。
“寒武紀”處理器不是用來取代CPU的顛覆式革命,更像是一款針對智能認知等應用的專用芯片,優(yōu)勢集中在人臉識別、聲音識別等人工智能方面。根據(jù)此前曝光的“寒武紀”處理器產(chǎn)業(yè)化時間表,第一步,2016年將率先在客戶端、手機端以IP形式嵌入到芯片中;第二步,預期在2017年推出云端芯片,這也是寒武紀第一輪天使融資的主要目的。目前,寒武紀已經(jīng)與曙光展開了戰(zhàn)略合作,其云端芯片將有望應用到曙光云數(shù)據(jù)中心之中,作為大數(shù)據(jù)、人工智能的引擎,這也與曙光“數(shù)據(jù)中國”戰(zhàn)略相匹配。