深度神經(jīng)網(wǎng)絡(luò)就像遙遠(yuǎn)地平線上的海嘯一樣涌來。

鑒于該技術(shù)仍在演變的算法和應(yīng)用,目前還不清楚深度神經(jīng)網(wǎng)絡(luò)(DNNs)最終會帶來什么變化。但是,迄今為止,它們在翻譯文本、識別圖像和語言方面所取得的成就,清楚地表明他們將重塑計算機(jī)設(shè)計,而這種變化正在半導(dǎo)體設(shè)計和制造方面發(fā)生同樣深刻的變化。

量身定制的第一批商用芯片將于今年上市。由于訓(xùn)練新的神經(jīng)網(wǎng)絡(luò)模型可能需要幾周或幾個月的時間,因此這些芯片可能是迄今為止制造的最大的,因此也是最昂貴的大規(guī)模商用集成電路芯片。

新創(chuàng)公司追逐深度學(xué)習(xí)

今年的行業(yè)可能會看到來自創(chuàng)業(yè)公司Graphcore的一款微處理器,該公司不使用DRAM,而是來自競爭對手Cerebras Systems的晶圓級集成開拓先鋒。英特爾收購的2.5-D Nervana芯片已經(jīng)在生產(chǎn)樣片,其他十幾個處理器正在開發(fā)中。同時,從Arm到西部數(shù)據(jù)(Western Digital)的芯片公司正在研究內(nèi)核,以加速深層神經(jīng)網(wǎng)絡(luò)的推理部分。

“我認(rèn)為(2018年)將是一場即將到來的派對。”加州大學(xué)伯克利分校名譽(yù)教授大衛(wèi)·帕特森(David Patterson)表示:“我們剛剛開始看到許多公司正在評估一些想法。”

這個趨勢非常明顯,帕特森和合著者約翰·亨尼西(John Hennessey)在上個月發(fā)表的關(guān)于計算機(jī)的開創(chuàng)性文本的最新版本中,為它寫了一個新的篇章。作者對內(nèi)部設(shè)計提供了深入的見解,例如Patterson為其貢獻(xiàn)的Google TensorFlow處理器(TPU),以及最新Apple和Google智能手機(jī)芯片中的Microsoft Catapult FPGA和推理模塊。

“這是計算機(jī)體系結(jié)構(gòu)和封裝的復(fù)興。” Patterson說:“明年我們會看到比過去十年更有趣的電腦。”

深度神經(jīng)網(wǎng)絡(luò)的興起在過去幾年里把風(fēng)險投資的資金帶回到了半導(dǎo)體領(lǐng)域。 “EE Times(電子工程專輯美國版)”最新推出的初創(chuàng)公司評選項目“Silicon 60”中,列舉了七家初創(chuàng)公司,其中包括兩個鮮為人知的名稱:寒武紀(jì)科技 Cambricon Technologies(北京寒武紀(jì)科技)和Mythic Inc.(Austin,Texas)。

“我們看到基于新架構(gòu)的新創(chuàng)公司激增。我自己跟蹤了15到20家......過去10到15年中,在任何一個細(xì)分領(lǐng)域中半導(dǎo)體行業(yè)都不曾有超過15家的半導(dǎo)體公司同時涌現(xiàn)的事情”,企業(yè)家Chris Rowen說。他從Cadence Design Systems離職后,成立了一家公司Cognite Ventures,專注于神經(jīng)網(wǎng)絡(luò)軟件。

“Nvidia由于其強(qiáng)大的軟件地位,將難以與高端服務(wù)器進(jìn)行訓(xùn)練的競爭。如果你去追求智能手機(jī)市場你會覺得自己瘋了,因為你必須在很多方面都做得出色。不過在高端或是低端的智能手機(jī)市場,還是會可能有一些機(jī)會。”羅文說。

市場觀察家Linley集團(tuán)負(fù)責(zé)人Linley Gwennap表示,Nvidia在最新的GPU(Volta)方面做得非常出色,他們調(diào)整了對DNN的速度培訓(xùn)。 “但我當(dāng)然不認(rèn)為這是最好的設(shè)計,”Gwennap說。

Gwennap說,Graphcore(英國布里斯托爾)和Cerebras(加利福尼亞州Los Altos)是培訓(xùn)芯片最多的兩家初創(chuàng)公司,因為他們籌集的資金最多,而且似乎擁有最好的團(tuán)隊。由Google前芯片設(shè)計師創(chuàng)立的初創(chuàng)公司Groq聲稱,它將在2018年推出一款推理芯片,在每秒的總操作和推論中都會以四倍的優(yōu)勢擊敗競爭對手。

AI18012302

英特爾的Nervana是一個大型線性代數(shù)加速器,位于硅中介層上,緊鄰四個8-GB HBM2存儲器堆棧。消息來源:Hennessy和Patterson著寫的《計算機(jī)體系結(jié)構(gòu):一種定量方法》

Intel的Nervana,被稱為Lake Crest(上圖),是最受關(guān)注的定制設(shè)計之一。它執(zhí)行16位矩陣操作,數(shù)據(jù)共享指令集中提供的單個5位指數(shù)。

與Nvidia的Volta一樣,Lake Crest邏輯器件位于TSMC的CoWoS(襯底上芯片上芯片)中介層上,緊鄰著四個HBM2高帶寬存儲器堆棧。這些芯片被設(shè)計成網(wǎng)狀,提供五到十倍于Volta的性能。

雖然去年微軟在DNN上使用了FPGA,但Patterson仍然對這種方法持懷疑態(tài)度。 “你為(FPGA)的靈活性付出了很多代價。編程真的很難,”他說。

Gwennap在去年年底的一項分析中指出,DSP也將發(fā)揮作用。 Cadence、Ceva和Synopsys都提供面向神經(jīng)網(wǎng)絡(luò)的DSP內(nèi)核,他說。

加速器缺少共同基準(zhǔn)

雖然芯片即將問世,但是架構(gòu)師們還沒有決定如何去評估它們。

就像RISC處理器的早期,Patterson回憶說,“每個公司都會說,'你不能相信別人的基準(zhǔn),但是你可以相信我的',那不太好。

那時,RISC供應(yīng)商在SPEC基準(zhǔn)測試中進(jìn)行了合作。現(xiàn)在,DNN加速器需要自己定義的測試套件,涵蓋各種數(shù)據(jù)類型的訓(xùn)練和推理以及獨(dú)立的或是集群的芯片。

聽取了這個呼吁,交易處理性能委員會(TPC)是一個由20多個頂級服務(wù)器和軟件制造商組成的小組,12月12日宣布已經(jīng)組建了一個工作組來定義機(jī)器學(xué)習(xí)的硬件和軟件基準(zhǔn)。 TPC-AI委員會主席Raghu Nambiar表示,目標(biāo)是創(chuàng)建與加速器是CPU還是GPU的測試。但是,這個團(tuán)隊的成員名單和時間框架還處于不斷變化之中。

百度公司于2016年9月發(fā)布了一個基于其深度學(xué)習(xí)工作負(fù)載的開放源代碼基準(zhǔn)測試工具,使用32位浮點(diǎn)數(shù)學(xué)進(jìn)行訓(xùn)練任務(wù)。它在六月份更新了DeepBench以涵蓋推理工作和16位數(shù)學(xué)的使用。

哈佛研究人員發(fā)表的Fathom套件中定義的八個AI工作負(fù)載支持整數(shù)和浮點(diǎn)數(shù)據(jù)。帕特森說:“這是一個開始,但是要獲得一個讓人感覺舒適的全面基準(zhǔn)測試套件,還需要更多的工作。”

“如果我們把努力做成一個好的基準(zhǔn),那么所有投入工程的錢都會花得值得。”他說。

除了基準(zhǔn)之外,工程師需要跟蹤仍在演變的神經(jīng)網(wǎng)絡(luò)算法,以確保他們的設(shè)計不會被束之高閣。

高通公司下一代核心研發(fā)總監(jiān)Karam Chatha表示:“軟件總是在變化,但是你需要盡早把硬件拿出來,因為它會影響軟件 - 你不得不催促讓它發(fā)生。到目前為止,移動芯片供應(yīng)商正在驍龍SoC的DSP和GPU內(nèi)核上運(yùn)行神經(jīng)網(wǎng)絡(luò)工作,但一些觀察家預(yù)計,它將為機(jī)器學(xué)習(xí)定制一個新的模塊, 放在2019年7納米驍龍 SoC里。

AI18012303圖文:高通公司展示了一個自定義DNN加速器的研究范例,但是現(xiàn)在它使用通用DSP和GPU內(nèi)核的軟件。 (來源:高通)

Patterson說:“市場決定哪種芯片最好。 “這是殘酷的,但這是設(shè)計電腦讓人興奮之處。”

早期進(jìn)入的玩家已經(jīng)有機(jī)會進(jìn)入到游戲中。

例如,F(xiàn)acebook最近證明,通過大幅增加打包到所謂批量大小的功能數(shù)量,可以將培訓(xùn)時間從一天縮短到一小時。對于試圖在本地SRAM中運(yùn)行所有操作的Graphcore來說這可能是個壞消息,消除了外部DRAM訪問的延遲,同時也限制了它的內(nèi)存占用。

“他們?yōu)樾∨繑?shù)據(jù)包而設(shè)計的,但幾個月前的軟件結(jié)果表明你想要一個大批量數(shù)據(jù)包。這表明事情變化的速度有多快,“帕特森說。

另一方面,雷克斯電腦(Rex Computing)認(rèn)為正在迎來一個有利的機(jī)遇。該初創(chuàng)公司的SoC最初是為高性能服務(wù)器設(shè)計的,它使用了一種新穎的暫存器內(nèi)存。 Rex的方法消除了在虛擬頁面表中緩存數(shù)據(jù)的需求,這是GPU使用的一種技術(shù),增加了他們的延遲,聯(lián)合創(chuàng)始人Thomas Sohmers說。

因此,Rex芯片比現(xiàn)在的GPU要好得多,特別是在處理流行的矩陣/矢量運(yùn)算神經(jīng)網(wǎng)絡(luò)時,他說。新創(chuàng)公司計劃6月份推出16納米的256核的SoC,希望能提供256 Gflops / watt的運(yùn)算能力。

與此同時,研究人員正在嘗試從32位到單位浮點(diǎn)和整數(shù)數(shù)學(xué)的一切可能,以找到最有效的方法來計算神經(jīng)網(wǎng)絡(luò)結(jié)果。他們似乎同意的一點(diǎn)是,最好不要在精確度級別之間轉(zhuǎn)換。

AI算法仍處于發(fā)展初期

深度神經(jīng)網(wǎng)絡(luò)是幾十年來一直在人工智能方面進(jìn)行的相對較小的工作。從2012年左右開始,包括Facebook的Yann LeCun在內(nèi)的研究人員開始使用特定種類的DNN識別圖像,并最終以比人類更高的準(zhǔn)確度顯示令人驚嘆的結(jié)果。深度學(xué)習(xí)技術(shù)吸引了研究界,現(xiàn)在正以高速發(fā)表論文,尋求新的突破。

DNN現(xiàn)在提供商業(yè)服務(wù),如亞馬遜的Alexa和谷歌翻譯,以及Facebook的面部識別。網(wǎng)絡(luò)巨頭和他們的全球競爭對手,正在競相將這些技術(shù)應(yīng)用于盡可能多的服務(wù)中,并期待盡可能找到殺手級應(yīng)用。

微軟每年都會以AI為主題舉行兩次員工內(nèi)部會議。最近一次有5000人參加,前SPARC處理器架構(gòu)師Marc Tremblay表示,他現(xiàn)在領(lǐng)導(dǎo)微軟在定制AI芯片和系統(tǒng)方面的工作。

專家承認(rèn),他們并不完全理解為什么現(xiàn)有的算法工作得很好。辯論主題是探討這些網(wǎng)絡(luò)算法的相對有效性,例如遞歸(RNN)和卷積(CNN)神經(jīng)網(wǎng)絡(luò)。同時,新的模式仍在發(fā)明之中。

“五年內(nèi)算法仍然極有可能發(fā)生改變。我們在賭,像矩陣乘法這樣的最底層的算法是不可改變的。”AMD研究員艾倫·拉什(Allen Rush)在最近一次關(guān)于人工智能的IEEE研討會上說。

這就是Google用TPU做出的賭注,最新版本的TPU是針對訓(xùn)練和推理工作的。它本質(zhì)上是一個大的乘法累加單元,運(yùn)行和存儲線性代數(shù)例程的結(jié)果。 Nervana和Graphcore芯片通常預(yù)計將效仿。

哈佛大學(xué)前大腦研究人員Amir Khosrowshahi說,在神經(jīng)網(wǎng)絡(luò)方面取得的成功主要集中在人工智能領(lǐng)域。他目前是英特爾Nervana集團(tuán)的首席技術(shù)官,創(chuàng)立了Nervana公司。他在IEEE研討會上表示:“由于深度學(xué)習(xí)非常成功,所以事情正在席卷而下。 每個人都在做卷積神經(jīng)網(wǎng)絡(luò),這是一場悲劇......不要以為現(xiàn)在發(fā)生的事情一年后就一定會到來。”

AI18012304圖:今天的DNN得到了很多關(guān)注,但是只代表了更廣泛AI領(lǐng)域的一小部分。 (來源:英特爾)

盡管DNN可以比人類更精確地識別圖像,“如今的數(shù)據(jù)科學(xué)家被迫花費(fèi)著難以接受的時間對數(shù)據(jù)進(jìn)行預(yù)處理,對模型和參數(shù)進(jìn)行迭代,并且等待訓(xùn)練的收斂......每一步都要么過于勞累,要么太計算密集型,“Khosrowshahi說。

總的來說,“人工智能的難題仍然非常難,”他補(bǔ)充說。 “最好的研究人員可以得到一個機(jī)器人來打開一扇門,但拿起杯子可能比贏得Alpha Go還要更難。”

在這種環(huán)境下,F(xiàn)acebook和Google等網(wǎng)絡(luò)巨頭正在發(fā)布大型數(shù)據(jù)集,以吸引更多的人從事諸如視頻等新應(yīng)用領(lǐng)域或數(shù)據(jù)類型的識別問題。

拓展應(yīng)用領(lǐng)域

隨著算法的發(fā)展,研究人員也在推動深度學(xué)習(xí)的應(yīng)用前沿。

Google旨在系統(tǒng)地將DNN應(yīng)用于從幫助盲人用到的自動字幕照片,到以閱讀磁共振成像掃描結(jié)果、到監(jiān)測工廠車間的質(zhì)量控制等問題。谷歌人工智能研發(fā)負(fù)責(zé)人李佳(Jia Li)在IEEE研討會上表示:“人工智能不是一項技術(shù)或產(chǎn)品。 “我們需要開始理解一個領(lǐng)域,然后收集數(shù)據(jù),找到算法,并提出解決方案。每一個新問題我們都需要一個不同的模型。“

事實上,人們正在將DNN應(yīng)用于幾乎所有領(lǐng)域,包括設(shè)計和制造芯片。英特爾編制了四十多種可能用途的清單,包括了從消費(fèi)者網(wǎng)上購物助手到華爾街自動交易的程序。

目前擔(dān)任Target公司數(shù)據(jù)科學(xué)家,前IBM研究人員Shirish Tatikonda,對應(yīng)用領(lǐng)域給予了更加清醒的認(rèn)識。大部分零售商的數(shù)據(jù)都是關(guān)系數(shù)據(jù),而不是最適合神經(jīng)網(wǎng)絡(luò)的非結(jié)構(gòu)化數(shù)據(jù)。 Shirish Tatikonda在個活動后的簡短采訪中表示,Target的業(yè)務(wù)問題中只有大約10%適用于DNN。盡管如此,該公司正在積極開拓這一領(lǐng)域,其系統(tǒng)中約有10%是面向培訓(xùn)神經(jīng)網(wǎng)絡(luò)模型的GPU服務(wù)器。

為了擴(kuò)大這種巨大的努力,谷歌的研究人員正在探索他們所謂的AutoML。這個想法是使用神經(jīng)網(wǎng)絡(luò)自動生成模型,而不需要數(shù)據(jù)科學(xué)家手動調(diào)整它們。

AI18012305盡管許多最近的努力試圖縮小它們的內(nèi)存占用量,但是DNN模型在尺寸上仍然差別很大。 來源:高通

機(jī)器人技術(shù)先驅(qū)羅德尼•布魯克斯(Rodney Brooks)擔(dān)心,預(yù)期可能會失控。 他在最近的一次談話中說:“深度學(xué)習(xí)是好的,但它正在成為一個錘子,人們可以用它去打碎一切東西。”

就帕特森而言,他仍然樂觀。 他說,雖然廣泛的人工智能領(lǐng)域沒有達(dá)到過去的承諾,但它在機(jī)器翻譯等領(lǐng)域的成功是真實的。 “可能所有低處的果實都被采摘下來后,人們沒有發(fā)現(xiàn)什么更令人興奮的事情,但是你幾乎每個星期都會看到新的進(jìn)展......所以我認(rèn)為我們會發(fā)現(xiàn)AI有更多的用途。”

首度致力于軟體融合

行業(yè)第一次致力于軟件融合。

在早期的瘋狂和分散之中,即使是軟件融合的努力也是分散的。百度的人工智能研究團(tuán)隊進(jìn)行了一項調(diào)查,發(fā)現(xiàn)了11項措施,彌補(bǔ)用于管理神經(jīng)網(wǎng)絡(luò)的競爭軟件框架之間的差距。

最有希望的是開放神經(jīng)網(wǎng)絡(luò)交換(ONNX),這是一個由Facebook和微軟開始的開源項目,最近由亞馬遜加入。該小組在12月份發(fā)布了ONNX格式的第一版。它旨在將用十幾個競爭軟件框架中的任何一個創(chuàng)建的神經(jīng)網(wǎng)絡(luò)模型轉(zhuǎn)換成圖形表示。

芯片制造商可以在結(jié)果圖上定位他們的硬件。這對于那些不能編寫?yīng)毩④浖碇С指偁幠P涂蚣艿膭?chuàng)業(yè)公司來說是個好消息,例如Amazon的MxNet,Google的TensorFlow,F(xiàn)acebook的Caffe2以及微軟的CNTK。

由30多家主要芯片供應(yīng)商組成的團(tuán)隊于12月20日發(fā)布了他們的首選選項 - 神經(jīng)網(wǎng)絡(luò)交換格式(Neural Network Exchange Format,簡稱NNEF)。NNEF旨在為芯片制造商提供創(chuàng)建自己的內(nèi)部格式的替代方案,就像英特爾在Nervana Graph和Nvidia所做的那樣與TensorRT。

在百度找到的其他格式的大寫字母名稱縮寫中,有ISAAC,NNVM,Poplar和XLA。百度硅谷人工智能實驗室高級研究員格雷格·迪莫斯(Greg Diamos)表示:“現(xiàn)在知道是否會出現(xiàn)一個成功的實施可能還為時過早,但是我們正在走上一條更好的路,其中一條最終可能會勝出。”

AI18012401圖文: 在人工智能框架中,亞馬遜聲稱其MxNet框架和新興的Gluon API提供了最好的效率。 (來源:亞馬遜)

另外,谷歌已經(jīng)開始使用軟件來自動化精簡DNN模型的過程,以便他們可以運(yùn)行從智能手機(jī)到物聯(lián)網(wǎng)(IoT)節(jié)點(diǎn)的所有事情。 如果成功的話,可以將50Mbyte的模型降低到500K字節(jié)。

谷歌還在探索如何在手機(jī)上進(jìn)行有限的模型培訓(xùn),方法是根據(jù)當(dāng)天收集的數(shù)據(jù)調(diào)整模型的頂層或者在夜間運(yùn)行的一個流程。 像SqueezeNet和MobileNet這樣的行業(yè)工作也類似地展示了更簡單的成像模型的路徑。

負(fù)責(zé)Google TensorFlow Lite工作的Pete Warden表示:“我們看到了大量使用機(jī)器學(xué)習(xí)的人們在各種各樣的產(chǎn)品中大量涌現(xiàn)。 “讓每次運(yùn)算的能耗降下來這件事,讓我每天工作到深夜。”

展望未來

當(dāng)專家細(xì)看AI的未來時,他們看到了一些有趣的可能。

今天我們使用基于手動調(diào)整模型的監(jiān)督式學(xué)習(xí)。谷歌的守望者(Warden)是在不久的將來出現(xiàn)半監(jiān)督方法的研究人員之一,手機(jī)等客戶端設(shè)備自己處理一些學(xué)習(xí)。最終目標(biāo)是無監(jiān)督的學(xué)習(xí) - 計算機(jī)教育它們自己,而不再需要建造它們的工程師的編程幫助。

在這條路上,研究人員正在設(shè)法自動標(biāo)記數(shù)據(jù),這些數(shù)據(jù)來自手機(jī)或物聯(lián)網(wǎng)(IoT)節(jié)點(diǎn)等設(shè)備。

“谷歌說,現(xiàn)在我們需要大量的計算,在這個過度階段,一旦事情被自動標(biāo)記,你只需要索引新的增量內(nèi)容,這更像是人類如何處理數(shù)據(jù),”Janet George,西部數(shù)據(jù)的科學(xué)家說。

無監(jiān)督學(xué)習(xí)打開了加速機(jī)器智能時代的大門,有些人認(rèn)為這是數(shù)字化的必殺技。另一些人則擔(dān)心技術(shù)可能會在沒有人為干預(yù)的情況下以災(zāi)難性的方式失控。 Google公司TPU項目負(fù)責(zé)人Norm Jouppi說:“這讓我感到害怕。

同時,從事半導(dǎo)體工作的學(xué)者對未來的AI芯片有自己的長遠(yuǎn)展望。

英特爾,Graphcore和Nvidia“已經(jīng)在制造全標(biāo)線芯片,下一步就是三維技術(shù)”,Patterson說。 “當(dāng)摩爾定律如火如荼時,由于擔(dān)心可靠性和成本問題,人們會在看到復(fù)雜的封裝技術(shù)之前就臨陣退縮了?,F(xiàn)在摩爾定律正在結(jié)束,我們將看到很多封裝方面的實驗。“

這里的最終游戲是創(chuàng)造出新型的晶體管,可以在邏輯和存儲器層上堆疊。

Notre Dame電氣工程教授蘇曼·達(dá)塔(Suman Datta)看好負(fù)電容鐵電晶體管技術(shù)的晶體管。他在最近召開的所謂的單體三維(3-D)結(jié)構(gòu)會議上展望了該領(lǐng)域的前景。這樣的設(shè)計應(yīng)用和先進(jìn)的3-D NAND閃存已經(jīng)采用了on-die芯片堆棧技術(shù)。

來自伯克利,麻省理工學(xué)院和斯坦福大學(xué)的團(tuán)隊將在二月份的國際固態(tài)電路會議上展示一個類似的前沿技術(shù)。芯片(下圖)將電阻RAM(ReRAM)結(jié)構(gòu)堆疊在由碳納米管制成的邏輯上的碳納米管。

AI18012402伯克利,麻省理工學(xué)院和斯坦福大學(xué)的研究人員將在ISSCC上報告一種使用碳納米管,ReRAM和圖案作為計算元素的新型加速器。 (來源:加州大學(xué)伯克利分校)

從DNN獲得靈感,該設(shè)備被編程為近似模式,而不是計算機(jī)迄今使用的確定性數(shù)字。 伯克利教授揚(yáng)·拉巴伊(Jan Rabaey)說,這個所謂的高維計算使用了幾萬維的向量作為計算元素,伯克利教授為本文做出了貢獻(xiàn),并且是英特爾AI顧問委員會成員。

Rabaey說,這樣的芯片可以從例子中學(xué)習(xí),并且比傳統(tǒng)系統(tǒng)需要的操作要少得多。一塊測試芯片將很快問世,它使用振蕩器陣列,作為與相關(guān)存儲器陣列中的采用了ReRAM單元的模擬邏輯。

Rabaey在IEEE人工智能研討會上表示:“我夢想的引擎,是可以隨身攜帶,現(xiàn)場為我提供指導(dǎo)......我的目標(biāo)是推動AI運(yùn)行在小于100毫伏的運(yùn)行。 我們需要重新思考我們?nèi)绾巫鲇嬎恪?我們正在從基于算法的系統(tǒng)轉(zhuǎn)向基于數(shù)據(jù)的系統(tǒng)。”