使用中央處理器(CPU),圖形處理器(GPU),現(xiàn)場(chǎng)可編程邏輯門陣列(FPGA)和專用集成電路(ASIC)來(lái)理解人工智能。
樹莓派(Raspberry Pi,是一款針對(duì)電腦業(yè)余愛好者、教師、小學(xué)生以及小型企業(yè)等用戶的迷你電腦)在電腦業(yè)余愛好者中十分受歡迎??v觀各國(guó),有的人用它來(lái)推動(dòng)啤酒生產(chǎn)自動(dòng)化,有的人用它打開了機(jī)器人新世界的大門,還有的人在電影學(xué)科快速發(fā)展的現(xiàn)狀下,用它變革了科學(xué)、技術(shù)、工程、數(shù)學(xué)四大學(xué)科的教學(xué)方式。這些方式都是值得贊美的。那么微軟又利用它做了些什么呢?答案是設(shè)計(jì)了捕獵松鼠的噴水機(jī)器人。
在某公司的機(jī)器學(xué)習(xí)與優(yōu)化小組中,研究員發(fā)現(xiàn)幾只松鼠正在從喂鳥器中偷取花蕾和種子。為此,這個(gè)研究小組設(shè)計(jì)了一個(gè)計(jì)算機(jī)視覺模型,并把模型放到樹莓派3的主板上。然后,每當(dāng)有嚙齒動(dòng)物出現(xiàn)時(shí),它就會(huì)打開灑水器。
這個(gè)故事的關(guān)鍵并不是他們多么討厭松鼠——而是他們將卷積碼神經(jīng)網(wǎng)絡(luò)與ARM處理器(英國(guó)Acorn有限公司設(shè)計(jì)的低功耗成本的第一款RISC微處理器)相結(jié)合。這也體現(xiàn)了這些公司正在改進(jìn)硬件以支持AI運(yùn)算法則。隨著AI越來(lái)越受關(guān)注,研究員們致力于發(fā)展其解決基礎(chǔ)事務(wù)的能力,比如識(shí)別圖像和語(yǔ)音。
隨著人們對(duì)科技的期望越來(lái)越大,如研發(fā)自動(dòng)飛行無(wú)人機(jī)和自動(dòng)駕駛汽車,硬件發(fā)展所面臨的挑戰(zhàn)也越來(lái)越大。對(duì)此,各個(gè)公司正在生產(chǎn)硅制品和計(jì)算節(jié)點(diǎn)來(lái)應(yīng)對(duì)這些挑戰(zhàn)。
美國(guó)市場(chǎng)研究公司ABI Research研究部主任Jeff Orr將AI硬件發(fā)展劃分為3個(gè)廣泛領(lǐng)域:云服務(wù),在線設(shè)備及混合領(lǐng)域。云服務(wù)主要是在微軟、亞馬遜和谷歌等超大規(guī)模數(shù)據(jù)中心環(huán)境下,在線上完成AI任務(wù)進(jìn)程。
而在另一領(lǐng)域,他看到了設(shè)備的更多進(jìn)程。在這些進(jìn)程中,連接或延時(shí)禁止了數(shù)據(jù)傳送回云。
他說(shuō),“它的作用可能是發(fā)出聲音指令,使智能手機(jī)或智能眼鏡等可佩戴式設(shè)備不再需要人們親自動(dòng)手操作。這方面的技術(shù)還會(huì)繼續(xù)發(fā)展,因?yàn)? 當(dāng)今世界還沒(méi)有大量在線設(shè)備的例子。”他認(rèn)為增強(qiáng)現(xiàn)實(shí)是關(guān)鍵驅(qū)動(dòng)力,要不然就只能假設(shè)永遠(yuǎn)都有這種應(yīng)用程序。
最后,混合領(lǐng)域結(jié)合了以上兩個(gè)領(lǐng)域來(lái)完成AI計(jì)算。然后,你的手機(jī)便能通過(guò)基于云的AI來(lái)識(shí)別你的問(wèn)題和要求。
云:下雨式算法
云的重要性源于AI的學(xué)習(xí)方式。AI模型漸漸能夠開始深度學(xué)習(xí),能使用多層復(fù)雜神經(jīng)網(wǎng)絡(luò)來(lái)創(chuàng)造更精確的AI程序。
神經(jīng)網(wǎng)絡(luò)的運(yùn)用包含兩個(gè)方面。第一是測(cè)驗(yàn)網(wǎng)絡(luò)是在何處分析數(shù)據(jù)并得出數(shù)據(jù)模型的,這是一種有效的“學(xué)習(xí)”階段。第二是推斷神經(jīng)網(wǎng)絡(luò)在何處解析新數(shù)據(jù)并得出精確結(jié)果。測(cè)驗(yàn)這些網(wǎng)絡(luò)會(huì)消耗大量的計(jì)算能力,但是測(cè)驗(yàn)負(fù)載可以分成多個(gè)并發(fā)運(yùn)行的任務(wù)。這就是為什么有雙倍浮點(diǎn)精度和大芯數(shù)的GPU會(huì)如此擅長(zhǎng)該任務(wù)。
然而,神經(jīng)網(wǎng)絡(luò)規(guī)模正在擴(kuò)大,面臨的挑戰(zhàn)也越來(lái)越多。GPU主要供應(yīng)商英偉達(dá)公司(Nvidia,是一家以設(shè)計(jì)智核芯片組為主的無(wú)晶圓(Fabless)IC半導(dǎo)體公司)加速計(jì)算小組的副組長(zhǎng)Ian Buck說(shuō)他們正在以每年兩倍的速度擴(kuò)張。該公司正在創(chuàng)造更多計(jì)算密集的圖形處理器架構(gòu)來(lái)應(yīng)對(duì)其擴(kuò)張,但也在改變著其對(duì)待數(shù)學(xué)的方式。
他說(shuō)“即使精確度不那么高,它也能完成”。最初,神經(jīng)網(wǎng)絡(luò)測(cè)驗(yàn)主要著手于32-位浮點(diǎn)數(shù),但他們?cè)?月宣布,該神經(jīng)網(wǎng)絡(luò)優(yōu)化了新的Volta架構(gòu)(英偉達(dá)的新一代GPU架構(gòu)),使之能將16-點(diǎn)輸入32-位內(nèi)部計(jì)算。
Buck說(shuō),將其計(jì)算精確度縮減到16點(diǎn)有兩大好處。
“一是用戶可以利用更快的算法,因?yàn)樘幚砥髟谳^低的分辨率下往往具有更多的生產(chǎn)量。二是增加了可用帶寬的數(shù)量,因?yàn)槟阏讷@取每一個(gè)算法的數(shù)據(jù)。”
Buck談道,“問(wèn)題是,其精確度可以達(dá)到多低呢?如果太低,便無(wú)法測(cè)驗(yàn),就無(wú)法達(dá)到生產(chǎn)所需的精準(zhǔn)度,或者會(huì)變得不穩(wěn)定。”
超越GPU
雖然英偉達(dá)公司在精煉其架構(gòu),但一些云供應(yīng)商已經(jīng)使用其他架構(gòu)的GPU創(chuàng)建了自己的芯片。谷歌研發(fā)的TPU(谷歌為機(jī)器學(xué)習(xí)而設(shè)計(jì)的處理器)一代最初為推理工作負(fù)載而致力于8-點(diǎn)整數(shù)。在五月推出的新一代TPU提供了浮點(diǎn)精度,還能被用于測(cè)驗(yàn)。這些芯片是專用集成電路(ASIC)。與CPU和GPU不同,它們是為特定目的而設(shè)計(jì)的(這些天你經(jīng)常會(huì)看到它們用于采礦比特幣),但它們不能重新編程。缺乏無(wú)關(guān)的邏輯使得他們的電力使用在性能和經(jīng)濟(jì)上都非常高,但卻非常昂貴。
谷歌的規(guī)模已經(jīng)大到可以承擔(dān)與設(shè)計(jì)ASIC相關(guān)的大量非經(jīng)常性支出(NRE),因?yàn)樗诨贏I的數(shù)據(jù)中心運(yùn)營(yíng)中節(jié)約了成本。它在許多操作中使用它們,從識(shí)別街景視圖文本到執(zhí)行Rankbrain搜索查詢,并且每當(dāng)TPU執(zhí)行某些操作(除GPU)時(shí),Google可以節(jié)省電力。
Moor Insights & Strategy的高級(jí)分析師Karl Freund說(shuō):“這將節(jié)省很多錢。”
不過(guò),他認(rèn)為Google并不完全是為了節(jié)省成本才這樣做。 “我認(rèn)為他們這樣做能夠完全控制硬件和軟件堆棧。”如果Google在AI上投注資金,那么從終端應(yīng)用程序(如自動(dòng)駕駛汽車到軟件框架)和云端來(lái)控制它是有意義的。
現(xiàn)場(chǎng)可編程邏輯門陣列(FPGA)及其它
當(dāng)面對(duì)的不是溺水的松鼠時(shí),微軟在自己的數(shù)據(jù)中心改造推出現(xiàn)場(chǎng)可編程門陣列(FPGA)。它們類似于ASIC(專用集成電路),但是可重新編程,以便更新其算法。它們處理Azure中的聯(lián)網(wǎng)任務(wù),但是微軟也在機(jī)器翻譯這樣的AI工作負(fù)載上釋放出來(lái)。英特爾想要AI行業(yè)的一部分,無(wú)論它在哪里運(yùn)行,包括云。
到目前為止,其Xeon Phi高性能CPU已經(jīng)處理了通用機(jī)器學(xué)習(xí),最新版本代號(hào)為Knight s Mill,并預(yù)計(jì)在今年出貨。
盡管如此,該公司還擁有三項(xiàng)加速器,用于更具體的AI任務(wù)。對(duì)于研究深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),英特爾將其希望寄托在Lake Crest(專門為深度學(xué)習(xí)定制的一款芯片)。這是一個(gè)協(xié)處理器,該公司表示,使用一種名為HBM2的內(nèi)存來(lái)克服數(shù)據(jù)傳輸性能上限,這比DDR4快了大約12倍。
雖然這些大廠商在與GPU,F(xiàn)PGA和ASIC構(gòu)建的系統(tǒng)進(jìn)行競(jìng)爭(zhēng),但其他人正在嘗試從頭改寫AI架構(gòu)。
據(jù)報(bào)道,Knuedge準(zhǔn)備用基于云操作的256核心芯片,但他并未多說(shuō)。
英國(guó)公司Graphcore由于需在2017年發(fā)布技術(shù),已經(jīng)透露了一些。它希望其智能處理單元(IPU)使用基于圖形的處理,而不是GPU使用的向量或CPU中的標(biāo)量處理。該公司希望這將使其能夠?qū)⒂?xùn)練和推理工作負(fù)載適用于單個(gè)處理器。關(guān)于其技術(shù)有一個(gè)有趣的事情,它的基于圖的處理 應(yīng)該是減輕AI處理中最大的問(wèn)題之一——從內(nèi)存到處理單元的數(shù)據(jù)。而戴爾一直是該公司的支持者。
波的計(jì)算也專注于不同類型的處理,使用它所謂的數(shù)據(jù)流架構(gòu)。它有一個(gè)專為數(shù)據(jù)中心運(yùn)行而設(shè)計(jì)的訓(xùn)練器具,可以達(dá)到2.9 PetaOPs /秒。