IBM與英偉達(dá)持續(xù)發(fā)力,開發(fā)最新AI強(qiáng)大處理器
來源:原創(chuàng) 時(shí)間:2017-10-31 瀏覽:0 次
像2000年初的服務(wù)器市場一樣,具有加速深度學(xué)習(xí)(DL)訓(xùn)練功能的GPU、TPU、FPGA以及其他加速器應(yīng)用還處于初期階段。DL訓(xùn)練使高級模式的現(xiàn)代人工智能(AI)識別成為可能。
盡管IBM不久前在DL加速方面做出了重要貢獻(xiàn),NVIDIA GPU已經(jīng)為數(shù)字圖書館的發(fā)展和商業(yè)化的主要驅(qū)動(dòng)力。對于IBM在AI應(yīng)用方面做出的貢獻(xiàn),下面將一一說明。
推理擴(kuò)展
經(jīng)過訓(xùn)練的DL模型將會(huì)簡化并做出更快的處理,具有強(qiáng)大的模式識別能力以創(chuàng)造有利的服務(wù)。推理可以擴(kuò)展為單個(gè)小任務(wù)在多個(gè)廉價(jià)的服務(wù)器上運(yùn)行。有很多行業(yè)投資旨在降低推理成本,我們將在以后討論這個(gè)問題。
已被擴(kuò)大的規(guī)模,是創(chuàng)建可部署推理模型面臨的直接挑戰(zhàn)。訓(xùn)練需要大量的數(shù)據(jù)集和超高數(shù)值精度;需要有侵略性的系統(tǒng)設(shè)計(jì)來滿足真實(shí)的訓(xùn)練時(shí)間和精度,相反,云經(jīng)濟(jì)是由規(guī)模驅(qū)動(dòng)的。
云計(jì)算公司部署基于DL的AI服務(wù),面臨的挑戰(zhàn)自于微軟Cortana、亞馬遜的Alexa和谷歌之家。主要是由于DL加速的不成熟導(dǎo)致其在競爭上處于劣勢,這也迫使服務(wù)供應(yīng)商在研究和開發(fā)(研發(fā))、工程和部署專有的擴(kuò)展系統(tǒng)上投資(合計(jì))上億美元。
NVLink在8 GPU規(guī)模的增量
GPU的不斷升級是DL在最近幾年的成功的一個(gè)關(guān)鍵原因。通用處理器在處理大型數(shù)學(xué)數(shù)據(jù)集的DL數(shù)學(xué)時(shí)仍然速度太慢。早期,NVIDIA公司投資利用DL加速GPU,在新的GPU架構(gòu)進(jìn)一步加快DL和DL軟件開發(fā)工具可以輕松實(shí)現(xiàn)GPU加速。
NVIDIA的GPU加速戰(zhàn)略的一個(gè)重要部分是NVLink。NVLink從GPU到GPU并直接連接到8 GPU實(shí)現(xiàn)高速規(guī)模增量。NVLink使得GPU處理器實(shí)現(xiàn)在最小的干預(yù)下進(jìn)行訓(xùn)練。在NVLink之前,GPU沒有低延遲互連、數(shù)據(jù)流控制的復(fù)雜性,或統(tǒng)一的內(nèi)存空間。NVDIA將替代PCLe ,通過SXM2與NVLink融合。
NVIDIA的 DGX-1、微軟的開放計(jì)算項(xiàng)目(OCP)項(xiàng)目奧林巴斯HGX-1 GPU和臉書網(wǎng)的“Big Basin”對OCP的貢獻(xiàn)有著相似之處,每一家都是8 NVIDIA Tesla SXM2 GPU。DGX-1的設(shè)計(jì)點(diǎn)位于底盤的雙處理器的x86服務(wù)器節(jié)點(diǎn),而HGX-1的設(shè)計(jì)必須搭配獨(dú)立服務(wù)器機(jī)箱。
通過PCIe交換芯片連接四NVLink域四個(gè)服務(wù)器節(jié)點(diǎn),微軟的HGX-1可搭載4個(gè)GPU。HGX-1’s 32-GPU的設(shè)計(jì)限制了GPU系統(tǒng)的直接增量。
DGX-1的單價(jià)報(bào)價(jià)為129000美元,采用NVIDIA的 P100 SXM2 GPU和V100 SXM2 GPU(包括內(nèi)置雙處理器x86服務(wù)器節(jié)點(diǎn))。雖然這個(gè)價(jià)格適用于一些高性能計(jì)算(HPC)的集體投標(biāo),但它并不適用于典型的云計(jì)算或?qū)W術(shù)界。
像OCP’s HGX-1和Big Basin的量子云技術(shù)(QCT)制造商,原始設(shè)計(jì)制造商(ODM),并未公布定價(jià),NVIDIA P100模塊的價(jià)格從5400美元到9400美元。由于NVIDIA GPU的SXM2 GPUs占據(jù)了HGX-1和Big Basin的大多數(shù)成本,我們認(rèn)為系統(tǒng)的定價(jià)都在50000美元至70000美元(不包括匹配的x86服務(wù)器)。
臉書網(wǎng)的Big Basin性能
臉書網(wǎng)在六月發(fā)表了一篇論文,講述了如何將32 Big Basin系統(tǒng)加載在其內(nèi)部網(wǎng)絡(luò),以實(shí)現(xiàn)256 GPU并訓(xùn)練ResNet-50圖像識別模型在一小時(shí)以內(nèi)達(dá)到約90%縮放效率和72%的精度。
雖然90%的縮放效率是一個(gè)令人印象深刻的成就,但該文中還給出了臉書網(wǎng)的其它幾項(xiàng)挑戰(zhàn)。
8-GPU Big Basin 是實(shí)現(xiàn)NVIDIA NVLink最大增量可能的實(shí)例。即使對于資金充裕的企業(yè)買家,它的價(jià)格依然很高昂。另外,臉譜網(wǎng)的文件沒有提到OCP服務(wù)器機(jī)箱設(shè)計(jì)和處理器模型采用自有基準(zhǔn),然而該處理器可能會(huì)成為一個(gè)爭議:如果你不是一個(gè)云巨頭,購買臉書內(nèi)定的Big Basin或其他OCP服務(wù)器非常困難,而如果使用不匹配的硬件系統(tǒng),效果將會(huì)大打折扣。
臉書網(wǎng)也沒有透露該文中使用的操作系統(tǒng)或開發(fā)工具,因?yàn)槟槙W(wǎng)有自己內(nèi)部的云實(shí)例和開發(fā)環(huán)境,外人一無所知。
最終的結(jié)果是,復(fù)制幾乎是不可能的。
IBM系統(tǒng)中具有四個(gè)GPU
繼臉書網(wǎng)之后,IBM最近也發(fā)表了一篇文章,描述了通過使用于臉書網(wǎng)相同的數(shù)據(jù)集,如何訓(xùn)練Resnet-50模型,在1小時(shí)之內(nèi)達(dá)到95%縮放率和75%的準(zhǔn)確率。有以下幾個(gè)方面值得注意:
1.IBM不但擊敗臉譜網(wǎng)的所有指標(biāo),而且95%是非線性縮放;
2.任何人都可以購買復(fù)制IBM的工作設(shè)備和軟件。設(shè)備、操作系統(tǒng)和開發(fā)環(huán)境,文中均有提到;
3.相對于臉書網(wǎng),IBM使用規(guī)模較小的單位。假設(shè)臉書網(wǎng)使用的標(biāo)準(zhǔn)是雙插孔計(jì)算底盤,IBM只需要一半的GPU,臉書網(wǎng)為4:1的比例,而IBM為2:1的比例。
IBM將OpenPOWER的深度學(xué)習(xí)的參考設(shè)計(jì)與HPC的S822LC供能系統(tǒng)作為賣點(diǎn)。IBM的PowerAI軟件具有超強(qiáng)的深度學(xué)習(xí)系統(tǒng)(DDL),包括IBM-Caffe和“拓?fù)涓兄涣鲌D書館”。
PowerAI DDL特定OpenPower為基礎(chǔ)的系統(tǒng),可以運(yùn)行在類似的POWER9 “Zaius”系統(tǒng)(Zaius是由谷歌和Rackspace公司設(shè)計(jì)),例如Wistron、E4、 Inventec 和 Zoom。
PowerAI DDL能夠?qū)崿F(xiàn)在體積更小、價(jià)格更實(shí)惠和GPU服務(wù)器的基礎(chǔ)上實(shí)現(xiàn)系統(tǒng)增量。它還優(yōu)化了以拓?fù)渚W(wǎng)為基礎(chǔ)的GPU服務(wù)器交流、每個(gè)網(wǎng)絡(luò)鏈路的功能以及DL模型每個(gè)階段的延遲問題。
IBM用64系統(tǒng)和S822LC,每一個(gè)都搭載了4個(gè)NVIDIA Tesla P100 SXM2 GPU和兩個(gè)POWER8處理器,共計(jì)256個(gè)GPU,與臉書網(wǎng)公布的數(shù)量相同,但系統(tǒng)的性能卻高出兩倍,具備更高的縮放效果,這是一個(gè)不小的壯舉。
價(jià)格方面的優(yōu)惠使得學(xué)術(shù)和企業(yè)屆愿意購買一部分IBM的S822LC的系統(tǒng),測試它的軟硬件性能。IBM S822LC的低配價(jià)格為6400美元(無GPU),高配的價(jià)格應(yīng)該在30000美元到50000美元之間(包括雙處理器Power8服務(wù)器節(jié)點(diǎn)),取決于安裝的哪一款P100模型以及其他配置。
戰(zhàn)爭打到一半,答案已見分曉,我們相信IBM的文章和產(chǎn)品的可用性將刺激其他硬件和軟件供應(yīng)商繼續(xù)投入大量DL的開發(fā)工作中。