您的位置:首頁 >  新聞中心 > 云通訊公告
  云通訊公告
 

IBM與英偉達持續(xù)發(fā)力,開發(fā)最新AI強大處理器

來源:原創(chuàng)    時間:2017-10-31    瀏覽:0 次

像2000年初的服務器市場一樣,具有加速深度學習(DL)訓練功能的GPU、TPU、FPGA以及其他加速器應用還處于初期階段。DL訓練使高級模式的現(xiàn)代人工智能(AI)識別成為可能。
 
盡管IBM不久前在DL加速方面做出了重要貢獻,NVIDIA GPU已經(jīng)為數(shù)字圖書館的發(fā)展和商業(yè)化的主要驅(qū)動力。對于IBM在AI應用方面做出的貢獻,下面將一一說明。
 
推理擴展
 
經(jīng)過訓練的DL模型將會簡化并做出更快的處理,具有強大的模式識別能力以創(chuàng)造有利的服務。推理可以擴展為單個小任務在多個廉價的服務器上運行。有很多行業(yè)投資旨在降低推理成本,我們將在以后討論這個問題。
已被擴大的規(guī)模,是創(chuàng)建可部署推理模型面臨的直接挑戰(zhàn)。訓練需要大量的數(shù)據(jù)集和超高數(shù)值精度;需要有侵略性的系統(tǒng)設計來滿足真實的訓練時間和精度,相反,云經(jīng)濟是由規(guī)模驅(qū)動的。
 
云計算公司部署基于DL的AI服務,面臨的挑戰(zhàn)自于微軟Cortana、亞馬遜的Alexa和谷歌之家。主要是由于DL加速的不成熟導致其在競爭上處于劣勢,這也迫使服務供應商在研究和開發(fā)(研發(fā))、工程和部署專有的擴展系統(tǒng)上投資(合計)上億美元。
 
NVLink在8 GPU規(guī)模的增量
 
GPU的不斷升級是DL在最近幾年的成功的一個關鍵原因。通用處理器在處理大型數(shù)學數(shù)據(jù)集的DL數(shù)學時仍然速度太慢。早期,NVIDIA公司投資利用DL加速GPU,在新的GPU架構(gòu)進一步加快DL和DL軟件開發(fā)工具可以輕松實現(xiàn)GPU加速。
 
 
 
NVIDIA的GPU加速戰(zhàn)略的一個重要部分是NVLink。NVLink從GPU到GPU并直接連接到8 GPU實現(xiàn)高速規(guī)模增量。NVLink使得GPU處理器實現(xiàn)在最小的干預下進行訓練。在NVLink之前,GPU沒有低延遲互連、數(shù)據(jù)流控制的復雜性,或統(tǒng)一的內(nèi)存空間。NVDIA將替代PCLe ,通過SXM2與NVLink融合。
 
NVIDIA的 DGX-1、微軟的開放計算項目(OCP)項目奧林巴斯HGX-1 GPU和臉書網(wǎng)的“Big Basin”對OCP的貢獻有著相似之處,每一家都是8 NVIDIA Tesla SXM2 GPU。DGX-1的設計點位于底盤的雙處理器的x86服務器節(jié)點,而HGX-1的設計必須搭配獨立服務器機箱。
 
通過PCIe交換芯片連接四NVLink域四個服務器節(jié)點,微軟的HGX-1可搭載4個GPU。HGX-1’s 32-GPU的設計限制了GPU系統(tǒng)的直接增量。
 
DGX-1的單價報價為129000美元,采用NVIDIA的 P100 SXM2 GPU和V100 SXM2 GPU(包括內(nèi)置雙處理器x86服務器節(jié)點)。雖然這個價格適用于一些高性能計算(HPC)的集體投標,但它并不適用于典型的云計算或?qū)W術界。
 
像OCP’s HGX-1和Big Basin的量子云技術(QCT)制造商,原始設計制造商(ODM),并未公布定價,NVIDIA P100模塊的價格從5400美元到9400美元。由于NVIDIA GPU的SXM2 GPUs占據(jù)了HGX-1和Big Basin的大多數(shù)成本,我們認為系統(tǒng)的定價都在50000美元至70000美元(不包括匹配的x86服務器)。
 
臉書網(wǎng)的Big Basin性能
 
臉書網(wǎng)在六月發(fā)表了一篇論文,講述了如何將32 Big Basin系統(tǒng)加載在其內(nèi)部網(wǎng)絡,以實現(xiàn)256 GPU并訓練ResNet-50圖像識別模型在一小時以內(nèi)達到約90%縮放效率和72%的精度。
 
 
雖然90%的縮放效率是一個令人印象深刻的成就,但該文中還給出了臉書網(wǎng)的其它幾項挑戰(zhàn)。
 
8-GPU Big Basin 是實現(xiàn)NVIDIA NVLink最大增量可能的實例。即使對于資金充裕的企業(yè)買家,它的價格依然很高昂。另外,臉譜網(wǎng)的文件沒有提到OCP服務器機箱設計和處理器模型采用自有基準,然而該處理器可能會成為一個爭議:如果你不是一個云巨頭,購買臉書內(nèi)定的Big Basin或其他OCP服務器非常困難,而如果使用不匹配的硬件系統(tǒng),效果將會大打折扣。
 
臉書網(wǎng)也沒有透露該文中使用的操作系統(tǒng)或開發(fā)工具,因為臉書網(wǎng)有自己內(nèi)部的云實例和開發(fā)環(huán)境,外人一無所知。
 
最終的結(jié)果是,復制幾乎是不可能的。
 
IBM系統(tǒng)中具有四個GPU
 
繼臉書網(wǎng)之后,IBM最近也發(fā)表了一篇文章,描述了通過使用于臉書網(wǎng)相同的數(shù)據(jù)集,如何訓練Resnet-50模型,在1小時之內(nèi)達到95%縮放率和75%的準確率。有以下幾個方面值得注意:
 
1.IBM不但擊敗臉譜網(wǎng)的所有指標,而且95%是非線性縮放;
 
2.任何人都可以購買復制IBM的工作設備和軟件。設備、操作系統(tǒng)和開發(fā)環(huán)境,文中均有提到;
 
3.相對于臉書網(wǎng),IBM使用規(guī)模較小的單位。假設臉書網(wǎng)使用的標準是雙插孔計算底盤,IBM只需要一半的GPU,臉書網(wǎng)為4:1的比例,而IBM為2:1的比例。
 
IBM將OpenPOWER的深度學習的參考設計與HPC的S822LC供能系統(tǒng)作為賣點。IBM的PowerAI軟件具有超強的深度學習系統(tǒng)(DDL),包括IBM-Caffe和“拓撲感知交流圖書館”。
 
PowerAI DDL特定OpenPower為基礎的系統(tǒng),可以運行在類似的POWER9 “Zaius”系統(tǒng)(Zaius是由谷歌和Rackspace公司設計),例如Wistron、E4、 Inventec 和 Zoom。
 
PowerAI DDL能夠?qū)崿F(xiàn)在體積更小、價格更實惠和GPU服務器的基礎上實現(xiàn)系統(tǒng)增量。它還優(yōu)化了以拓撲網(wǎng)為基礎的GPU服務器交流、每個網(wǎng)絡鏈路的功能以及DL模型每個階段的延遲問題。
 
IBM用64系統(tǒng)和S822LC,每一個都搭載了4個NVIDIA Tesla P100 SXM2 GPU和兩個POWER8處理器,共計256個GPU,與臉書網(wǎng)公布的數(shù)量相同,但系統(tǒng)的性能卻高出兩倍,具備更高的縮放效果,這是一個不小的壯舉。
 
 
 
價格方面的優(yōu)惠使得學術和企業(yè)屆愿意購買一部分IBM的S822LC的系統(tǒng),測試它的軟硬件性能。IBM S822LC的低配價格為6400美元(無GPU),高配的價格應該在30000美元到50000美元之間(包括雙處理器Power8服務器節(jié)點),取決于安裝的哪一款P100模型以及其他配置。
 
戰(zhàn)爭打到一半,答案已見分曉,我們相信IBM的文章和產(chǎn)品的可用性將刺激其他硬件和軟件供應商繼續(xù)投入大量DL的開發(fā)工作中。


免费视频观无码一区,国内精品一区二区无码,99精品无码视频在线播放,ā片国产在线播放