AMD的UVD3硬件解碼技術(shù)_CPUCPU評(píng)測(cè)
我們面臨的最艱巨的難題需要無限的計(jì)算動(dòng)力
更智能的醫(yī)療
人們需要完成計(jì)算量極其繁重的研究工作才能開發(fā)出更好的抗癌藥物
更清潔的能源
能源行業(yè)利用GPU加速的威力來設(shè)計(jì)更清潔、更高效的燃料
更現(xiàn)代的AI
越來越復(fù)雜,包含數(shù)萬億個(gè)連接的神經(jīng)網(wǎng)絡(luò)能夠帶來更深刻的理解
傳統(tǒng)數(shù)據(jù)中心
針對(duì)計(jì)算需求有限的事務(wù)性任務(wù)而打造
采用多臺(tái)與復(fù)雜網(wǎng)絡(luò)基礎(chǔ)設(shè)施互聯(lián)的市售服務(wù)器
新型數(shù)據(jù)中心
專為計(jì)算需求無止境的任務(wù)而設(shè)計(jì)
采用數(shù)量更少、速度超快、性能堪比數(shù)千臺(tái)市售服務(wù)器的節(jié)點(diǎn)來簡(jiǎn)化網(wǎng)絡(luò)基礎(chǔ)設(shè)施
應(yīng)用性能:計(jì)算vs通信
網(wǎng)絡(luò)延遲所耽誤的時(shí)間以及復(fù)雜網(wǎng)絡(luò)基礎(chǔ) 設(shè)施上的通信能耗會(huì)造成性能效率底下
消除瓶頸可以節(jié)省時(shí)間和能耗。完成任務(wù) 所用的時(shí)間得到大幅縮短
P4 vs P40 vs P100
P4專注于提高CPU的推理,也就是邏輯運(yùn)算效率
單精度浮點(diǎn)為5.5 TeraFLOPS
INT8指標(biāo)為22 TOPS
內(nèi)置8GB GDDR5顯存
2560 CUDA核心
支持192 GBPs帶寬
集成72 億個(gè)晶體管
NVIDIA 稱 P4 性能是 M4 的四倍,主要負(fù)責(zé)圖像、文字和語音識(shí)別
P40 專注于提高 CPU 的推理,也就是邏輯運(yùn)算效率??蓪?CPU 推理加速40倍。
單精度浮點(diǎn)為12 TeraFLOPS
INT8指標(biāo)(衡量深度學(xué)習(xí))為47 TOPS
內(nèi)置24GB GDDR5顯存
3840 CUDA核心
346 GBps帶寬
集成120 億個(gè)晶體管
NVIDIA 稱 P40 性能是 M40 的四倍,主要負(fù)責(zé)圖像、文字和語音識(shí)別
P100專注于加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度
12倍訓(xùn)練性能 全新NVIDIA PASCAL 架構(gòu)帶來了神經(jīng)網(wǎng)絡(luò)訓(xùn)練性能的巨大飛躍
1500億個(gè)晶體管 16納米 FINFET 制造工藝可帶來史無前例的節(jié)能性
3倍內(nèi)存帶寬 采用包含HBM2的CoWoS技術(shù),內(nèi)存帶寬高達(dá)NVIDIA MAXWELL架構(gòu)的3倍,適合處理大數(shù)據(jù)任務(wù)
5倍互聯(lián)帶寬 NVIDIA NVLink技術(shù)可最大限度提升應(yīng)用擴(kuò)展能力
21 TFLOPS半精度 全新人工智能在深度學(xué)習(xí)方面的峰值性能
之前,黃仁勛著重表示:
P4 專為加速1U OCP服務(wù)器而設(shè)計(jì),功率僅為50W
P40 專為最大吞吐量而設(shè)計(jì),能將CPU推理加速 40 倍
Tesla P100 與 P4/P40 將在深度學(xué)習(xí)的訓(xùn)練和推理兩端,為數(shù)據(jù)中心帶來端到端的深度學(xué)習(xí)平臺(tái)。
NVIDIA在人工智能領(lǐng)域已經(jīng)形成了以Tesla P100和DGX-1為核心的訓(xùn)練系統(tǒng)
以P4/P40和Tensor-RT為核心的數(shù)據(jù)中心推理系統(tǒng)
以DRIVE PX 2與Driveworks為核心的智能駕駛體系
通過全面布局構(gòu)建了端到端的深度學(xué)習(xí)平臺(tái)。
你要解決那兒些難題?
關(guān)注CUDATEK
立即探索GPU加速領(lǐng)域中的最新突破
以幫助你更快實(shí)現(xiàn)研究成果
取得更多發(fā)現(xiàn)
解決更多難題
轉(zhuǎn)載請(qǐng)注明來自夕逆IT,本文標(biāo)題:《AMD的UVD3硬件解碼技術(shù)_CPUCPU評(píng)測(cè)》

還沒有評(píng)論,來說兩句吧...