NVIDIA兩款全新GPU創下新AI推理紀錄:性能超CPU 314倍

            發布時間:2021-04-23 09:35:55  |  來源:雷鋒網  

            時隔半年,MLPerf組織發布最新的MLPerf Inference v1.0結果,V1.0引入了新的功率測量技術、工具和度量標準,以補充性能基準,新指標更容易比較系統的能耗,性能和功耗。

            V1.0版本的基準測試內容云端推理依舊包括推薦系統、自然語言處理、語音識別和醫療影像等一系列工作負載,邊緣AI推理測試則不包括推薦系統。

            所有主要的OEM都提交了MLPerf測試結果,其中,在AI領域占有優勢地位的NVIDIA此次是唯一一家提交了從數據中心到邊緣所有MLPerf基準測試類別數據的公司,并且憑借A100 GPU刷新了紀錄。

            不僅如此,超過一半提交成績的系統都采用了NVIDIA的AI平臺。

            不過,初創公司提交其AI芯片推理性能Benchmark的依舊很少。

            AI推理最高性能半年提升45%

            雷鋒網在MLPerf Inference v0.7結果發布的時候已經介紹過,NVIDIA去年5月發布的安培架構A100 Tensor Core GPU在云端推理的基準測試性能是最先進英特爾CPU的237倍。

            經過半年的優化,NVIDIA又將推薦系統模型DLRM、語音識別模型RNN-T和醫療影像3D U-Net模型的性能進一步提升,提升幅度達最高達45%,與CPU的性能差距也提升至314倍。

            從架構的角度看,GPU架構用于推理優勢并不明顯,但NVIDIA依舊憑借其架構設計配合軟件優化刷新了MLPerf AI云端和邊緣推理的Benchmark紀錄。

            MLPerf的Benchmark證明了A100 GPU性能,但其不菲的售價也是許多公司難以承受的。

            今天,更具性價比的NVIDIAA30(功耗165W)和A10(功耗150W) GPU也在MLPerf Inference v1.0中首秀。

            A30 GPU強于計算,支持廣泛的AI推理和主流企業級計算工作負載,如推薦系統、對話式AI和計算機視覺。

            A10 GPU更側重圖像性能,可加速深度學習推理、交互式渲染、計算機輔助設計和云游戲為混合型AI和圖形工作負載提供支持。可以應用于AI推理和訓練的A30和A10 GPU今年夏天開始會應用于各類服務器中。

            A100云端AI推理性能比CPU高314倍

            A100經過半年的優化,與CPU的性能差距從v0.7時最多237倍的差距增加到了最高314倍。

            具體來看,在數據中心推理的Benchmark中,在離線(Offline)測試,A100比最新發布的A10有1-3倍的性能提升,在服務器(Server)測試中,A100的性能最高是A10的近5倍,在兩種模式下,A30的性能都比A10高。

            值得注意的是,英特爾本月初最新發布的第三代至強可擴展CPU Ice Lake的推理性能相比上一代Cooper Lake在離線測試的ResNet-50和SSD-Large模型下有顯著提升,但相比A100 GPU體現出17-314倍的性能差距。

            高通AI 100的云端AI推理在MLPerf Inference v1.0測試下表現不錯,其提交的離線和服務器測試下的ResNet-50和SSD-Large模型成績顯示,高通AI 100的推理性能均比NVIDIA新推出的A10 GPU高,其它模型的成績高通并未提交。

            從每瓦性能來看,高通A100在提交成績的ResNet-50和SSD-Large模型中比A100更高,但性能比A100低。

            賽靈思的VCK5000 FPGA在圖像分類ResNet-50的測試中表現不錯。

            Jetson系列是唯一提交所有邊緣推理測試成績的芯片

            A系列GPU在云端AI推理的性能優勢可以延續至邊緣端。MLPerf的邊緣AI推理Benchmark分為Single-Stream和Multi-Stream,A100 PCIe、A30、A10在Single-Stream的所有模型下都有顯著的性能優勢,高通A100在ResNet-50模型下也優勢明顯,不過高通也僅提交了這一模型的成績。

            這些產品用于邊緣AI推理有些大材小用,NVIDIA的Jetson家族的AGX Xavier和Xavier NX更適合邊緣場景,根據提交的數據,Centaur公司在ResNet-50模型中優勢明顯,SSD-Small模型下的性能與Jetson Xavier NX性能相當。

            邊緣AI推理的Multi-Stream Benchmark,只有NVIDIA提交了成績,A100 PCIe版本的性能最高是Jetson AGX Xavier和Xavier NX的60倍。

            在NVIDIA此次提交的結果中,多項是基于Triton推理服務器,其支持所有主要框架的模型,可在GPU及CPU上運行,還針對批處理、實時和串流傳輸等不同的查詢類型進行了優化,可簡化在應用中部署AI的復雜性。

            雷鋒網(公眾號:雷鋒網)了解到,在配置相當的情況下,采用Triton的提交結果所達到的性能接近于最優化GPU能夠達到性能的95%,和最優化CPU99%的性能。

            另外,NVIDIA還使用Ampere架構的多實例GPU性能,在單一GPU上使用7個MIG實例,同時運行所有7項MLPerf離線測試,實現了與單一MIG實例獨立運行幾乎完全相同的性能。

            小結

            MLPerf Benchmark結果的持續更新,可以為在IT基礎設施投資的企業提供一些有價值的參考,也能推動AI的應用和普及。

            在這個過程中,軟件對于AI性能的提升非常重要,同樣是A100 GPU,通過有針對性的優化,半年實現了45%的性能提升。

            同時也不難發現,NVIDIA正在通過持續的軟硬件優化,以及更豐富的產品組合,保持其在AI領域的領導力,在AI領域想要超越NVIDIA似乎正在變得越來越難。

            關鍵詞: NVIDIA GPU

             

            關于我們 - 聯系我們 - 版權聲明 - 招聘信息 - 友鏈交換

            2014-2020  電腦商網 版權所有. All Rights Reserved.

            備案號:京ICP備2022022245號-1 未經過本站允許,請勿將本站內容傳播或復制.

            聯系我們:435 226 40@qq.com

            亚洲男同gay片| 亚洲日本人成中文字幕| 亚洲日韩在线中文字幕综合| 亚洲精品中文字幕无乱码麻豆| 亚洲精品中文字幕无码AV| 亚洲综合日韩中文字幕v在线 | 亚洲AV成人一区二区三区在线看 | 精品国产_亚洲人成在线| 亚洲乱色熟女一区二区三区蜜臀| 亚洲日本一线产区和二线| 中文字幕乱码亚洲精品一区| 亚洲熟妇无码一区二区三区 | 狠狠色香婷婷久久亚洲精品| 亚洲视频在线观看2018| 国产亚洲玖玖玖在线观看| 77777亚洲午夜久久多喷| 亚洲永久在线观看| 亚洲一级毛片免费在线观看| 亚洲妇女熟BBW| 亚洲jizzjizz少妇| 午夜亚洲福利在线老司机| 亚洲国产成人久久综合一区77| 亚洲精品麻豆av| 在线观看亚洲天天一三视| 中文字幕亚洲日本岛国片| 久久精品九九亚洲精品天堂| 亚洲另类激情综合偷自拍| 亚洲美女视频网址| ww亚洲ww在线观看国产| 亚洲国产精品18久久久久久| 无码国产亚洲日韩国精品视频一区二区三区| 精品久久久久久亚洲中文字幕| 亚洲精品一级无码中文字幕| 亚洲中文字幕无码久久精品1| 亚洲AV永久无码精品成人| 久久久久亚洲av无码专区导航| 亚洲欧洲精品国产区| 日韩亚洲不卡在线视频中文字幕在线观看| 亚洲久热无码av中文字幕| 在线观看亚洲免费视频| 亚洲无人区午夜福利码高清完整版|