最強TPU!谷歌新一代AI芯片TPU v4正式登場:單個Pod性能碾壓世界第一

            發布時間:2021-05-20 09:04:26  |  來源:雷鋒網  

            谷歌 I/O 開發者大會去年因為疫情而取消,今年采取線上形式強勢回歸。在沒有開發者在場的谷歌園區內,谷歌 CEO 桑達爾?皮查伊(Sundar Pichai)宣布推出多項全新技術,除了能夠幫助用戶實現“空間瞬移”的全息視頻聊天技術 Project Starling 讓人耳目一新,還有最新一代 AI 芯片 TPU v4。

            “這是我們在 谷歌 上部署的最快的系統,對我們來說是一個具有歷史意義的里程碑。”皮查伊這樣介紹到。

            最強 TPU,速度提升 2 倍,性能提升 10 倍

            谷歌官方介紹,在相同的 64 芯片規模下,不考慮軟件帶來的改善,TPU v4 相較于上一代 TPU v3 性能平均提升 2.7 倍。

            在實際應用中,TPU v4 主要與 Pod 相連發揮作用,每一個 TPU v4 Pod 中有 4096 個 TPU v4 單芯片,得益于其獨特的互連技術,能夠將數百個獨立的處理器轉變為一個系統,互連帶寬在規模上是其他任何網絡技術的 10 倍,每一個 TPU v4 Pod 就能達到 1 exaFlOP 級的算力,實現每秒 10 的 18 次方浮點運算。這甚至是全球最快的超級計算機“富岳”的兩倍性能。

            “如果現在有 1 千萬人同時使用筆記本電腦,所有這些計算機累加的計算能力,剛好就能夠達到 1 exaFLOP 的算力。而之前要達到 1 exaFLOP,可能需要專門定制一個超級計算機。”皮查伊如是說。

            今年的 MLPerf 結果表明,谷歌 TPU v4 的實力不容小覷,在使用 ImageNet 數據集的圖像分類訓練測試(準確度至少 75.90%),256 個 TPU v4 在 1.82 分鐘內完成了這一任務,這幾乎與 768 個 Nvidia A100 圖形卡、192 個 AMD Epyc 7742 內核(1.06 分鐘)、512 個華為 AI 優化的 Ascend910 芯片以及 128 個英特爾 Xeon Platinum 8168 內核(1.56 分鐘)組合在一起的速度一樣快。

            當負責在大型維基百科語料庫上訓練基于 Transform 的閱讀理解 BERT 模型時,TPU v4 的得分也很高。使用 256 個 TPU v4 進行訓練需要 1.82 分鐘,比使用 4096 TPU v3 進行訓練所需的 0.39 分鐘要慢 1 分多鐘。同時,如果想要使用 Nvidia 的硬件達到 0.81 分鐘的訓練時間,需要 2048 張 A100 卡和 512 個 AMD Epyc 7742 CPU 內核。

            谷歌 同樣在 I/O 大會上展示了能夠用到 TPU v4 的具體 AI 實例,包括能夠同時處理網頁、圖像等多種數據的 MUM 模型(Multitask Unified Model,多任務統一模型)和專為對話打造的 LaMDA 都是能夠用到 TPU v4 的場景模型,前者比閱讀理解模型 BERT 強 1000 倍,適合賦能搜索引擎幫助用戶更加高效地得到自己想要的信息,后者則可以與人類進行不間斷的對話交流。

            這一并不向外出售的 TPU,很快將在被部署在谷歌的數據中心,且 90% 左右的 TPU v4 Pod 都將使用綠色能源。另外,谷歌也表示,將在今年晚些時候開放給谷歌 Cloud 的客戶。

            谷歌 自研 TPU,五年更新四代

            谷歌 最早于 2016 年宣布首款內部定制的 AI 芯片,區別于訓練和部署 AI 模型的最常見的組合架構,即 CPU 和 GPU 組合,第一代 TPU 在那場世界著名的人機圍棋大戰助力 AlphaGo 打敗李世石“一戰成名”,宣告并不是只有 GPU 才能做訓練和推理。

            谷歌 第一代 TPU 采用 28nm 工藝制程,功耗大約 40w,僅適用于深度學習推理,除了 AlphaGo,也用在谷歌搜索、翻譯等機器學習模型中。

            2017 年 5 月,谷歌發布了能夠實現機器學習模型訓練和推理的 TPU v2,達到 180TFLOPs 浮點運算能力,同時內存帶寬也得以提升,比同期推出的 CPU AI 工作負載提升 30 倍,比 GPU AI 工作負載提升 15 倍,被基于 4 塊 TPU v2 的 AlphaGo 擊敗的世界圍棋冠軍柯潔最直觀地感受了這一切。

            2018 年 5 月,谷歌又發布第三代 TPU,性能是上一代 TPU 的兩倍,實現 420TFLOPs 浮點運算,以及 128GB 的高帶寬內存。

            按照一年一次迭代更新的節奏,谷歌理應在 2019 年推出第四代 TPU,不過這一年的 I/O 大會上,谷歌推出的是第二代和第三代 TPU Pod,可以配置超過 1000 顆 TPU,大大縮短了在進行復雜的模型訓練時所需耗費的時間。

            在 AI 芯片發展史上,無論是從片上內存上,還是從可編程能力來看,谷歌 TPU 都是不可多得的技術創新,打破 GPU 的“壟斷”地位,且打開云端 AI 芯片的新競爭格局。

            發展五年的谷歌 TPU 在今天依然保持著強勁的競爭力,未來的世界是什么樣的?谷歌 TPU 已經告訴了我們一小部分答案。

            關鍵詞: 谷歌 AI芯片

             

            關于我們 - 聯系我們 - 版權聲明 - 招聘信息 - 友鏈交換

            2014-2020  電腦商網 版權所有. All Rights Reserved.

            備案號:京ICP備2022022245號-1 未經過本站允許,請勿將本站內容傳播或復制.

            聯系我們:435 226 40@qq.com

            亚洲伊人久久综合影院| 在线看亚洲十八禁网站| 亚洲国产婷婷综合在线精品 | 亚洲AV无码一区二区三区电影| 亚洲成A人片在线播放器| 亚洲中文字幕无码一去台湾| 亚洲伦理一二三四| 亚洲偷偷自拍高清| 亚洲美国产亚洲AV| 国产精品亚洲专区无码唯爱网| 亚洲av无码成人精品国产| 精品国产亚洲第一区二区三区| 亚洲av无码专区在线观看亚| 亚洲av成人一区二区三区观看在线| 亚洲高清一区二区三区电影| 18禁亚洲深夜福利人口| 亚洲国产精品日韩| 亚洲日韩国产精品第一页一区| 亚洲精品二区国产综合野狼| 亚洲AV综合色区无码一区| 亚洲精品天天影视综合网| 亚洲香蕉免费有线视频| 亚洲免费中文字幕| 亚洲日韩中文字幕一区| 久久亚洲精品11p| 亚洲精品无码你懂的网站| 久久影视国产亚洲| 亚洲爆乳精品无码一区二区三区| 亚洲精品自产拍在线观看动漫| 亚洲视频国产精品| 亚洲va久久久久| 最新亚洲人成网站在线观看| 亚洲日本中文字幕一区二区三区| 亚洲色爱图小说专区| 亚洲精品国产成人99久久| 亚洲国产成人无码av在线播放| 亚洲一区二区观看播放| 国产亚洲Av综合人人澡精品| 亚洲精品无码日韩国产不卡?V| 亚洲va久久久噜噜噜久久| 亚洲精品自拍视频|