2023年4月,谷歌公布了張量處理器(tpu)的**——tpu 已經在谷歌資料中心內部使用大約四年,而且tpu 在推理方面的效能要遠超過 gpu(「儘管在一些應用上利用率很低,但 tpu 平均比當前的 gpu 或 cpu 快15-30倍,效能功耗比高出約 30~80 倍」)
2023年5月,谷歌在i/o大會上首次公布了tpu(張量處理單元),並且稱這款晶元已經在谷歌資料中心使用了一年之久,李世石大戰 alphago 時,tpu 也在應用之中,並且谷歌將 tpu 稱之為 alphago 擊敗李世石的「秘密**」。
許多架構師認為,現在只有領域定製硬體(domain-specific hardware)能帶來成本、能耗、效能上的重大改進。本研究評估了自2023年以來部署在各資料中心,用於加速神經網路(nn)的推理過程的一種定製 asic 晶元——張量處理器(tpu)。tpu 的核心是乙個65,536的8位矩陣乘單元陣列(matrix multiply unit)和片上28mb的軟體管理儲存器,峰值計算能力為92 teraop/s(tops)。與cpu和gpu由於引入了cache、亂序執行、多執行緒和預取等造成的執行時間不確定相比,tpu 的確定性執行模組能夠滿足 google 神經網路應用上 99% 相應時間需求。cpu/gpu的結構特性對平均吞吐率更有效,而tpu針對響應延遲設計。正是由於缺乏主流的cpu/gpu硬體特性,儘管擁有數量巨大的矩陣乘單元 mac 和極大的偏上儲存,tpu 的晶元相對面積更小,耗能更低。
我們將 tpu 與伺服器級的 intel haswell cpu 和 nvidia k80 gpu 進行比較,這些硬體都在同一時期部署在同個資料中心。測試負載為基於 tensorflow 框架的高階描述,應用於實際產品的 nn 應用程式(mlp,cnn 和 lstm),這些應用代表了我們資料中心承載的95%的 nn 推理需求。儘管在一些應用上利用率很低,但tpu 平均比當前的 gpu 或 cpu 快15-30倍,效能功耗比(tops/watt)高出約 30-80 倍。此外,在 tpu 中採用 gpu 常用的 gddr5 儲存器能使效能tpos指標再高 3 倍,並將能效比指標 tops/watt 提高到 gpu 的 70 倍,cpu 的 200 倍。
谷歌稱 tpu 為張量處理單元,專為 tensorflow 定製設計。**第一代tpu面向推理(第一代 tpu 是專為推理投產乙個定製的asic晶元,並購買市售的gpu用於訓練,因此**中的效能比較也僅限於推理操作。),而第二代的重點是加速訓練。**在tpuv2的核心裡,乙個脈動陣列(systolic array)負責執行矩陣乘法,這在深度學習中被大量使用。
目前,谷歌的cloud tpu正式發布。谷歌tpu終於面向大眾開放。只需要每小時6.5美元,你也有可能用上谷歌tpu。**cloud tpu僅支援tensorflow 1.6版本。**除此之外,你的vm例項上不需要任何驅動程式,因為與tpu進行通訊所需的所有**都由tensorflow本身提供。在tpu上執行的**經過優化,並由xla進行實時編譯,xla也是tensorflow的一部分。
張量處理單元 TPU
2017年,谷歌對外宣布了乙個張量處理單元 也就是tpu 專門為機器學習而構建的定製應用專用積體電路 asic 一年後,tpu被轉移到雲端,並開放供商業使用。張量處理器 tpu 遵循cpu和gpu的路線,是google定製開發的特定於應用程式的積體電路 asic 旨在加速機器學習的工作量,專為谷歌的...
物理處理器與邏輯處理器
記錄解決方案,自己實際處理過,方案可用,在自己的部落格中記錄一下。cpu central processing unit 是 處理單元,本文介紹物理cpu,物理cpu核心,邏輯cpu,以及他們三者之間的關係。乙個物理cpu可以有1個或者多個物理核心,乙個物理核心可以作為1個或者2個邏輯cpu。物理c...
處理器核心
處理器核心 cache 寫緩衝器 主存 輔助儲存器 寫操作,對核心而言非迫切,所以加乙個寫緩衝器很好。cache可放在處理器核心與mmu之間 邏輯 cache,主流 也可放在mmu與主存之間 物理 cache 對儲存器中相同或相鄰資料和 的反覆使用,是cache改善效能的主要原因。cache同時使用...