電阻儲存器為edge AI提供了仿生架構

2022-02-03 21:35:13 字數 4524 閱讀 9611

電阻儲存器為edge-ai提供了仿生架構

resistive memories enable bio-inspired architectures for edge ai

近年來,腦啟發計算領域的研究活動取得了很大的發展勢頭。其主要原因是人試圖超越傳統von neumann體系結構的侷限性,這種侷限性越來越受到儲存器邏輯通訊頻寬和延遲的限制。在神經形態結構中,儲存是分布的,並且可以與邏輯共同定位。新的電阻儲存器技術可以很容易地提供這種可能性,因為能夠整合在cmos工藝的互連層中。

在傳統的人工智慧技術被廣泛應用於積體電路的實現中,受到了廣泛的關注。雖然先進的標準cmos技術已經被用於開發gpu和特定的電路加速器,但還沒有真正推動使用任何「生物靈感」硬體。新出現的電阻儲存器件(rram)可以通過施加相對較低的偏壓來調節電導,從而在奈米尺度上模擬生物上看似合理的突觸行為,但由於這項技術的(感知)不夠成熟,所開闢的途徑僅限於研究小組。

然而,這些新裝置可以解決將人工智慧大規模部署到消費和工業產品中所面臨的乙個主要問題:能源效率。如果人工智慧的應用越來越廣泛,將所有資料傳輸到雲/伺服器系統進行分析的能源開銷將很快達到人工智慧經濟可行性的極限。此外,對於自動車輛和工業控制等實時系統,如果連線到5g基礎設施以處理資料的伺服器集中在定義明確的區域,而不是分布在基礎設施中,那麼延遲仍然是乙個問題。出於這些原因,在歐洲,出於隱私考慮,具有邊緣/使用點的人工智慧系統將變得越來越重要,高效節能,並可能逐步提高本地學習能力。

嵌入式人工智慧系統非常適合處理需要實時響應的資料,並且在能源是主要問題的情況下。tinyml倡議的成功證明了人對此類系統的興趣正在增長。在處理由麥克風、雷射雷達、超聲波等感測器生成的稀疏、時域資料流時,該領域的生物啟發(即,儲存元件也充當互連和計算元件)方法具有額外的優勢。然後,這些系統將能夠在模擬域中執行大部分操作,通過避免耗電、不必要的多個模擬到數字轉換,以及使用非時鐘、資料驅動的體系結構來簡化資料流。時鐘的缺失和僅在訊號脈衝期間在儲存器元件中的耗散導致在沒有輸入的情況下極低的功耗(因此其適用於稀疏訊號),並且可能不需要特定的睡眠模式來獲得電池供電的操作狀態。此外,非易失性只需要在系統首次通電或最終更新時進行引數設定,而不需要在每次通電時從外部源進行傳輸。

然而,新電阻儲存器的使用不僅限於這種「邊緣」或「生物靈感」的應用,而且也有利於在神經加速器中執行慢非易失性快取/快速大容量儲存中間儲存器電平功能的傳統全數字時鐘系統。在這種情況下,這樣做的好處是減少了快速dram和sram快取區域,同時還減少了訪問大容量儲存的延遲。

hardware platforms for bio-inspired computing

生物啟發計算的硬體平台

從技術角度來看,rram是乙個很好的神經形態應用的候選,因為具有cmos相容性、高擴充套件性、強永續性和良好的保留特性。然而,定義大規模共整合混合神經形態系統(具有電阻儲存突觸的cmos神經元)的實際實現策略和有用的應用仍然是乙個困難的挑戰。

電阻ram(rram)器件如相變儲存器(pcm)、導電橋ram(cbram)和氧化物ram(oxram)被提出來模擬突觸功能的生物學特性,這些特性對於實現神經形態硬體是必不可少的。在不同型別的模擬突觸特徵中,尖峰時間依賴性可塑性(stdp)是最常用的方法之一,但肯定不是唯一的可能性,有些可能在實際應用中更有用。

實現這些想法並驗證方法的電路示例是spirit,ay iedm 2019提出。所實現的snn拓撲是乙個單層的、全連通的拓撲,其目標是在mnist資料庫上執行推理任務,每個類有10個輸出神經元。為了減少突觸的數量,影象縮小到12×12畫素(每個神經元有144個突觸)。突觸是用單級細胞(slc)rram實現的,即只考慮低電阻和高電阻水平。結構為1t-1r型,每個單元有乙個接入電晶體。多個電池併聯連線,以實現不同的重量。在該學習框架上進行的突觸量化實驗表明,在-4到+4之間的整數值是分類精度和rram數之間的乙個很好的折衷。由於目標是獲得加權電流,因此必須使用4 rram作為正權重。對於負權重,符號位也可以使用rram進行編碼:但是,由於需要容錯的三重冗餘,因此最好使用4個附加rram來實現負權重。

「整合與激發(if)」模擬神經元的設計是由數學等價性的需要指導的,tanh啟用函式用於有監督的離線學習。其特徵如下:(1)突觸重量等於±4的刺激必須產生乙個尖峰;(2)神經元必須產生正負尖峰;(3)必須有乙個不應期,在此期間不能發出尖峰,但必須繼續整合。神經元是圍繞乙個mom 200ff電容器構建的。兩個比較器用於比較其電壓電平與正負閾值。由於rram必須在其終端之間的電壓降限制為100mv的情況下讀取,為了防止將裝置設定為lrs,獲得的電流不能被神經元直接積分,而是由電流注入器複製。評估了程式設計條件的影響,並使用適當的程式設計條件來確保足夠大的記憶體視窗。放鬆機制確實出現在很短的時間尺度上(不到乙個小時)。因此,分類精度不會隨著時間的推移而降低。讀取穩定性也得到了驗證,高達800公尺的峰值傳送到電路。

對mnist資料庫的10k測試影象的分類準確率為84%。必須將該值與從88%的理想模擬中獲得的精度進行比較,該精度受簡單網路拓撲結構(1層10個輸出神經元)的限制。每個突觸事件的能量消耗相當於3.6pj。當考慮到電路邏輯和spi介面時,達到了180pj(可以通過優化通訊協議來降低)。測量表明,影象分類平均需要136個輸入峰值(對於δs=10):這小於每個輸入累積的乙個峰值,與130nm節點中等效的形式編碼mac操作相比,能量增益是5倍。能量增益來自於(1)基運算的輕巧性(累加,而不是經典編碼中的乘法累加);(2)尖峰編碼導致的活動稀疏性。稀疏效益隨層數的增加而增加。

這個小的演示程式展示了如何在與傳統的嵌入式方法相同的效能水平上實現效能水平,但功耗卻大大降低。事實上,snn演示中使用的速率碼使得這種實現與經典編碼的實現等效:從經典域到峰值域的轉換不會導致任何精度損失。然而,從這個概念證明中使用的簡單拓撲結構來看,與使用更大網路和更多層的最先進深度學習模型相比,單層感知器解釋的分類精度略低。為了克服這一差異,目前正在實施一種更為複雜的拓撲結構(mobilenet類),分類精度將相應提高,同時具有相同的能量效益。

同樣的方法將擴充套件到嵌入麥克風或雷射雷達的電路中,以本地和實時地分析資料流,從而避免了通過網路傳輸的需要。速率編碼和時間編碼都可以根據訊號的資訊量來優化網路。最初,學習將集中進行,只有推理整合到系統中,但在以後的幾代人中會引入一定程度的增量學習。

另一種利用rram特性有益於嵌入式ai產品的方法是使用基於rram的crossbar陣列的模擬架構。與傳統的數字實現相比,可以提供更密集的乘法器-累加器(mac)功能的實現,在推理和學習電路中都是核心。如果進入時域並消除時鐘的進一步步驟被採取,那麼超越當前技術水平的緊湊型低功耗系統是可以實現的。雖然這種方法非常有前途,學術界也進行了大量的研究,但仍然沒有被業界廣泛接受,這表明了設計、驗證、描述和驗證模擬非同步設計的困難,以及擴充套件模擬解決方案的困難。在看來,所有這些障礙都是可以克服的,有利於極為節能的解決方案。

這些儲存的部分感知困難來自於觀察到的可變性,但那是實驗條件的反射。觀察到在300公釐範圍內操作和整合過程更加成熟時,分布會更好,因此假設在工業化過程中可以解決變異性問題。設計工具也在出現,更精確的模型也逐漸可用。溫度變化當然會產生影響,但這種計算的統計性質及其在推斷階段對某種程度的引數變化的內在穩健性,使其最終影響遠不如社群習慣的傳統模擬設計相關。模擬縱橫制方法的優點之一是,當應用「零」資料時,自動沒有電流。然而,當應用「一」資料時,儲存的「零」值存在洩漏電流貢獻,這會限制橫桿的合理尺寸,並推動研究朝著電阻水平的最佳值方向發展。

有些問題更為根本。第乙個問題是,功耗效率和高並行度來自於時間復用(操作頻率)與面積的權衡:網路大小(問題或類數大小)的限制是什麼?這種權衡是有利的,如何依賴於實現節點?另乙個是這些儲存的迴圈性。雖然對於推理階段來說已經足夠了,並且交叉杆的程式設計可以在初始化階段以可接受的開銷完成,但是由於過度的寫入負載,使用經典反向傳播方案和迭代次數的片上學習是不可能的。然而,使用其學習方法的非常有希望的途徑正在被尋求,並有望在未來幾年內提供有效的解決方案。

在引入這種型別的電路之前,像rram和3d整合這樣的技術可以在傳統的實現中使用,從而以更小的功耗預算和更小的外形因數提供已經存在的解決方案。用於高度定製應用的fpga實現、執行在mcu或cpu上的純軟體實現或專用的高度並行的多核/加速器(類似或類似於gpu的通用應用)是當今的主流。所有這些晶元還可以受益於本地非易失性儲存器的可用性,這可能導致fpga更緊湊、更優化的mcu/cpu和多核/加速器晶元的儲存層次。特別是,使用單片3d整合的專用版本,在模擬神經元平面之間插入rram平面,可以產生更緊湊、功耗更低的系統。

在歐洲h2020計畫neuram3的框架下,研究了這種方法,領導了乙個著名的歐盟研發機構多學科小組,致力於研究先進器件技術、電路結構和演算法之間的最佳匹配,以製造神經形態晶元。在該項目的許多結果中,如下圖所示,可以看到在coolcube 3d單片工藝中製造的oxram示例,該工藝連線到頂部和底部cmos層。向前看,這種技術可以用於在專門用於人工智慧的複雜cmos電路結構中整合非常密集的陣列。

圖. coolcube 3d單片整合oxram內部互連

頂部和底部的cmos層為密集多層神經網路開闢了道路。

3dtsv和3d-by-cu鍵合也有希望具有緊湊的神經形態系統,包括高度整合的體系結構中的各種元件,其中根據應用優化分割槽,或者嵌入ai元件與成像儀或其感測或執行元件緊密耦合。

結論本文綜述了rram在仿生計算系統中的作用,並討論了一些有希望的結果和概念。

JQuery提供了豐富的選擇器

1 基本選擇器 class id 元素等 類選擇器 以class屬性名稱來作為選擇器,以.開頭 如 mydiv div.mydiv 等 id選擇器 以元素的id屬性名稱來作為選擇器,以 開頭 如 mydiv1 btn1 等 標籤元素選擇器 以html標籤元素作為選擇內容的選擇器 如 h3 div p...

伺服器對外提供了哪些資源

文字內容 內容音訊內容 網頁中的資料,也是伺服器對外提供的一種對外提供的資源 各行各業排行榜等。如上圖 都是資料 html是網頁的骨架 css是網頁的顏值 j ascript是網頁的行為 資料則是網頁的靈魂 骨架 顏值 行為皆為資料服務 資料,在網頁中無處不在 資料也是伺服器對外提供的一種資源。只要...

C C 語言為我們提供了三類語句

查閱了c 語言規範之後,得知c 提供了三種型別的語句 標籤語句 宣告語句 嵌入式語句。static void main string args 解析 上面通過乙個例子,簡單認識一下什麼是標籤語句。標籤語句一般搭配goto語句來使用 能夠改變程式執行的邏輯 顧名思義,它可以巢狀在別的語句中使用。嵌入式...