隨著計算能力的提公升和資料量的積累,近年來人工智慧開始真正進入了人們的生活,開始與各行業應用融合,並讓原有的應用更高效、更智慧型。有人甚至揚言,人工智慧在不遠的將來將會取代一部分人的工作。其實,目前來看,人工智慧在現階段的主要目標是把人們從重複性、可量化的工作中解放出來,類似於機器代替人手,只不過這次技術變革是將人腦從簡單重複工作中釋放。
人工智慧讓機器也成為"老師"
機器已經可以輕鬆識別手寫字型
讓機器能夠快速、準確的回答問題需要幾步?首先,機器需要認字,不僅是漢字,還包括英文本母、英文單詞、數學中常用的符號等;其次,機器在看到文字之後能夠快速的識別、辨認,並將題目轉化為可以被機器匹配的資料;最後將這部分資料與後台海量的資料庫進行匹配,找到其中的完美匹配項,並將這個匹配項所對應的答案進行輸出。從中可以看出,機器的認字和識別,正是人工智慧應用中最常被用到的影象識別的一種,前者需要通過數以億計的樣本訓練來建立相應的模型,而後者則是根據模型定義的特徵識別出文字、符號。
由於每個人的手寫習慣不同,識別手寫體成為了影象預處理和切分之後首先要面臨的挑戰,通過大量的樣本找到手寫習慣的共同特徵,如習慣向右傾斜著寫或者中文之間沒有空格等。更複雜的是數學題的識別,因為數學題目中有大量的複雜公式需要識別,比如根號、分式、上下標的各種組合。這不僅要進行正確的切分,還需要有合理的匹配識別。解決以上兩個問題都需要用到深度學習,通過構建卷積神經網路或者遞迴神經網路,將大量的資料來源通過神經網路法計算之後得到符合需求的模型,為最終的使用提供服務。
浪潮nf5568m4 gpu伺服器
由於手寫字型差異極大,需要大量的模型訓練任務,因此"小猿搜題"的技術團隊選擇浪潮nf5568m4 gpu伺服器來加速業務的快速上線。浪潮nf5568m4採用intel最新haswell處理器與gpu加速計算技術的協同,cpu主要承擔其更擅長的邏輯選擇、判斷跳轉和io通訊方面的職責,而gpu則專職計算密集型、高度並行的計算工作,使得計算資源合理的分配,計算力被充分釋放,計算效能達到從幾倍到幾十倍的增長。nf5568m4在4u空間內配備雙路e5-2600v4cpu和4塊gpu卡,單機最高單精度浮點計算能力可達每秒40萬億次,將能極大的提公升"小猿搜題"海量樣本的處理效率。
而在儲存方面,gpu計算每天會產生大量的資料,所以儲存空間需要保證單機10tb以上。但是由於這部分資料資料屬於緩慢寫入,並不需要太高的io,所以採用大容量sata硬碟來支援就足夠滿足。nf5568m4支援8塊3.5寸硬碟,並通過配置高速的陣列卡,使計算集群擁有500mb/s左右的io吞吐,足以滿足"小猿搜題"線下模型訓練應用需求。
原文發布時間為:
2023年5月18日