基於大資料的工業感知和網路控制技術綜述

2021-08-09 17:25:06 字數 3664 閱讀 4116

1工業感知和網路控制

隨著物聯網技術的發展,工業感知技術也不斷進行進步,物聯網包含感知層、網路層、應用層,所謂工業感知和網路控制,就是在工業生產過程中通過各種感測器對各個工業環節進行監測,獲取資料,再通過區域網路將資料傳輸到應用端進行處理分析,最後對生產環節的優劣進行判斷,最後做出決策,將動作施加在這些過程中,形成閉環系統對整個過程進行控制。控制網路(control network)是乙個能夠監控、感測和控制或能夠控制環境為目的的網路節點的集合,這些生產裝置終端就是乙個具有控制功能的節點。數以萬計的控制網路已經存在於我們每天的生活中,包括汽車、冰箱、交通燈控制、城市照明系統和工廠的地板。一些控制網路中的節點包含三個在一起的處理器:兩個負責在網路內轉移資料,乙個負責處理這個節點的程式。這種模組化使控制網路的成本變得便宜,並且很容易更換新處理器。控制網路越來越多的成為不用定製的軟硬體元件。

圖1 分布式網路控制框圖

2什麼是大資料

目前所謂的大資料,還只是停留在乙個概念階段,大資料是指具有數量大(volume)、利用價值高(value)、多樣性豐富(variety)、運算速度快能滿足實時資料分析需求(velocity)的資料。其實,我們也不必糾結於其概念,當德國提出工業4.0的時候,我國也提出了智慧型製造2025,這就要求我們要用更好的方法,譬如統計學方法、機器學習演算法、雲計算分布式的運算結構,來分析、利用資料,挖掘這些資料所能帶來的價值。

3大資料下資料處理方案

工業感知需要資料建模與資料分析技術,對於資料的預處理,一般有異常值處理、非結構化資料結構化,異常值挑選包括平均值法、中值法、3法,資料結構化包括各種編碼技術、模擬值轉數字值等。資料處理也包含基於統計學方法和機器學習方法,一些統計學方法包括:互動性分析、多元線性回歸、引數檢驗(t檢驗等)、非引數檢驗,對資料進行降維處理等。基於機器學習模型的資料訓練方法有:樸素貝葉斯分類器、支援向量機、人工神經網路等(ann)。gpu硬體的支援使得神經網路的發展有了物質支撐,深度學習雲計算也逐漸興起,基於深度學習進行特徵提取讓大資料處理免去了很多繁雜的演算法,但其網路結構的不可解釋性也為繼續研究帶來了障礙。

4大資料下的機器學習演算法

由於大資料的海量、複雜多樣、變化快的特性,對於大資料環境下的應用問題,由於現有的許多機器學習演算法是基於記憶體的,大資料卻無法裝載進計算機記憶體,故現有的諸多演算法不能處理大資料。

4.1大資料分治策略與抽樣

分治策略是一種處理大資料問題的計算範例,尤其是近來在分布式和平行計算有很大發展的情況下,分治策略顯得尤為重要。

一般來說,資料樣本中存在一定程度的雜訊,降低儲存效率和學習演算法執行效率,同時影響學習精度,故可以選擇代表性樣本形成原樣本空間的乙個子集,之後在這個子集上構造學習方法,完成學習任務。同樣,重複這樣的步驟,最後當新加入乙個測試例項時,使用壓縮最近鄰(condensed nearest neighbor,cnn)、約減最近鄰(reduced nearest neighbor,rnn)、編輯最近鄰(edited nearest neighbor,enn)等進行鄰近樣本匹配,從而得到分類結果。

4.2大資料特徵選擇

大資料資料量大,需要進行一定的特徵選擇,以減少運算負擔,剔除無關屬性,可增加任務的有效性。張量(如多維陣列)表示法提供一種大資料的自然表示. 故張量分解成為一種重要的彙總和分析工具。kol-da提出一種記憶體使用高效的tucker分解方法(memory- efficient tucker decomposition,met), 用於解決傳統的張量分解演算法無法解決的時間和空間利用問題。met在分解的過程中基於可用記憶體自適應選擇正確的執行策略。該演算法在利用可用記憶體的前提下最大化計算速度。met避免處理在計算過程中產生的大量的零星中間結果,自適應選擇操作順序,不僅消除中間溢位問題,而且在不減少精確度的前提下節省記憶體。除此之外,還有正則化核估計(regularized kernel estimation,rke)和魯棒流形展開(robust manifold unfolding,rmu). 這些方法使用訓練集中物件之間相異的資訊,得到乙個非負的低階正定矩陣,用於將物件嵌入到乙個低維歐幾里德空間,其座標可被用作各種學習模式中的屬性。

常見的三種主流降維方法還包括svd、rp和pca。其中pca(主成分分析)的操作步驟為:求取協方差矩陣、對協方差矩陣進行svd或特徵值分解,得到最大的k個特徵值和對應的特徵向量,特徵值和對應特徵向量的組合即為降維結果,利用方差貢獻率可以得到線性組合能夠解釋原有矩陣的百分比。

4.3大資料分類

傳統的支援向量機就是首先選擇乙個核函式(kernel function),然後,通過用核函式定義的對映將輸入空間對映到乙個特徵空間,在這個特徵空間中求最優分類超平面,即最大間隔超平面。如圖 所示,svm分類函式形式上類似於乙個神經網路,輸出是中間節點的線性組合,每個中間節點對應乙個支援向量。

圖2  svm最優超平面示意圖

對於線性可分的情況,支援向量機是從所有的分類超平面中,尋找乙個最優的分類超平面,如上圖4所示,h為超平面集合中的乙個元素。h1與h2分別為過各類樣本中離分類超平面最近的資料向量且平行於分類超平面的超平面,它們兩個之間的距離叫做分類空隙或分類間隔。最優超平面就是找到乙個超平面h使得分類間隔最大,從而使學習器具有較強的推廣能力。

除此之外,也有決策樹分類、神經網路與極端學習機等分類方法。

4.4大資料聚類

文章中上述演算法均介紹的為有監督的學習方法,在工業中有時資料量大、資料難以快速分類,所以可採用聚類的方式,將相似的樣本暫且歸為一類,或作為相似樣本分析,聚類依據的是特徵的距離。為解決大規模資料分析難題,基於mapreduce的k- means演算法,在speedup、sizeup、scaleup這3個指標上獲得較好的並行效能。一種利用mapreduce模型實現協同聚類(co-clustering)的系統框架——分布式協同聚類框架(distributed co- clustering,disco),並引入分布式資料預處理、協同聚類等方法,在hadoop上實現該系統。實驗結果證明disco具有良好的可擴充套件性、高執行效率,能處理幾百gb資料。

5資料應用例項——erp系統

erp系統是企業資源計畫(enterprise resource planning )的簡稱,是指建立在資訊科技基礎上,集資訊科技與先進管理思想於一身,以系統化的管理思想,為企業員工及決策層提供決策手段的管理平台。它是從mrp(物料需求計畫)發展而來的新一代整合化管理資訊系統,它擴充套件了mrp的功能,其核心思想是**鏈管理。

erp系統依託資料庫管理技術,將企業中在生產、物流、銷售、售後等方方面面的資訊儲存到系統中,然後利用統計學的手段進行分析,探索如何從**鏈範圍去優化企業的資源,優化了現代企業的執行模式,反映了市場對企業合理調配資源的要求。它對於改善企業業務流程、提高企業核心競爭力具有顯著作用。

借用這些資料,合理分析使用者需求,優化自身產品,尋找對應的使用者群和潛在使用者,進一步擴大業務範圍。

圖3  erp系統流程圖

6總 結

在計算機技術、物聯網技術的支援下,大資料的利用率將越來越高,隨著機器學習和深度神經網路的興起,最新的演算法和數學理論為生產、銷售提供決策支撐,工業生產與**鏈管理會越來越完善,在生產中對生產環節進行決策把控,在銷售中進行改良產品、推薦潛在使用者。另外,對於感測和控制節點,如何減少耗能增加節點壽命也是一大難題,可以研發高效率的電池,優化網路拓撲結構減少通訊耗能,對網路進行分簇管理等。

工業大資料的特徵

定義 工業大資料即工業資料的總和,分成三類,即企業資訊化資料 工業物聯網資料,以及外部跨界資料。空間分布 不僅存在於企業內部,還存在於產業鏈和跨產業鏈的經營主體中,如scm crm。產生主體 人和機器。人產生的資料如 設計資料 業務資料 產品資料。機器資料有生產裝置 生產排程 質量控制與績效資料 和...

銳捷網路 讓「店商」感知「大資料」的力量

日前,第八屆移動網際網路國際研討會 imic 在北京國際會議中心隆重舉行,本次大會以 4g移動網際網路時代的創新與變革 為主題,來自業內的專家學者和企業代表一同分析了4g網路技術及未來發展趨勢中的熱點問題。作為中國網路解決方案領導品牌,銳捷網路在 lte時代的多樣化終端分論壇 上,以 感知終端,丈量...

基於SDN,NFV的服務感知網路架構下篇

本篇文章是繼 基於sdn,nfv的服務感知網路架構上篇 對dpi進行進一步的深入解析,分析了在sdn中可能出現的三種部署情況,對第4 7層的業務需求以及業務感知網路架構作了乙個深入的介紹。在sdn網路中部署dpi sdn架構包括四個或者更多的層次,包括業務流層,業務應用層,控制層和節點層。下圖表示了...