資料分析,包括大資料分析,在企業的業務中,特別是在傳統的商務行業,已有多年的應用實踐,在消費者市場的營銷中已成了必不可缺的技術。隨著工業網際網路和智慧型製造的興起和發展,工業大資料技術也越來越受到各方關注。在「中國製造2025」的技術路線圖中,工業大資料是作為重要突破點來規劃的,而在未來的十年,以資料為核心構建的智慧型化體系會成為支撐智慧型製造和工業網際網路的核心動力。
對製造企業而言,不論是新實施的系統還是老舊系統,要實施大資料分析平台,就需要先弄明白自己到底需要採集哪些資料。因為考慮到資料的採集難度和成本,大資料分析平台並不是對企業所有的資料都進行採集,而是相關的、有直接或者間接聯絡的資料,企業要知道哪些資料是對於戰略性的決策或者一些細節決策有幫助的,分析出來的資料結果是有價值的。
因此,建議企業在進行大資料分析規劃的時候針對乙個專案的目標進行精確的分析,比較容易滿足業務的目標。明確目標以後,就要著手開始蒐集資料並進行預處理了。本期格物匯將跟大家介紹,企業如何實現對工業大資料的預處理。
資料採集
首先我們看看資料是如何獲取的,在現實生活中,我們所面對的問題,往往都是抽象複雜的。我們來看如下兩個例子:
1、如何提公升產品的良率
可能這是製造業最為普遍的乙個問題,如果我們要分析解決這個問題,常常就會問到:什麼產品?有多少條產線在生成?經過了哪些機台?影響產品良率的因素有哪些?我們可能會提出很多很多這樣的問題,解決這些問題需要對相關業務知識非常了解,盡可能多的找出與問題有關的資料。
2、如何進行人臉識別
這問題更加複雜一些,雖然我們每個人的大腦每天都在做人臉識別,但是大腦如何工作的卻異常難懂。我們可能需要做很多科研工作,去挖掘到底哪些資料會影響到人臉識別的正確率。如果這些資料本身沒有,很可能還需要進行測量採集,比如兩眼之間的距離,嘴的寬度和長度等等。當然,我們還會評估採集的成本,並對這些資料有效性進行評估,驗證我們的成本是否值得去花費精力測量。
資料預處理簡介
資料採集以後,資料往往存放在資料庫或檔案系統中,我們需要把他們匯入到演算法模型中進行訓練,得到我們想要的模型。但是我們的資料往往雜亂無章,總的來說,資料一般存在如下幾類問題:
資料型別多種多樣
我們的資料中常常出現字元型,時間型,數字型等多種資料型別。其中:字元型是無法代入模型計算的,所以我們根據需要,可以對字元型資料進行編碼轉換。常用的編碼方法有:
數字編碼:對於有大小比較的字元型資料,可以直接轉換成數字編碼。比如:
onehot編碼:對於沒有大小比較的字元型資料,可以使用onehot獨熱編碼。比如:
時間型別往往是一類特殊的資料,把時間簡單看成乙個實數的話,往往不符合邏輯。對於帶時間的資料,我們通常使用時間序列的分析方法進行分析。有時候我們更加關注的是兩列時間的差值,這時我們可以構建時間差值列作為新的變數加入模型之中。
數字型往往是匯入模型進行訓練的主要部分,數字型又可以細分為離散型和連續型,因為離散與連續的資料分布顯著不同,我們可以對其進行分開處理。數字型之間各個列常存在量綱差異,有的資料可能很大,有的資料可能很小,我們需要去除資料量綱,防止模型對資料較大的列進行偏倚(資料值較大時通常方差也較大)。常用的資料去量綱的方法有最大最小值歸一化法,均值標準差標準化法等等。
資料格式不對
資料中還會出現缺失值,異常值等異常,這些情況也會強烈影響到模型的訓練,我們需要對空值進行補值。如何補值需要我們對資料非常了解,才能推斷出該用什麼值來補值,才不會改變原有的資料分布。一般的補值方法有:0值補值,均值補值,中位數補值,按上乙個數補值,移動平均補值,線性插值,相關列補值法等等,對於缺失值比例較大的列,可以採取直接刪除的方法。異常值則需要建立規則,對異常值進行識別,再用正常的值進行替換,故異常值也有類似於缺失值的替換方法。
企業如何實現對工業大資料的預處理?
資料分析,包括大資料分析,在企業的業務中,特別是在傳統的商務行業,已有多年的應用實踐,在消費者市場的營銷中已成了必不可缺的技術。隨著工業網際網路和智慧型製造的興起和發展,工業大資料技術也越來越受到各方關注。在 中國製造2025 的技術路線圖中,工業大資料是作為重要突破點來規劃的,而在未來的十年,以資...
工業大資料的特徵
定義 工業大資料即工業資料的總和,分成三類,即企業資訊化資料 工業物聯網資料,以及外部跨界資料。空間分布 不僅存在於企業內部,還存在於產業鏈和跨產業鏈的經營主體中,如scm crm。產生主體 人和機器。人產生的資料如 設計資料 業務資料 產品資料。機器資料有生產裝置 生產排程 質量控制與績效資料 和...
工業大資料漫談17 雲計算與工業大資料的關係
前面聊了工業大資料與工業4.0和物聯網 iot 的關係,今天來看看工業大資料和雲計算的關係。雲計算這一概念可以追溯到上個世紀sun和oracle提出的 網路就是計算機 限於當時的網際網路條件等多方面的原因,這一提法後來不了了之。造化弄人,後來當雲計算再次 火 起來的時候,雲計算的鼻祖之一sun卻處境...