步驟:1、資料準備
2、選擇演算法
3、程式設計建模
4、分析結果
5、評價
目錄
一、資料準備
二、選擇演算法
三、程式設計建模
四、分析結果
五、評價
本次案例的資料來源是極板車間6月份所有開機的塗板機oee報表,將其彙總整理後成如下**,如下截圖所示
然後再加一列「result」,當oee>0.6時為「good」,否則為「bad」,刪除oee列 (此處oee>0.6是因為塗板機oee的平均值為0.6,因此作為判斷好壞的標準,這裡僅僅是為了個人分析,不代表行業就是如此)
如下截圖所示
本案例採用隨機森林演算法。 我在學習決策樹的時候,隨機森林是我認為準確率最高的演算法。
直接使用r包:randomforest, 簡單高效
r**如下:
library(randomforest) #載入r包
oeedata
oeedata
oeedata$result
set.seed(12345) # 設定種子,使此次抽樣在下一次能夠重現
rfmhead(rfm$votes) # 各觀測的各類別**概覽
importance(rfm,type=1) #各變數重要性測度
plot(rfm) # 隨機森林的oob錯判率和決策樹棵樹,對應圖1
varimpplot(x=rfm, sort=true,n.var=nrow(rfm$importance),main = "variable importance") #變數重要性視覺化,對應圖2
步驟三中,ntree=100, 這個100是通過plot(rfm)找到最合適的數值。比如當設定ntree=100時,error值最小且保持穩定,此處我是反覆的試才找到100作為最優的引數;引數mtry的值同理。
plot(rfm)表示「隨機森林的oob錯判率和決策樹棵樹」,錯判率越低越好,棵樹越少越好。如圖1所示
圖1 隨機森林的oob錯判率和決策樹棵樹
當mtry=3,ntree =100,將隨機森林結果物件繪圖
分析結果如圖2所示
圖2 重要度視覺化
右邊的圖,表示該變數的重要程度(通過gini係數下降求得)
最重要的前三依次是:故障、合格(合格與不合格都歸為合格類)、培訓
這次通過隨機森林得到結果為故障、合格、培訓。
因為這兩次所用的演算法核心思想都是來自資訊理論的熵的計算,所以結果大致是一樣的。
製造業如何利用大資料
製造業如何利用大資料 如果你正在進行大資料專案,那麼有四個因素需要牢記。1.資料不能脫離實際環境 首先需要說明的是,脫離實際環境的資料的作用將會大打折扣。在生產製造領域,所謂的實際環境可以用工作任務或者執行步驟來提供。每一段資料必須與正在執行的任務或者正在生產的產品本身相關聯,並且與任務的特性相聯絡...
製造業資料探勘系統對於業務增長的作用日益增大
如今大資料分析已不再僅限應用於對過去情況進行表述,而是更多地用於來對未來情況進行 並加深對逐步延伸的價值鏈的理解,於製造業資料探勘系統而言,大資料分析更是帶來了製造行業研究以及趨勢分析的全新維度。製造商所面臨的海量資料可謂讓人應接不暇。海量資料於外部 內部或由機器與機器間的互動中產生。同樣,正是這些...
製造業 用大資料書寫未來
資料蒐集 生產流程跟蹤是大部分製造業企業都擅長的事,但鮮有企業在資料分析上下功夫,利用大資料分析改進生產的企業更是少之又少。大資料能為製造業帶來什麼?簡單來說,大資料就是超越人腦 傳統分析工具能力範圍的龐大資料集合。企業可以利用大資料技術分析不同生產因素之間的關係,降低成本,提高生產效率,進一步完善...