專案名稱:工業離散製造過程中的符合率
任務名稱:資料介紹
任務簡介:了解資料的**、資料的內容,學會檢視資料等等資料的指標。
詳細說明:如何觀察資料以及了解資料資料背景介紹、**於工業實際生產環境,ccf指定專業大資料及人工智慧競賽平台-datafountain 工業離散製造質量符合率**,資料已經脫敏處理過,不涉及商業秘密。
第一眼就要看到資料的方向,這個資料是幹什麼的?如何做?分類還是回歸?
資料不大,感興趣的可以下來看看
是csv格式的,匯入很簡單:
import pandas as pd
train=pd.read_csv(
"data/first_round_training_data. csv"
)train. head(
)#顯示前五行
給出了拿到資料要幹什麼的參考步驟:
1、有哪些
2、幹什麼
3、有什麼用
4、資料的分布
5、資料的eda
6、具體業務具體分析–如乘乙個業務你很熟悉的話那這個就不是問題了,你自己應該知道要做什麼。
當資料量很大的時候,我們還需要使用一些特定的工具或者平台來進行處理:dask、spark、集群。
判斷是否有空,並統計個數
train_data.isnull().
sum(
)#對所有列判斷是否有空,然後再統計個數
train_data.parameter1.isnull().
sum(
)#對parameter1列判斷是否有空,然後再統計個數
檢視資料型別
#檢視資料型別
train_data.dtypes
檢視資料大小,這裡的大小是指資料檔案的大小,當然也包含記錄的條數(樣本個數,這裡是6000),字段型別,字段長度等資訊
#檢視資料大小
利用eda工具進行資料初始分析
import pandas_profiling as ppf
ppf.profilereport(train_data)
工具安裝方法:pip install pandas profiling
下面是結果:
這裡是一些warning
這個是我們需要處理的重點,這裡提示資料分布不均勻。
這裡是相關性,中間對角線是自己和自己,所以顯示自相關性很高。其他的attribute4和attribute8相關性較大。
這裡是自相關性有兩個:
1、pearson相關係數
最常用的相關係數,又稱積差相關係數,取值-1到1,絕對值越大,說明相關性越強。該係數的計算和檢驗為引數方法,適用條件如下: (適合做連續變數的相關性分析)
(1)兩變數呈直線相關關係,如果是曲線相關可能不準確。
(2)極端值會對結果造成較大的影響
(3)兩變數符合雙變數聯合正態分佈。
2、spearman秩相關係數
對原始變數的分布不做要求,適用範圍較pearson相關係數廣,即使是等級資料,也可適用。但其屬於非引數方法,檢驗效能較pearson係數低。(適合含有等級變數或者全部是等級變數的相關性分析)
看完訓練資料後,再自己看看測試資料即可。
Python基礎學習 第一周
通俗來講,編譯型就是一次性把所有程式寫的 都轉換成機器可以識別的語言 機器語言 即可執行檔案.exe 解釋型就是程式每執行到某一條指令,則會有有個稱之為解釋程式的外殼 將源 轉換成為二進位制以供執行,也就是要不斷的解釋,執行,解釋,執行。因此解釋型語言的移植性好,修改起來方便,不用像編譯型那樣改乙個...
第一周學習
msg dic for k,v in msg dic.items print f 商品名稱 商品 end while true shoppingcar input 請輸入你要購買的商品 strip if shoppingcar not in msg dic or shoppingcar is non...
第一周學習
1.根目錄,位於目錄的最頂端,是所有檔案和目錄的父目錄,其自身沒有父目錄。2.boot 引導檔案存放目錄,核心檔案 vmlinuz 引導載入器 bootloader,grub 都存放於此目錄。3.bin 存放使用者基本命令,不能關聯至獨立分割槽,os啟動就會用到的程式。4.sbin 存放管理類基本命...