02 基礎課機器學習專案第一周第二節資料介紹

專案名稱：工業離散製造過程中的符合率

任務名稱：資料介紹

任務簡介：了解資料的**、資料的內容，學會檢視資料等等資料的指標。

詳細說明：如何觀察資料以及了解資料資料背景介紹、**於工業實際生產環境，ccf指定專業大資料及人工智慧競賽平台-datafountain 工業離散製造質量符合率**，資料已經脫敏處理過，不涉及商業秘密。

第一眼就要看到資料的方向，這個資料是幹什麼的？如何做？分類還是回歸？

資料不大，感興趣的可以下來看看

是csv格式的，匯入很簡單：

import pandas as pd 
train=pd.read_csv(
"data/first_round_training_data. csv"
)train. head(
)#顯示前五行

給出了拿到資料要幹什麼的參考步驟：

1、有哪些

2、幹什麼

3、有什麼用

4、資料的分布

5、資料的eda

6、具體業務具體分析–如乘乙個業務你很熟悉的話那這個就不是問題了，你自己應該知道要做什麼。

當資料量很大的時候，我們還需要使用一些特定的工具或者平台來進行處理：dask、spark、集群。

判斷是否有空，並統計個數

train_data.isnull().
sum(
)#對所有列判斷是否有空，然後再統計個數
train_data.parameter1.isnull().
sum(
)#對parameter1列判斷是否有空，然後再統計個數

檢視資料型別

#檢視資料型別 train_data.dtypes

檢視資料大小，這裡的大小是指資料檔案的大小，當然也包含記錄的條數（樣本個數，這裡是6000），字段型別，字段長度等資訊

#檢視資料大小
利用eda工具進行資料初始分析
import pandas_profiling as ppf
ppf.profilereport(train_data)
工具安裝方法：pip install pandas profiling
下面是結果：
這裡是一些warning
這個是我們需要處理的重點，這裡提示資料分布不均勻。
這裡是相關性，中間對角線是自己和自己，所以顯示自相關性很高。其他的attribute4和attribute8相關性較大。
這裡是自相關性有兩個：
1、pearson相關係數
最常用的相關係數，又稱積差相關係數，取值-1到1，絕對值越大，說明相關性越強。該係數的計算和檢驗為引數方法，適用條件如下： （適合做連續變數的相關性分析）
（1）兩變數呈直線相關關係，如果是曲線相關可能不準確。
（2）極端值會對結果造成較大的影響
（3）兩變數符合雙變數聯合正態分佈。
2、spearman秩相關係數
對原始變數的分布不做要求，適用範圍較pearson相關係數廣，即使是等級資料，也可適用。但其屬於非引數方法，檢驗效能較pearson係數低。（適合含有等級變數或者全部是等級變數的相關性分析）
看完訓練資料後，再自己看看測試資料即可。
				Python基礎學習 第一周
通俗來講，編譯型就是一次性把所有程式寫的 都轉換成機器可以識別的語言 機器語言 即可執行檔案.exe 解釋型就是程式每執行到某一條指令，則會有有個稱之為解釋程式的外殼 將源 轉換成為二進位制以供執行，也就是要不斷的解釋，執行，解釋，執行。因此解釋型語言的移植性好，修改起來方便，不用像編譯型那樣改乙個...
				第一周學習
msg dic for k,v in msg dic.items print f 商品名稱 商品 end while true shoppingcar input 請輸入你要購買的商品 strip if shoppingcar not in msg dic or shoppingcar is non...
				第一周學習
1.根目錄，位於目錄的最頂端，是所有檔案和目錄的父目錄，其自身沒有父目錄。2.boot 引導檔案存放目錄，核心檔案 vmlinuz 引導載入器 bootloader,grub 都存放於此目錄。3.bin 存放使用者基本命令，不能關聯至獨立分割槽，os啟動就會用到的程式。4.sbin 存放管理類基本命...

02 基礎課 機器學習專案 第一周第二節 資料介紹

Python基礎學習 第一周

第一周學習

第一周學習

相關推薦

02 基礎課機器學習專案第一周第二節資料介紹

Python基礎學習第一周