02 基礎課 機器學習專案 第一周第二節 資料介紹

2021-10-03 06:50:00 字數 2068 閱讀 4673

專案名稱:工業離散製造過程中的符合率

任務名稱:資料介紹

任務簡介:了解資料的**、資料的內容,學會檢視資料等等資料的指標。

詳細說明:如何觀察資料以及了解資料資料背景介紹、**於工業實際生產環境,ccf指定專業大資料及人工智慧競賽平台-datafountain 工業離散製造質量符合率**,資料已經脫敏處理過,不涉及商業秘密。

第一眼就要看到資料的方向,這個資料是幹什麼的?如何做?分類還是回歸?

資料不大,感興趣的可以下來看看

是csv格式的,匯入很簡單:

import pandas as pd 

train=pd.read_csv(

"data/first_round_training_data. csv"

)train. head(

)#顯示前五行

給出了拿到資料要幹什麼的參考步驟:

1、有哪些

2、幹什麼

3、有什麼用

4、資料的分布

5、資料的eda

6、具體業務具體分析–如乘乙個業務你很熟悉的話那這個就不是問題了,你自己應該知道要做什麼。

當資料量很大的時候,我們還需要使用一些特定的工具或者平台來進行處理:dask、spark、集群。

判斷是否有空,並統計個數

train_data.isnull().

sum(

)#對所有列判斷是否有空,然後再統計個數

train_data.parameter1.isnull().

sum(

)#對parameter1列判斷是否有空,然後再統計個數

檢視資料型別

#檢視資料型別

train_data.dtypes

檢視資料大小,這裡的大小是指資料檔案的大小,當然也包含記錄的條數(樣本個數,這裡是6000),字段型別,字段長度等資訊

#檢視資料大小

利用eda工具進行資料初始分析

import pandas_profiling as ppf

ppf.profilereport(train_data)

工具安裝方法:pip install pandas profiling

下面是結果:

這裡是一些warning

這個是我們需要處理的重點,這裡提示資料分布不均勻。

這裡是相關性,中間對角線是自己和自己,所以顯示自相關性很高。其他的attribute4和attribute8相關性較大。

這裡是自相關性有兩個:

1、pearson相關係數

最常用的相關係數,又稱積差相關係數,取值-1到1,絕對值越大,說明相關性越強。該係數的計算和檢驗為引數方法,適用條件如下: (適合做連續變數的相關性分析)

(1)兩變數呈直線相關關係,如果是曲線相關可能不準確。

(2)極端值會對結果造成較大的影響

(3)兩變數符合雙變數聯合正態分佈。

2、spearman秩相關係數

對原始變數的分布不做要求,適用範圍較pearson相關係數廣,即使是等級資料,也可適用。但其屬於非引數方法,檢驗效能較pearson係數低。(適合含有等級變數或者全部是等級變數的相關性分析)

看完訓練資料後,再自己看看測試資料即可。

Python基礎學習 第一周

通俗來講,編譯型就是一次性把所有程式寫的 都轉換成機器可以識別的語言 機器語言 即可執行檔案.exe 解釋型就是程式每執行到某一條指令,則會有有個稱之為解釋程式的外殼 將源 轉換成為二進位制以供執行,也就是要不斷的解釋,執行,解釋,執行。因此解釋型語言的移植性好,修改起來方便,不用像編譯型那樣改乙個...

第一周學習

msg dic for k,v in msg dic.items print f 商品名稱 商品 end while true shoppingcar input 請輸入你要購買的商品 strip if shoppingcar not in msg dic or shoppingcar is non...

第一周學習

1.根目錄,位於目錄的最頂端,是所有檔案和目錄的父目錄,其自身沒有父目錄。2.boot 引導檔案存放目錄,核心檔案 vmlinuz 引導載入器 bootloader,grub 都存放於此目錄。3.bin 存放使用者基本命令,不能關聯至獨立分割槽,os啟動就會用到的程式。4.sbin 存放管理類基本命...