datawhale Task2 資料分析

2021-10-04 06:23:14 字數 1505 閱讀 1809

資料探索有利於我們發現資料的一些特性,資料之間的關聯性,對於後續的特徵構建是很有幫助的。

對於資料的初步分析(直接檢視資料,或.sum(), .mean(),.descirbe()等統計函式)可以從:樣本數量,訓練集數量,是否有時間特徵,是否是時許問題,特徵所表示的含義(非匿名特徵),特徵型別(字元類似,int,float,time),特徵的缺失情況(注意缺失的在資料中的表現形式,有些是空的有些是」nan」符號等),特徵的均值方差情況。

分析記錄某些特徵值缺失佔比30%以上樣本的缺失處理,有助於後續的模型驗證和調節,分析特徵應該是填充(填充方式是什麼,均值填充,0填充,眾數填充等),還是捨去,還是先做樣本分類用不同的特徵模型去**。

對於異常值做專門的分析,分析特徵異常的label是否為異常值(或者偏離均值較遠或者事特殊符號),異常值是否應該剔除,還是用正常值填充,是記錄異常,還是機器本身異常等。

對於label做專門的分析,分析標籤的分布情況等。

進步分析可以通過對特徵作圖,特徵和label聯合做圖(統計圖,離散圖),直觀了解特徵的分布情況,通過這一步也可以發現資料之中的一些異常值等,通過箱型圖分析一些特徵值的偏離情況,對於特徵和特徵聯合作圖,對於特徵和label聯合作圖,分析其中的一些關聯性。

資料的偏度和峰度——df.skew()、df.kurt()

我們一般會拿偏度和峰度來看資料的分布形態,而且一般會跟正態分佈做比較,我們把正態分佈的偏度和峰度都看做零。如果我們在實操中,算到偏度峰度不為0,即表明變數存在左偏右偏,或者是高頂平頂這麼一說。

偏度(skewness)

definition:是描述資料分布形態的統計量,其描述的是某總體取值分布的對稱性,簡單來說就是資料的不對稱程度。。

偏度是三階中心距計算出來的。

(1)skewness = 0 ,分布形態與正態分佈偏度相同。

(2)skewness > 0 ,正偏差數值較大,為正偏或右偏。長尾巴拖在右邊,資料右端有較多的極端值。

(3)skewness < 0 ,負偏差數值較大,為負偏或左偏。長尾巴拖在左邊,資料左端有較多的極端值。

(4)數值的絕對值越大,表明資料分布越不對稱,偏斜程度大。

計算公式:

skewness=e[((x-e(x))/(\sqrt))^3]

| skewness| 越大,分布形態偏移程度越大。

峰度(kurtosis)

definition:偏度是描述某變數所有取值分布形態陡緩程度的統計量,簡單來說就是資料分布頂的尖銳程度。

峰度是四階標準矩計算出來的。

(1)kurtosis=0 與正態分佈的陡緩程度相同。

(2)kurtosis>0 比正態分佈的高峰更加陡峭——尖頂峰

(3)kurtosis<0 比正態分佈的高峰來得平台——平頂峰

計算公式:

kurtosis=e[ ( (x-e(x))/ (\sqrt(d(x))) )^4 ]-3

python–seaborn繪圖和視覺化–基本語法

2 兩數相加。2星

解題思路 兩個數使用鍊錶表示,所以如果想轉為數值型別,處理的值的大小可能會超出int甚至long,所以應當仍按照煉表處理,掌握好進製即可。方法一 definition for singly linked list.public class listnode class solution else i...

leetcode 2數 3數 4數之和

給定乙個整數陣列 nums 和乙個目標值 target,請你在該陣列中找出和為目標值的那 兩個 整數,並返回他們的陣列下標。你可以假設每種輸入只會對應乙個答案。但是,你不能重複利用這個陣列中同樣的元素。分析 演算法class solution else return result 給定乙個包含 n ...

自動插數 2

exec dbo.p insertnr yxrzusertable create proc dbo.p insertnr yxrzusertable as tbyxrz name,flag 0 三班制,1 白班制,2 全天制後夜,3 每週制,4 每月制,5 全天制前夜,6 全天制白班 tbyxrz ...