忽略元祖,
忽略屬性列,缺失值太多
人工填寫缺失值
自動填充缺失值,用平均值或回歸分析,決策樹,推理樹填充
分箱:將資料分到幾個箱子,每個箱子單獨處理
聚類回歸化
1.最大最小規範化
v =v
−mina
maxa
−minb
v=\frac
v=maxa
−minbv
−mina
2.中心距離處以發散度
z-zero score規範化
3.小數定標規範化
v =v
10
jv=\frac
v=10jv
j是使得max(|v|)<1的最小整數
把0-11歲劃分為嬰兒,12~20為青年
先聚類再劃分
抽樣
小波變換,pca
svd奇異值分解
向前選擇,每次選擇最好的放在乙個新陣列
向後刪除,每次選個最差的刪掉輸入資料集 和 目標特徵c 閾值
第一步計算每個特徵和目標特徵的相關性suk
csu_
sukc
大於閾值,則選擇該特徵,得到新的特徵陣列
第二步使得資料離散化,特徵相互之間相互關係不大,只與目標特徵相關關係大
即把所有suk
j>su
kc
su_>su_
sukj
>su
kc的特徵都刪掉,即當檢測到特徵k和特徵j他們之間相關性很大的時候就去掉他們,保證選到的特徵相互之間的關係步大
ordinal順序關係(低溫和高溫,學生成績中和優之間)
不相似度d=∣
x−y∣
/(n−
1)
d=|x-y|/(n-1)
d=∣x−y
∣/(n
−1)nominal(顏色之間)
idea>stategy>method>algorithm>programming
條件資訊熵
smc ****** matching coefficient
Python之資料處理
靠別人不如靠自己,學學學學學學學學!原資料 需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...
python之資料處理
檔案資料讀寫的基本操作 import this 本地檔案的界定 指向乙個本地儲存的檔案,是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達 再或者用r 寫在檔案路徑外面 推薦第三種 path2 c users...
資料互動之資料處理
資料互動必須通過協議來實現,所以互動雙方必須遵循一定的讀寫規則 我的方法很簡單但可以用,如果大家有好的方法,不妨交流一下 實現方法 資料流類datastream有兩個char 型指標,分別用來儲存讀寫的資料,還有w pos,r pos兩個資料用來記錄讀寫的位置,而且要用到互斥鎖,確保指標的安全性 v...