Data mining基礎之認識資料 2

2021-08-06 04:17:44 字數 1189 閱讀 7238

不想當專案負責人的技術人員不是好的科研人員

一、中心趨勢度量

中位數:對傾斜(非對稱)資料,這是更好的度量,是有序資料值的中間值

眾數中列數:最大和最小值的平均值

正傾斜:眾數出現在小於中位數的值上

負傾斜:眾數出現在大於中位數的值上

二、 度量資料散布
hair_color=0

#頭髮為黑色

hair_color=1

#頭髮為棕色

hair_color=2

#頭髮為淡黃色

occupation=0

#職業為教師

occupation=0

#職業為牙醫

occupation=0

#職業為程式設計師

三、二元屬性
smoker=0

#患者不抽菸

smoker=1

#患者抽菸

medical_test=0

#hiv陰性

medical_test=1

#hiv陽性

四 、序數屬性
#快餐店的飲料量具有——小、中、大

volume=0

#小杯飲料

volume=1

#中杯飲料

volume=2

#大杯飲料

#等級評定調查

grade=0

#很不滿意

grade=1

#不太滿意

grade=2

#中性grade=3

#滿意grade=4

#很滿意

注意:

標稱、二元和序數屬性都是定性的,只描述物件的特徵,不給出實際大小或數量。通常屬性值都是代表類別的詞。

五 、數值屬性

1、區間標度屬性(interval-scaled)

2、比率標度屬性(ratio-scaled)

六、離散屬性與連續屬性

Data Mining 資料探勘技術基礎與高階

目錄2 資料探勘技術高階 2.2 資料探勘技術的績效增益 在現實工作中,不是所有的問題都需要用建模來解決,一些簡單的問題如果能用簡單方法,就不要使用複雜的解決方案。這樣既提公升了效率,也減少了出錯的可能。即使是非常複雜的問題,我們往往也需要首先用簡單的方法,對問題進行乙個概括和總覽 描述性統計。描述...

C 學習一之基礎認識

一 前言 開始學習c 了,現在從面向過程跳到物件導向的時候了,覺得自己的物件導向的思想還是太簡單了,希望通過對c 的學習能夠打下乙個堅實的基礎,然後在這個基礎上再學習其他新的物件導向語言就是問題啦。雖然vb和c 乙個是面向過程的語言,乙個是物件導向的語言。但是通過一段時間的學習,還是可以發現一些他們...

shell基礎認識

shell 我們在終端下寫命令linux核心是看不懂的必須通過shell解釋成核心可執行的 這就是shell 其實解釋命令這只是它的乙個功能模組,shell還可以用來進行程式設計 有點類似window下 bat檔案可以用來對系統的操作 將。bat檔案放在c盤中的啟動檔案中一開機就執行.bat檔案 x...