3. 關於統計資料型別的思考
知道概率密度有什麼用?
因為使用的分布都有固定的形狀,只要確定了相應的引數就可以明確該分布的形狀。如果想知道感染疾病的速度就需要再看看概率密度圖。一般利用統計軟體求出相應的引數,這樣就可以根據這些引數來說明數的變化規律。
選擇用什麼分布都是根據經驗。之前應該還選擇了其它的分布形式,只是該分布形式效果好就留下了。
logistic分布經常用於研究生命週期演變過程。分為:發生,發展,成熟,飽和。
用以描述某些比較穩定但是又受一些偶然因素影響的現象。
正態分佈——normal distribution,即普通的分布,代表現實中最普通的一種資料形式。由兩個引數決定——均數和標準差。
均數是位置引數,標準差是形狀引數。
最前面的係數由標準差來確定,即標準差越大,對應的密度值越小,即分布越矮胖;標準差越小,對應的密度值越大,分布越「瘦高」。
正態分佈下的面積規律 以及 6倍西格瑪~
在各種形狀的正態分佈中,標準正態分佈(standardized normal distribution)最實用。即把原始資料進行標準化後,對標準化的資料擬合正態分佈。
標準化將資料轉換成以0為均數,以1為標準差的值。
所以標準正態分佈就是乙個以0為中心,以1為標準差的分布。
標準正態分佈相對於把正態分佈的規律簡化了,因為其標準差是1,所以橫軸上的1,2直接是1倍標準差,2倍標準差,從而利用標準正態分佈來說明面積規律就更加簡單了,比如:以0為中心,在正負2的範圍內面積約為95.4%。
t檢驗對應的t分布。
將大樣本和小樣本的分布區別找出來,從而符合小樣本的一套分布。
連續型資料和離散型資料區別在於有無小數點。
3.1.1 根據專業和經驗
3.1.2 利用roc曲線找到cut-off值(二分類結局)
其必須有乙個明確的二分類結局。
3.1.3 利用最**擇秩統計量找到cut-off值
3.1.4 利用分類樹來劃分
3.1.5 聚類分析
上述方法都必須有乙個已經確定的結局(因變數),然後根據這一結局對自變數進行劃分,通常將這些情況稱為有監督的。
無監督為有時可能只有乙個連續變數,其它什麼都沒有,在這種情況下就無法根據結局對其進行劃分,只能利用該變數本身的資料進行劃分,此時就可以採用聚類分析(cluster analysis)
聚類分析的演算法有:聚類分析思想:基於距離來劃分,兩個點距離近就劃分到一類,兩個點距離遠就劃分為另外一類。層次法; k-means法; som法; 概率模型法
層次分析法需要自己判斷聚成幾類合適;
k-means法通過尋找每一類的中心點,保證該類中的點都距離自己的中心點較近,而其它類中的點距離自己的中心點較遠。
有的聚類演算法需要在劃分前先指定擬劃分的類別數(k-means法和som法),有的則不需要(層次分析法)。
聚類方法總的原則:保證劃分後各類別之間的距離盡量遠,類別內的距離盡量近。
ps:聚類分析完全是根據資料本身來劃分,不涉及任何專業的知識,但有的時候會導致劃分的類別和專業相悖。所以需要謹慎~!!!!
3.1.6 虛擬變數和啞變數
dummy variable 即假的變數,不是真實的變數。就是把原來的乙個多分類變數轉換為多個二分類變數,總的來說就是:如果多分類變數有k個類別,則可以轉換為k-1個二分類變數。
分類結果的解釋一本都要有參照類別。當我們把k個類別的多分類變數轉換為k-1個二分類變數後,每個二分類變數表示相對參照類的大小。
例如,多分類變數x用1,2,3,4表示,我們設定以1為參照,那麼生成的3個虛擬變數分布表示2和1相比的大小,3和1相比的大小,4和1相比的大小。
通過生成虛擬變數,我們就把原來的乙個係數變成了多個係數,這個係數更加詳細地說明了自變數和因變數之間地關係,在自變數和因變數呈非線性關係地時候,這很重要。因為在使用線性回歸和logistic回歸的時候,實際上我們就已經預設了自變數和因變數之間呈現線性關係,我們就已經不可能找出非線性的關係了。
程式設計必會單詞v1
程式設計必會單詞v1 exception 異常 bound 邊界 out of bounds 越界 index 索引 amount 總量 serialize 序列化 deserialize 反序列化 serializable 可序列化的 general 通常的 exist 存在的 project 工...
貓狗大戰V1
matplotlib inline import numpy as np import os import matplotlib.pyplot as plt fnames np.array f train for f in sorted os.listdir train labels np.arra...
TZOJ 平台訓練 V1
訓練 描述 求兩個整數之和。輸入輸入資料只包括兩個整數a和b。輸出兩個整數的和。樣例輸入 1 2樣例輸出 3題目 tzoj include using namespace std int main 描述 求2個數中較大者。輸入第一行為測試的資料組數n,接下來的n行分別是兩個待比較的整數 輸出輸出n行...