資料分析中常見問題

（1）p-p圖。以樣本的累積頻率作為橫座標，以安裝正太分布計算的相應累計概率作為縱座標，把樣本值表現為直角座標系中的散點，如果服從正太分布，則樣本點圍繞第一象限的對角線分布。

（2）q-q圖。以樣本的分位數作為橫座標，以按照正態分佈計算的相應分位點作為縱座標，把樣本表現為指教座標系的散點。如果資料服從正態分佈，則樣本點應該呈一條圍繞第一象限對角線的直線。

（3）直方圖。判斷是否以鍾形分布，同時可以選擇輸出正態性曲線

（4）箱式圖。觀測離群值和中位數

（5）莖葉圖。類似於直方圖，但實質不同。

（1）偏度係數和峰度係數

偏度計算公式：

峰度計算公式：

其中，結論1：用樣本估計整體；

結論2：樣本的平均值呈正態分佈；

結論3：在無法知道總體的情況下，可以用樣本估計整體。（除以n-1）

過擬合是指為了得到一致假設而使假設變得過度嚴格。

（1）建模樣本選取有誤，包括樣本數量太少，選擇方法錯誤，樣本標籤錯誤等，導致選取的樣本的資料不足以代表預定的分類規則。

（2）樣本噪音干擾過大，從而擾亂分類規則。

（3）假設的模型無法合理存在，或者說是假設成立的條件實際並不成立

（4）引數太多，使得模型複雜度過高。

（5）對於決策樹模型，如果我們對於其生長沒有合理的限制，其自由生長有可能使節點只包含單純的事件資料(event)或非事件資料(no event)，使其雖然可以完美匹配（擬合）訓練資料，但是無法適應其他資料集。

（6）對於神經網路模型：a)對樣本資料可能存在分類決策面不唯一，隨著學習的進行,，bp演算法使權值可能收斂過於複雜的決策面；b)權值學習迭代次數足夠多(overtraining)，擬合了訓練資料中的雜訊和訓練樣例中沒有代表性的特徵。

（1）增加樣本資料；

（2）選取合適的停止訓練標準，使對機器的訓練在合適的程度；

（3）保留驗證資料集，對訓練成果進行驗證；

（4）獲取額外資料進行交叉驗證；

（5）正則化，即在進行目標函式或代價函式優化時，在目標函式或代價函式後面加上乙個正則項，一般有l1正則與l2正則等。

（6）進行特徵選擇、特徵降維

（7）控制模型的複雜度。如進行剪枝、控制樹深度；增大分割平面間隔；

未完，，待繼補充。。。

參考：