目錄
資料縮放scaling(標準化、歸一化)的那些事乙個表達矩陣,通常行為蛋白,列為不同樣本,我們可以標準化行,也可標準化列,具體問題具體分析,關鍵在於要解釋什麼問題。比如我們要盡可能減弱系統偏差對樣本蛋白定量值的影響,使各個樣本和平行實驗的資料處於相同的水平,讓下游分析更為準確可靠,我們需要對列進行歸一化。類似於我們做wb或qpcr實驗時,會選擇內參校正多個樣本的定量值。新增內參或qc的方法在代謝組學的標準化中常用。表達矩陣的歸一化和標準化,去除極端值,異常值
基因晶元資料分析(一)--晶元資料預處理
前四種方法通過將每個蛋白原始定量值除以對應樣本的某指定值(如平均值、中位數、最大值和總和等)實現校正,每個樣本的指定值在校正後變為1;後三種方法通過一定標準對原始資料進行縮放實現校正。
或者直接用scale函式:
scale(data,center=t,scale=f) #center中心化,scale標準化
sweep(datacenter,2,datar,fun="/")
scale(data,center=t,scale=t)
中位數、均值、中心化之類的標準化方法是將資料按照一定的比例進行縮小,但是縮小的範圍是不確定的;而總和標準化、極差標準化、正態標準化之類的標準化方法可以將原始資料縮小到乙個很有限的範圍(比如縮小到[0,1]範圍以內),比如有些機器學習方法,是要求對資料做正態標準化的,這種標準化的資料可以保證後續的運算速度更快。
如果要對行進行標準化,要求資料盡量在同乙個尺度(scale)下進行比較,比如做層次聚類熱圖,建議將行的資料也進行標準化,這樣每一行的資料就會控制在同乙個尺度之下,顏色的深淺能更好地表現出資料的變化趨勢。
下面一篇文章綜合比較了11種不同歸一化的效能:
variance stabilization normalization(vsn)方法能降低的技術重複間差異最大。linear regression normalization and local regression normalization的總體效果也不錯。
a systematic evaluation of normalization methods in quantitative label-free proteomics
大佬的軟體,三種定量演算法都發了文章。
[蛋白組學定量值的比較說明](
資料的歸一化和標準化處理
我們為什麼要進行歸一化處理 當我們在採集樣本與使用樣本進行演算法 時,是否發現得到的模型存在過擬合或者欠擬合,這時我們要分析我們的資料是否需要預處理操作,我們通常使用下面兩種方法來解決 1.歸一化正是使用減少引數的重要性的方式,來增強模型的泛化能力,並且可以保證特徵數量保持不變。2.手動選擇保留哪些...
資料的歸一化處理和標準化處理
值的歸一化處理 1 資料為什麼做歸一化處理 解析 假設乙個神經元有兩個輸入分別是x1和x2,權重分別是w1和w2,那麼該神經元的訊號加權求和為x1w1 x2w2。再假設x1屬於 0 1 x2屬於 100 1000 那麼x2遠遠大於x1,那麼x1w1就可以忽略不計,整個加權求和就只由x2w2來決定,小...
資料標準化(歸一化)
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...