用EDA處理蛋白質資料小記

2021-10-08 22:28:38 字數 1455 閱讀 7844

這兩天在做蛋白質資料的eda(exploratory data analysis)試了table one、pca、volcano plot和manhattan plot。實現語言為r。

資料簡要介紹

蛋白質在全血中濃度log後的值,以及一張含各variable的表。protein資料648(proteins)*92(patients)。資料lung cancer case:control=322:325基本持平。case指lung cancer。

table one

table one用lung cancer case作為輸出求各variable的p-value。table one只能提供資料大致的第一印象。

需要注意的是在table one中顯著的variable並不能作為後面denoise data所用的adjust variable,原因有:

有的variable間本來可能就有聯絡,比如bmi和高血壓,如果都adjust可能會有重複調整的風險

linear mixed model選擇adjust variable應該根據reference選擇合理的variable,是為了觀察除這兩個variable外潛在相關的variable,而不是根據p-value選擇。

pca

pca如下圖,結果很不好。問了別人,別人的結果也無法清晰分類。最後,大家的結論是pca無法很好解釋該資料,選擇不用pca。

因為筆者要探索smoking以外variable對lung cancer的影響,所以繪製了兩張,一張before adjust by smoking, 一張after。每個點代表乙個protein。縱座標為-log10(adjust p-value),點越靠近圖頂部表示差異越顯著。橫座標為log2(fold change),點越偏離中心,表示差異倍數越大。

名詞解釋

manhattan plot

將gwas分析之後所有snp位點的p-value在整個基因組上從左到右一次畫出來,並且為了更直觀的表達結果,通常會將p-value轉換成-log10(p-value)。所以y軸高度越高,關聯性越強。

目前為止網上找到的都是用來畫基因資料的。試著畫了一下蛋白質資料,效果不好。

總之,univariate analysis並沒找出什麼有效protein。做完這些後會將資料用lmm denoise(adjust by age, gender, bmi)。

reference:

volcano plot | 別再問我這為什麼是火山圖

如何理解gwas中manhattan plot和qq plot所傳遞的資訊。

常見蛋白質種類 什麼是優質蛋白質?雞蛋大豆算不算

蛋白質都是由氨基酸構成的,大部分的氨基酸可以在人體內合成,但是有八種氨基酸是人體無法合成,只能從食物中獲取的,這八種氨基酸就叫做必需氨基酸,其中,嬰兒有9種。八種必需氨基酸的為 甲硫氨酸 蛋氨酸 異亮氨酸 纈氨酸 亮氨酸 苯丙氨酸 色氨酸 蘇氨酸 賴氨酸 嬰兒還包括組氨酸 食物蛋白質中,如果有一種或...

蛋白質結構與功能

蛋白質結構與功能 一 蛋白質的一級結構 1.定義 蛋白質分子從n 端至c 端的氨基酸排列順序。2.主要化學鍵 共價鍵 肽鍵 二硫鍵 少數 3.第乙個被確定一級結構的蛋白質 胰島素。4.結構測定 純蛋白質 二硫鍵拆開 末端氨基酸測定 二 蛋白質的二級結構 1.定義 蛋白質分子中某一段肽鏈的區域性空間結...

蛋白質濃度與鹽脅迫的關係 蛋白質的分離純化(二)

從原料中抽提得到的蛋白質溶液一般蛋白質含量較低,並含有多種雜質。對抽提液進行初步提取,也稱粗提或粗分級,主要目的是除去糖 脂類 核酸及大部分雜蛋白,並將蛋白濃縮。這一步的操作一般應該盡量簡單快速,並且適於處理大量樣品,所以以沉澱法為主,包括簡單沉澱 分級沉澱等。簡單沉澱是一次性完成,分級沉澱是分次加...