人類基因組概況 整理

2022-08-23 04:15:14 字數 3470 閱讀 6348

人類基因組概況:        

人類基因組由atcg四種鹼基組成,但是cg的含量低於50%,所以cg含量低於at含量。    

乙個基因組的dna大約3ug。

平均每100到1000個鹼基會出現1個snps,不過密度並不均勻。

如果按照每1000個鹼基存在1個snp來計算,人類30億個鹼基中,大約有300萬個snps。

人類基因組的突變頻率10的-6次方。即:每10的6次方個鹼基,就會發生乙個突變。

人類基因組有30億個鹼基(3*10的10次方)。人類基因組的exon的長度大約1*10的7次方,佔基因組的2%~3%。

假如平均乙個protein的長度為500個amino acid(氨基酸),那麼編碼乙個protein需要的鹼基數為500*3=1500bp=1.5kb。那麼,1個protein佔exon的鹼基數:1500/(1*10的7次方)≈10的4次方,即1個protein佔exon鹼基數的萬分之一。

ensemble資料庫中有5萬多個基因。其中,2萬多個蛋白編碼基因,還有假基因、microrna、lincrna等。genecode的gtf檔案中,有一列是genetype,它分的型別是:protein coding、lincrna、假基因。

即:基因可分為兩大類編碼蛋白的基因(包括:protein coding gene、pseudogene、lincrna)、不編碼蛋白的基因。 

utr:不翻譯成蛋白。 3`utr:轉錄起始->翻譯起始(atg)之間的區域。5`utr:翻譯終止->轉錄終止之間的區域。

intergenic:dna不轉錄成rna的區域。落入該區域的突變,不知道功能、不關注、不找hotspot。人類基因組98%是intergenetic區域。

introgenic:dna轉錄成rna的區域,包括:upstream,intron,exon,downstream,non-coding rna,lincrna。只關注落入introgenic區域的突變。即:只關注能轉錄成rna的區域內的突變。   

1. 突變型別:

non-sense(無義突變):某個鹼基突變後,導致原本編碼氨基酸的密碼子變成了終止密碼子,使肽鏈合成提前終止。

missense:錯義突變。導致編碼的氨基酸發生變化。

vtr_intron_ncrna:exon之外的區域發生突變。

synonymous:鹼基發生改變。但編碼的氨基酸不變,不會對形成的蛋白有影響。比如:cta與ctg 均編碼亮氨酸,若a突變為g則該變異為同義突變。

silent:鹼基發生改變,而編碼的氨基酸也發生改變,但不影響蛋白質的編碼。 

2. 突變頻率(variant allele frequency,vaf):

假如某個snv點的vaf為0.125=12.5%,這表示:在覆蓋這個點的read數中,有12.5%的read來自b allele(即突變的那條allele),由此可以得出:25%的腫瘤細胞攜帶b allele。參照下圖。

等位基因頻率(也稱為:b allele frequency):10萬人,9萬人攜帶的的是genea,1萬人攜帶的是geneb。則,等位基因頻率為:1/10=10%。

3. 突變注釋的工具:

snpeff。注釋snv的工具。 

4. 突變原因:

g->t:氧化損傷導致  g->a(c->t):脫氨基導致

5. 非編碼蛋白突變的解釋:

同義突變,雖然對這個基因編碼的蛋白沒有影響。但是,會影響其他基因的表達。比如,apc有4個同義突變,這些突變會影響reep5(它是乙個tumor suppressor gene)的rna表達值。

6.基因的拷貝數變異:     

通常call cnv的工具會考慮的因素:normalization、純度、汙染度、倍系。 

疑問1:腫瘤病人的正常組織(如:oec),或者正常人血液中的白細胞,對這些樣本進行靶向測序時,為什麼有大量snp的突變頻率會在10%~30%之間呢?正常snp的突變頻率應該是50%或100%。

推測原因:(1)pcr擴增的偏好,也可稱為抽樣誤差。比如:該snp(a-》g,a突變為g)的突變頻率應該是50%,但是,由於擴增的偏好性,導致a allele被大量擴增,g allele擴增的少。

那麼,假設攜帶正常a的allele被測了8,攜帶突變g的  allele被測了2次,則計算得到的g的allele frequency為2/10=20%。

(2)因為是靶向測序,所以有可能是此位點被不同的amplicon覆蓋。而amplicon在pcr擴增過程中會引起錯誤。

(3)基因組在此snp位置處存在拷貝數異常的現象。

(4)基因存在多拷貝的情況。比如,gene a在基因組中存在多個。

(5)純度所致。

(6)這些snp是否有組織特異性呢?在不同的組織中,存在這種狀況的snp有差異嗎?比如,某個snp在oec中突變頻率是20%,而在wbc中是50%。存在這樣的情況嗎?

沒有驗證這種想法。

疑問2:肺癌病人的oec與白細胞的靶向測序結果中,存在大量不一致的snp。因為所有細胞的dna序列都是一致的,為什麼會出現這樣的情況呢?

後來,我在查閱腦細胞somatic mutation時,看到一篇文獻說:其實各個組織中的基因組是不一致的。

疑問3:wgs的測序資料中,也存在很多這樣的突變頻率在10~30%之間的snv or snp。增加測序深度後,這樣的snv佔的比例反而更高呢?這是為何呢?

這說明,這樣的snv是真實存在的,測序深度越高,越能檢測到更多這樣的snv。

因為是在腫瘤樣本,所以,這樣的突變可以用腫瘤組織的clone原理來解釋。即:腫瘤細胞可以被分為不同的群體,有一些群體攜帶這樣的snv,而其他的群體不存在這樣的snv。這又是為何呢?因為攜帶這些snv的細胞群體是在腫瘤形成過程的後期出現的。 

但是,這個問題在測序深度很深時,應該會避免。因為大資料量時,會避免抽樣誤差。結果呢?進行上萬層的測序時,仍然存在這個問題。

line:重複序列。大腦發育過程中line很活躍。line通過反轉錄的方式,插到其它序列中。

6.7kb。轉錄成長的rna,編碼反轉錄酶,將自己或其它序列插入到dna中。

tanderm repeat:

repeatmaster工具,可發現基因組上的重複序列。

abparts(bcr,b cell receptor):b cell抗原受體。作用是識別抗原。編碼b cell抗體的基因。b cell在骨髓中淋巴細胞中重排。

乙個b cell攜帶乙個抗體。

一般的染色體重排只發生在一條染色體上,但是,chrom14的abparts,在兩條染色體上都發生了重排。

tcr(tcell receptor ):t cell抗原受體。作用是識別抗原。編碼t cell抗體的基因。分兩種tcr1和tcr2,外周血中主要是tcr2。

rb1:與細胞週期有關的乙個基因。抑制磷酸化,抑制細胞增殖。

rcbtb2:在胞質中存在。與染色質濃縮有關。

人類基因組的二重奏

二代測序大大提高了測序的通量,伴隨而來的基因組也遍地開花,但在構建高質量的參考基因組方面仍然不能令人滿意。隨著新的測序技術如三代 光學 hic的出現,使得構建高質量的參考基因組更加高效。對於一些重要的研究物件,乙個參考基因組顯然是不足以滿足研究需求的。以兩篇16年發表的人的基因組文獻為例,對構建高質...

bzoj3578 GTY的人類基因組計畫2

description gty召喚了n個人來做實驗,gty家的房子很大,有m個房間一開始所有人都在1號房間裡,gty會命令某人去某個房間等待做實驗,或者命令一段區間的房間開始實驗,實驗會獲得一些實驗資訊點數,點數為房間裡的人數,如果乙個房間裡的一群人已經做過實驗了那麼這些人將不會增加實驗資訊點數 不...

BZOJ3578 GTY的人類基因組計畫2

關於如何判斷乙個集合是否出現過 給每個元素隨機乙個hash權值,然後xor起來即可 插入刪除都只需xor 線段樹維護區間有效人數和,以及打標記表示這個區間的集合要全部標記為出現過,並把區間內sum值都置0 寫hash用了map 了tat include include define n 100010...