生物資訊_call_snp_by_soapsnp_全基因組
資料:人全基因組(100多g,兩個gz檔案,已去接頭,pe測序,90讀長)
方法:call_snp_by_soapsnp
每步估計需要投多大(僅作參考):
bwa(13g):
從兩個clean.fq.gz到兩個.sai再到乙個.sam
注:在生成完sam之後檢查有沒有報錯,沒有就可以把.sai刪掉。
get_uniq_map_reads(0.5g):
從.sam到.filter_sam
注:留意.filter_sam.stat中的過濾率(記下來,評估的時候用著),這次均為90多,確認正常。
samtools_process(0.5g):
從.filter_sam到.bam,並對bam進行排序生成.sort.bam,對.sort.bam去重複得.rmdup.bam,最後建.rmdup.bam索引。
注:.bam生成之後可以刪掉.filter_sam。在去重複之後統計一下去重複率(分別用samtools開啟去重複前的.sort.bam和.rmdup.bam檔案,並統計行數,行數比即是)
split_bam_by_chr(0.5g):
得到按染色體分的bam檔案。
注:最好建乙個資料夾放這堆bam。其實不分染色體直接callsnp也行,但是慢。
call_snp_by_soapsnp(4g):
得到snp
注:最好建乙個資料夾放。
統計:filter_sam.stat裡面的reads數目和率、rmdup之後的率、結果的平均覆蓋度(ref非n且深度不為0的行數/ref非n的行數)及深度(ref非n的行的深度的和/ref非n的行數)、深度分布圖(每乙個深度的行數和的統計表,並畫圖)。
資料:
cr猴子全基因組(4個文庫,分別兩個約14g的gz檔案,未去接頭,pe測序,90讀長)
call_snp_by_soapsnp_全基因組
每個文庫分別跑:
rmadpter(設多大忘了):
去接頭生成兩個clean.gz
bwa(13g?):
從兩個clean.fq.gz到兩個.sai再到乙個.sam
注:在生成完sam之後檢查有沒有報錯,沒有就可以把.sai刪掉。
得到4個.sam檔案
先把其中乙個.sam檔案的@開頭的標頭檔案(因為同乙個樣品標頭檔案都一樣)cat到乙個總的.sam(自己建乙個)裡面,接著把4個.sam檔案除去@開頭的行cat到這個sam檔案中,這樣就得到乙個總的sam檔案,後面步驟說到的sam檔案也就是指這個。後面的步驟就和單個文庫的一樣。
get_uniq_map_reads(0.5g):
從.sam到.filter_sam
注:留意.filter_sam.stat中的過濾率(記下來,評估的時候用著),這次均為80多,確認正常。
samtools_process(0.5g):
從.filter_sam到.bam,並對bam進行排序生成.sort.bam,對.sort.bam去重複得.rmdup.bam,最後建.rmdup.bam索引。
注:.bam生成之後可以刪掉.filter_sam。在去重複之後統計一下去重複率(分別用samtools開啟去重複前的.sort.bam和.rmdup.bam檔案,並統計行數,行數比即是)
split_bam_by_chr(0.5g):
得到按染色體分的bam檔案。
注:最好建乙個資料夾放這堆bam。其實不分染色體直接callsnp也行,但是慢。
call_snp_by_soapsnp(4g):
得到snp
注:最好建乙個資料夾放結果。
統計:filter_sam.stat裡面的reads數目和率、rmdup之後的率、結果的平均覆蓋度(ref非n且深度不為0的行數/ref非n的行數)及深度(ref非n的行的深度的和/ref非n的行數)、深度分布圖(每乙個深度的行數和的統計表,並畫圖)。
生物資訊 related
生物資訊學的研究重點主要體現在基因組學 genomics 和蛋白質組學 proteomics 兩個方面,intron 內含子,exon外顯子 雙螺旋結構是基於對鹼基配對規律的認識 氫鍵結合只發生於互補的鹼基a與t g與c之間。雙螺旋分子兩條鏈的嚴格互補性,是指一條鏈的核苷酸順序,無例外地取決於另一條...
生物資訊學軟體 自學生物資訊學
我是生物工程專業出身,在大三保研時選擇了生物資訊的道路,到現在為止已經在行業裡摸爬滾打了6年的時間,在這6年的學習之路上疑惑過,也迷茫過,特此把我學習的過程以及遇到的問題總結出來以讓大家避免出現同樣的問題。在我學習生物資訊過程的基礎上帶著大家順暢的走一遍。在學習生物資訊學之前,我們先來了解一下什麼是...
生物資訊學(Bioinformatics)
生物資訊學 bioinformatics 這個名詞有許多不同的定義。從字面上來看,生物資訊學是將資訊科學應用於生物學。生物資訊學廣義的概念是指應用資訊科學研究生物體系和生物過程中資訊的存貯 資訊的內涵和資訊的傳遞,研究和分析生物體細胞 組織 器官的生理 病理 藥理過程的中各種生物資訊,或者說是生命科...