1.指令碼
12.引數說明1 --runmode: 執行程式模式,預設是比對,所以第一步這個引數設定很關鍵#!/bin/bash2#
使用star軟體建立人類hg38基因組索引
34 fa_dir="
/home/shenqingsong/project/rna-seq/reference/hg38/hg38.fa
"5 gtf_dir="
/home/shenqingsong/project/rna-seq/reference/hg38/homo_sapiens.grch38.105.chr.gtf
"6 mkdir -p "
/home/shenqingsong/project/rna-seq/reference/index/star/hg38"7
8 star --runmode genomegenerate \
9 --runthreadn 4\
10 --genomedir "
/home/shenqingsong/project/rna-seq/reference/index/star/hg38"\
11 --genomefastafiles $fa_dir
\12 --sjdbgtffile $gtf_dir
\13 --sjdbgtfchrprefix "
chr"
\14 --sjdboverhang 149
2 --runthreadn: 執行的執行緒數,根據你自己電腦的配置來設定,數字越大執行越快
3 --genomedir: 這個引數很重要,是存放你生成index的檔案路徑,需要你事先建立乙個有可讀寫許可權的資料夾
4 --genomefastafiles 基因組fasta格式檔案路徑
5 --sjdbgtffile gtf注釋檔案路徑
6 --sjdboverhang 這個值為你測序read的長度減1,是在注釋可變剪下序列的時候使用的最大長度值
7 --sjdbgtfchrprefix -
3.注意事項
基因組資料注釋常用的檔案 Bed檔案和GFF檔案
原文 genomic features通常使用browser extensible data bed 或者 general feature format gff 檔案表示,用ucsc genome browser進行視覺化比較。bed檔案和gff檔案最基本的資訊就是染色體或contig的id或編號,...
實現索引檔案建立和查詢演算法
實驗題目 實現索引檔案建立和查詢演算法 實驗目的 掌握索引檔案的基本操作及其演算法設計 實驗內容 編寫程式,建立表12.1中學生成績記錄對應的主檔案data.dat,要求完成以下功能 1 輸出主檔案中的學生記錄 2 建立與主檔案相對應的索引檔案,其中每個記錄由兩個字段組成 學號no及該學生記錄在資料...
實現索引檔案建立和查詢演算法
實驗題目 實現索引檔案建立和查詢演算法 實驗內容 編寫程式,實現檔案訪問。設有兩個檔案 資料主檔案data.dat和 索引檔案index.dat。資料主檔案由記錄學生基本情況的若干條記錄組 成。索引檔案的每個記錄由兩個字段組成 學號及學生基本情況記錄 在資料檔案中的相應位置,索引檔案中的記錄按學號公...