一、常見的格式
當下有非常多的序列分析軟體,與此同時也存在非常多的序列檔案格式,主流的幾種格式是: fasta, nexus,phylip, genbank等。更多的序列檔案格式說明檢視
fasta格式
fasta格式中的一條完整序列,包含開頭的單行描述行和多行序列資料。描述行行首前置半形大於號(「>」)以和資料行區分。「>」後緊接的內容為該序列的識別符號,該行剩餘部分則為序列的描述(識別符號與描述均非必須)。「>」和識別符號之間不應有空格。序列的結束以下一條序列的「>」出現為標識。fasta格式中的一條序列由多行文字組成,每一行的字元數均不能超過120字元,通常不推薦超過80字元。這一限制可能與軟體為單行顯示預分配固定大小記憶體有關:當時大部分的使用者都使用dec vt(或其相容)終端,而這一終端單行支援顯示的字元數上限在80到132個之間。大部分人會將他們的終端配置為字型大小較大的80字元模式,因此在fasta中每行只包含80字元或更少(通常為70字元)成為了推薦的做法。且nucleotide符號大小寫均可,而amino acid一般用大寫字母。
ps(postscript):
nexus格式
nexus副檔名包括: .nxs or .nex or .nexus
nexus檔案以1#nexus開頭;2定義了檔案中有多少條序列,以及每條序列的長度;3表示資料的型別(dna/protein)以及缺失資料。
二、格式之間的轉換工具
各種主流的檔案格式在這裡都可以進行轉換。
此外,mega, clustalx等非常多軟體都支援序列各檔案格式的轉換。
sequence formatsemboss.sourceforge.net
references:
1、fasta wikipedia
程式設計中空格的使用
空行 l 空行起著分隔程式段落的作用。空行得體 不過多也不過少 將使程式的布局更加清晰。空行不會浪費 記憶體,雖然列印含有空行的程式是會多消耗一些紙張,但是值得。所以不要捨不得用空行。l 在每個類宣告之後 每個函式定義結束之後都要加空行。l 在乙個函式體內,邏揖上密切相關的語句之間不加空行。行 l ...
C 中空格的讀入與輸出
對一些剛剛接觸c 程式設計的朋友來說,可能會遇到一些小問題,如 在進行字串或單個字元的輸入過程中,明明輸出了空格,卻在顯示的時候 失蹤 了。空格怎麼會 失蹤 讓我們先來看看下面這個例程 程式功能 讀入和輸出字串 include iostream include string using namesp...
TNSNAMES配置中空格導致的bug
發現乙個很有趣的bug,tnsnames.ora中缺少空格導致ora 12154錯誤。還是看乙個具體的例子 test08 description address protocol tcp host 172.25.13.229 port 1521 connect data server dedicat...