gff3是gff注釋檔案的新標準。檔案中每一行為基因組的乙個屬性,分為9列,以tab分開。
依次是:
1. reference sequence:參照序列
指出注釋的物件。如乙個染色體,轉殖或片段。可以有多個參照序列。
該id的取名不能以』>』開頭,不能包含空格。
2. source :**
注釋的**。如果未知,則用點(.)代替。
3. type :型別
屬性的型別。建議使用符合so慣例的名稱(sequence ontology,參看[[sequence ontology project]]) ,如gene,repeat_region,exon,cds等。
4. start position :起點
屬性對應片段的起點。從1開始計數。
5. end position :終點
屬性對應片段的終點。一般比起點的數值要大。
6. score :得分
對於一些可以量化的屬性,可以在此設定乙個數值以表示程度的不同。如果為空,用點(.)代替。
7. strand :鏈
「+」表示正鏈,「-」表示負鏈,「.」表示不需要指定正負鏈。
8. phase :步進
對於編碼蛋白質的cds來說,本列指定下乙個密碼子開始的位置。可以是0,1或2,表示到達下乙個密碼子需要跳過的鹼基個數。
對於其它屬性,則用點(.)代替。
9. attributes :屬性
乙個包含眾多屬性的列表。格式為「標籤=值」(tag=value)。不同屬性之間以分號相隔。可以存在空格,不過若有「,=;」則用url轉義(url escaping rule),同時tab也需要轉換為「 」表示。所有以大寫字幕開頭的標籤被保留,用於大眾認可的用途,而以小寫字母開頭的標籤則根據自己安排隨意應用。
下列的標籤已定義:
id指定乙個唯一的標識。對屬性分類是非常好用(例如查詢乙個轉錄單位中所以的外顯子)。
name
指定屬性的名稱。展示給使用者的就是該屬性。。name的值在視覺化的時候得到展示。因此,name可以根據自己展示的需要隨意取值。
alias
名稱的代稱或其它。當存在其它名稱時使用該屬性。
parent
指明feature所從屬的上一級id。用於將exons聚集成transcript,將transripts聚集成gene。
target
指明比對的目標區域,一般用於表明序列的比對結果。格式為」target_id start end [strand]「,其中strand是可選的(「+」或」-」), target_id中如果包含空格,則要轉換成』 ′。
gap比對結果的gap資訊,和target一起,用於表明序列的比對結果。
note
描述性的一些說明。
is_circular
表明featrue是否為環化的。用於環狀基因組序列。
同乙個tag如果有多個值,則多個值之間使用逗號隔開,比如:
parent=af2312,ab2812,abc-3
alias=m19211,gna-12,gamma-globulin
能夠使用多個值的tag有:parent, alias, note, dbxref and ontology_term。
參考:
python提取GFF3檔案資訊
前言 因為最近使用repet這個程式對基因組進行重複序列的注釋,但是最後輸出的結果是gff3格式的檔案,缺少統計資訊。因此用python寫了個指令碼,對gff3的資訊進行提取並統計。gff3檔案 想要從gff3檔案中提取的資訊為重複序列的種類,數量,以及bp數。gff3檔案分為9列,這次用到是第2 ...
php用什麼開啟 php檔案用什麼開啟
什麼是php檔案?用什麼開啟方式 然而,php 跟 asp 或 coldfusion 不一樣的地方在於,它是跨平台的開放源 php 可以在 windows nt 以及很多不同的 unix 版本中執行,它也可以被編譯為乙個 apache 模組,或者是乙個cgi二進位制檔案。當被編譯為 apache 模...
mysql檔案用什麼開啟 sql檔案用什麼開啟?
如果您學習過asp程式設計的朋友可能對sql檔案有一定的了解了。sql檔案說白了就是資料庫檔案,大量的資料儲存在sql檔案裡,sql檔案是一種高階的非過程化的程式語言,sql在資料庫伺服器和客戶端的連線重要工具,而access本機上用的比較多。可以使用windows自帶的記事本 sql檔案通過雙擊讓...