DNA序列相關特徵

2021-10-01 06:39:13 字數 524 閱讀 9966

通常是指基因序列或蛋白質序列上連續的k個核苷酸或者氨基酸。在**《基於遺傳演算法的加權整合學習及其對於pirna的**》中通過統計所有k元組在pirna序列上出現的次數作為最後的特徵向量。定義dna序列為x,以k個字元長度為乙個單位在序列上進行掃瞄,然後統計出所有連續k元組出現的次數。最後將4的k次方個統計次數作為元素,組成特徵向量。

為連續k元組的乙個改進,是指連續k元組中允許有m個錯誤發生,例如,在統計3元組「aac」在序列**現的次數時,假設允許1個錯誤發生,則我們應將aac、aaa、aag、aat、acc、agc、atc、cac、gac、tac這10種3元組在序列**現的次數之和記為aac的發生次數。

是指允許k個鹼基在序列中是間隔的、非連續的。但隨著間隔的增大,懲罰也會加大,即此時的統計次數有相應的懲罰係數。

傳統的位置特異性得分矩陣,記為pssm,也只能處理固定長度的生物序列。位置特異性得分矩陣依賴於訓練集中的正樣本。

其特徵向量由兩部分特徵向量拼接之後進行歸一化得到。第一部分就是連續二元組的特徵向量;第二部分是根據二元組的物理化學屬性所得到的特徵向量。

Prufer序列相關

最近做到一些題,用到了prufer序列,挺有用的,在這裡學習一下。prufer數列是無根樹的一種數列,通過乙個prufer序列可以唯一表示一棵頂點帶標號的無根樹,點數為n的樹轉化來的prufer數列長度為n 2,它有很多的性質 一種生成prufer序列的方法是迭代刪點,直到原圖僅剩兩個點。對於一棵頂...

最長子序列相關

在 程式設計之美 看到這樣的題 求連續子串行和最大 int longmaxarraycount int data,int n tempone 0 i return targe 變形1 n個整數,求其中任意n 1個數的乘積中的最大的乙個,不能用除法。n個數的乘積為p 1 p的值為正,則除去乙個最小的正...

動態規劃 單調子串行相關

我們要區分一下子序列和子串。簡單的來講就是子串行是可以不連續但必須保證與給定的原陣列相同的順序,子串就是必須連續並且保證與給定的原陣列順序相同。我們討論的主要是子串行。ac code include include include include using namespace std const ...