workLog 序列的前處理 cutadapt

除了之前merge，拿qc分數過濾（已經忘了是怎麼做的），還有一些其他的處理要做。

序列有正反兩端，還有不同的3』,5』的尾巴，不處理不足以平民憤。

水平太有限了，10e7的序列也不知道怎麼統計和比對。反正也是要找相同的序列，用seqkit發現有乙個sort功能（sort的規則沒看明白），-s 按seq sort，幹就完了。

seqkit sort -s outm.fa -o sortall.fa

然後split成一百份試試看ho。

seqkit split -p 100 sortall.fa

多了乙個資料夾，裡面檔案字尾001-100的

但是stats看一下，前面和後面的檔案seq length都是250-490，不過aaa開頭的都在前半，51的一半（51_5）都是反向序列，後面都是cat…開頭的正向序列

計畫拿酶切位點trim，正向序列是ccatgg…gcggccgc

安裝cutadapt去處理序列

參考：

$ conda install -c bioconda cutadapt

拿part2試一下

cutadapt -a ccatgg sortall.part_002.fa -o trimp2.fa

再試translate frame -3就很好了，開頭是qvql什麼的

cutadapt -g gcggccgc trimp2.fa -o trimp2ag.fa

另一端也trim了。結尾就是tvs(最後乙個s在建庫時候變成了a)

翻譯一下，發現完全ojbk！

trim時候還會給出有多少被trim掉的比例，就可以找到測序中丟失的序列數。好得很

時間序列模型前的轉換

1.sqrt轉換先看序列的trend，如果有二次曲線的表現形式的話，可以做個sqrt 昨晚sqrt之後張成這樣子原來的資料長這樣做個sqrt from pandas import series from pandas import dataframe from numpy import sqr...

Oracle中序列的操作以及使用前對序列的初始化

一建立序列 create sequence myseq start with 1 increment by 1 nomaxvalue minvalue 1 二初始化序列 select myseq.nextval from dual 這裡值得注意的是，如果先直接寫select myseq.curr...

分數序列的前n項之和

有乙個分數序列 2 1 3 2 5 3 8 5 13 8 21 13 求這個分數序列的前n項之和。輸入輸入乙個正整數n。輸出輸出分數序列的和，結果保留4位小數。輸入示例 99 輸出示例 160.4849 提示在程式中使用雙精度浮點型別 double 變數來記錄分子分母以及和。include ...

workLog 序列的前處理 cutadapt

時間序列 模型前的轉換

Oracle中序列的操作以及使用前對序列的初始化

分數序列的前n項之和

相關推薦

時間序列模型前的轉換