除了之前merge,拿qc分數過濾(已經忘了是怎麼做的),還有一些其他的處理要做。
序列有正反兩端,還有不同的3』,5』的尾巴,不處理不足以平民憤。
水平太有限了,10e7的序列也不知道怎麼統計和比對。反正也是要找相同的序列,用seqkit發現有乙個sort功能(sort的規則沒看明白),-s 按seq sort,幹就完了。
seqkit sort -s outm.fa -o sortall.fa
然後split成一百份試試看ho。
seqkit split -p 100 sortall.fa
多了乙個資料夾,裡面檔案字尾001-100的
但是stats看一下,前面和後面的檔案seq length都是250-490,不過aaa開頭的都在前半,51的一半(51_5)都是反向序列,後面都是cat…開頭的正向序列
計畫拿酶切位點trim,正向序列是ccatgg…gcggccgc
安裝cutadapt去處理序列
參考:
$ conda install -c bioconda cutadapt
拿part2試一下
cutadapt -a ccatgg sortall.part_002.fa -o trimp2.fa
再試translate frame -3就很好了,開頭是qvql什麼的
cutadapt -g gcggccgc trimp2.fa -o trimp2ag.fa
另一端也trim了。結尾就是tvs(最後乙個s在建庫時候變成了a)
翻譯一下,發現完全ojbk!
trim時候還會給出有多少被trim掉的比例,就可以找到測序中丟失的序列數。好得很
時間序列 模型前的轉換
1.sqrt轉換 先看序列的trend,如果有二次曲線的表現形式的話,可以做個sqrt 昨晚sqrt之後張成這樣子 原來的資料長這樣 做個sqrt from pandas import series from pandas import dataframe from numpy import sqr...
Oracle中序列的操作以及使用前對序列的初始化
一 建立序列 create sequence myseq start with 1 increment by 1 nomaxvalue minvalue 1 二 初始化序列 select myseq.nextval from dual 這裡值得注意的是,如果先直接寫select myseq.curr...
分數序列的前n項之和
有乙個分數序列 2 1 3 2 5 3 8 5 13 8 21 13 求這個分數序列的前n項之和。輸入 輸入乙個正整數n。輸出 輸出分數序列的和,結果保留4位小數。輸入示例 99 輸出示例 160.4849 提示 在程式中使用雙精度浮點型別 double 變數來記錄分子 分母以及和。include ...