R loop資料分析之R ChIP 環境準備

2021-09-20 01:07:29 字數 2103 閱讀 2270

提高自己分析能力的乙個好的方法就是重複別人文章裡的分析策略,所以這裡會嘗試對第一篇介紹r-chip技術文章"r-chip using inactive rnase h reveals dynamic coupling of r-loops with transcriptional pausing at gene promoters"裡的所有分析進行重複,我重複所用**會更新在我的github上,位址為

選擇這篇文章進行重複的理由有三點:

我整理下和資料分析有關的幾個知識點:

r-loop的高通量分析方法目前都是依賴於s9.6抗體捕獲rna/dna雜合體,然後超聲打斷或酶切,如果後續對dna進行測序,那就是drip-seq(dna:rna immunoprecipitation [drip] sequencing),如果後續對rna逆轉成的cdna繼續測序,那就是 [dripc]-seq(dna:rna immunoprecipitation followed by cdna conversion)。 然而酶切的解析度不夠,超聲又容易破壞脆弱的r-loop結構,於是就導致目前很多文獻報道有矛盾。

這篇文章就開發了一種新方法,基於rnase h的體內r-loop譜檢測策略。作者構建一種沒有催化活性,且在c端有乙個v5標籤的rnase h1,rnaseh1與rna/dna結合,超聲打碎,用anti-v5抗體進行染色體免疫共沉澱(chip)。隨後rna/dna雜合體轉換成雙鏈dna(ds-dna), 之後便是鏈特異性測序。

關於鏈特異性測序,推薦拜讀鏈特異性測序那點事

bowtie2: 比對工具

samtools: sam格式處理工具

bedtools: bed格式處理工具

macs2: 比對後找peak

r: 統計作圖

ngsplot: 視覺化工具

deeptools: bam檔案分析工具, 可作圖。

軟體安裝部分此處不介紹,畢竟如果你連軟體安裝都有困難,那你應該需要先學點linux基礎,或者去看生信必修課之軟體安裝

使用mkdir建立專案資料夾,用於存放後續分析的所用到的資料、中間檔案和結果

mkdir -p r-chip/
個人習慣,在專案根目錄下建立了四個資料夾

後續所有的操作都預設在r-chip下進行,除非特別說明。

根據文章提供的geo編號(geo: gse97072)在ncbi上檢索, 按照如下步驟獲取該編號下所有資料的元資訊, 我將其重新命名為"download_table.txt"然後上傳到伺服器, 。

獲取資料元資訊

tail -n+2 download_table.txt | cut -f 6 | xargs -i prefetch {} >> download.log &
新建乙個指令碼,叫做uncompress.sh,存放在scripts檔案下,**如下

#!/bin/bash

set -e

set -o pipefail

set -u

tail -n+2 download_table.txt | cut -f 6 | while read id;

do fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' &id -o analysis/0-raw-data &

done

然後用bash scripts/uncompress.sh執行。

注意:這是單端測序,所以每個srr只會解壓縮出乙個檔案

curl -s  -o index/hg19.zip &

cd index

unzip hg19.zip

R loop資料分析之R ChIP 環境準備

提高自己分析能力的乙個好的方法就是重複別人文章裡的分析策略,所以這裡會嘗試對第一篇介紹r chip技術文章 r chip using inactive rnase h reveals dynamic coupling of r loops with transcriptional pausing a...

資料分析之遊戲內關鍵資料分析

什麼是遊戲的相關性,作為乙個分析的 偵探 那麼遊戲的相關性也就是線索,熟悉遊戲的相關性的 心法 就可以快速和正確選擇分析的切入點。本文主要通過找到lol遊戲中角色金幣,進而演示。基礎篇 演示直接找到角色金幣邏輯,高階篇 中將會演示如何通過金幣的和交易邏輯的相關性找到角色的裝備 1 選定第乙個裝備欄位...

資料分析之Pandas

from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...