CLIP-seq结合了实验和测序方法,可以研究某种蛋白质在体内的RNA的结合情况。原理为基于RNA和RNA结合蛋白在紫外线照射下发生偶联,再经过蛋白特异性抗体将其沉淀,回收片段,再经添加接头,PCR扩增,进行高通量测序,最后经过生物信息学方法分析和处理得到相应的结果。本篇文章注重讨论后续的生物信息学处理。
这篇文章总结一下如何从测序得到原始数据到质控以及序列匹配和peakcalling等步骤,目的是得到蛋白质及其结合RNA的对应关系。涉及到的软件有fastx_toolkit(去接头质控)、bowtie(序列匹配)、samtools(生成bam文件)、bamtools(bam文件排序)、bedtools(bed文件)、piranha(peak_calling)等的使用。
首先讨论数据的获取,通常来源于公共数据库的下载,或者是实验所测得。公共数据库可以从多种途径上下,诸如ENA,SRA等。我处理的数据全部从SRA上下载。
fastx_toolkit: 安装编译网上教程均有,功能为去接头(adaptor),通常需要卡个长度阈值,然后进行质控(这边保留至少80%得分大于20的序列)。用到的命令有Clipper、Quality filter、Collapser。
clipper 用于减去接头,通常根据文章特定信息减去接头,或者根据不同的测序方法减去特定规定的接头序列(ilumina)。(cutadapt也能去接头,根据需要选)。quality filter用于质量控制,过滤掉质量偏低的序列,collapser用于压缩相同的序列,压缩完后fasta文件格式会转换为fastq格式。
samtools是一个用于操作sam和bam文件的工具合集,功能较多,这里用来将得到的sam文件抓换为bam文件。bamtools可用来对生成的bam文件进行排序,使其符合一定格式,有利于后续的peak calling,若不执行这一步,则在后续peak calling过程中会报错,提示你未对bam文件排序。
piranha是常用于进行peak calling的软件,可以通过调整不同的参数,最终能够得到一部分序列(bed文件)。后续再通过与hg19参考基因组进行取交集,就能得到pc后的序列对应的基因了。