用于 RNA 序列数据的 MATLAB, 一个duuude如何使用MATLAB预处理RNA-seq数据

这就是我如何使用 MATLAB 获取 RNA-Seq 数据,以便使用标准领结程序进行分析。我是一名新手编码员,所以请将其理解为“我做了什么”,而不是“你应该做什么”。我也欢迎有关处理这些数据任务的更好方法、更好的 MATLAB 编码等方面的建议。

我在这个项目中的目标是使用 RNA 序列来精确定位转录起始位点(确切地说是某个基因中 RNA 生产开始的位置)。

为此,我保存并纯化了 RNA 的独特起点,并将定义的 RNA 序列(我称之为 5’ RNA 接头)附加到 RNA 的起点。然后我使用一种称为逆转录酶的病毒酶将所有 RNA 转化为 cDNA(用于互补 DNA)。然后,我使用对该基因特异的引物,仅从我感兴趣的基因中扩增了 cDNA。最后,我对扩增的 cDNA 进行了测序并分析了这些序列读数。

在这里插入图片描述

正如我在上面第一篇文章中解释的那样,序列数据以 fasta 文件的形式返回给我。在这里我需要做一个不好意思的说明:我在第一篇文章中写的代码按照我的要求工作。问题是我没有要求 MATLAB 做正确的事情——我指定的输出不适用于 bowtie 程序(我在上面的第二篇文章中写过)。

我在这里讨论的代码确实以类似于第一篇文章的方式处理数据,但采用的方式是 bowtie 可以接受的。

导入文件并反向补二读……

我的首要任务是简单地读取 fastq 数据文件,MATLAB 通过内置函数为我简化了这些文件,该函数可以导入文件并将标准化数据格式分配到 MATLAB 所谓的结构文件中。我有两个文件要导入,因为我请求的 RNA-Seq 类型是双端读取&#x

猜你喜欢

转载自blog.csdn.net/code2day/article/details/131273251
今日推荐