
广告:
集体水平的提升,需要大家一起努力
如果你有好的生信干货,欢迎分享给大家
请将稿件发送到
helen@shengxin.ren
或者直接留言
祝天天向上
一、简介
线粒体基因组数据被广泛的应用于系统与进化生物学, 群体遗传学和保护生物学等领域。随着测序技术的发展和费用的降低,大量的线粒体基因组序列将被测序出来。测序完毕之后常见的下游分析内容大概有组装、注释、提交和绘图。本文将简单介绍相应的软件和方法,希望能够帮助到大家(默认二代测序技术)。
二、常规分析内容
1、组装
线粒体基因组较小,不需要测mate pair库,如果有可能可以测写三代的数据,但是只有二代测序数据的情况下,也是可以组装的。
传统的一代测序技术中相应的拼接软件有ContigExpress 、DNAMAN、BioEdit等,而二代测序技术中数据量巨大,覆盖度高,针对线粒体组装可以利用soapdenovo,或者velvet等软件。建议多测试几个kmer参数,由于其基因较为密集,小的组装错误也会导致后面一系列的注释错误,建议组装完毕之后利用(read和参考序列)进行检查和纠正。
2、注释
线粒体的注释较为简单,大多数的动物中存在13个编码蛋白的基因、22个tRNA基因、2个rRNA和一个D-loop区。由于线粒体基因组比较保守,线粒体的注释一般都是通过blast和NCBI已有的参考序列进行比对,进行注释。
(1)编码基因的注释:常用软件-blast、clustalx、spin、orffinder等。
(2)rRNA的注释:常用软件-blast、clustalx、DOGMA等
(3)tRNA的注释:核心思想-通过二级结构确定反密码子类型,由于缺乏典型结构的奇异二级结构很难被检测到,在计算分析和线粒体注释时经常会被错过,必要的使用需要手工注释。常用的软件-tRNA-SE、MiTFi、CLUSTALX。
(4)D-loop或A+T富集区的注释
线粒体D-loop或者A+T富集区的注释内容主要包括:序列长度变化、保守基序和重复序列等,常用的软件:CLUSTALX、SPIN等。
3、基因组组分分析
对于线粒体基因组的组分分析,主要的内容包括:基因组特征分析、密码子特征分析、比较和进化分析、谱系基因组学分析等。
常用的软件有:MEGA5、BioEDIT等。
4、数据提交
常用Sequin提交,前文有介绍,不赘述。
5、线粒体整体结构绘图
蝉蛹的软件有CG view 、MTviz、OGDRAW等。这些软件可以利用用户提供的GB格式绘制高质量的基因组结构图。
三、展望
由于线粒体常规分析较为简单,非常适合形成流程化的分析模块,一键式完成分析。
参考文献:线粒体基因组数据的分析方法和软件
欢迎关注
集体水平的提升,需要大家一起努力
如果你有好的生信干货,欢迎分享给大家
请将稿件发送到
helen@shengxin.ren
或者直接留言
祝天天向上