RepeatMasker软件介绍

admin 64 2025-02-05 11:45:44 编辑

RepeatMasker是一款用于寻找DNA序列中中间重复序列和低复杂度DNA序列的软件。这个软件的输出是对其中重复序列的碱基进行标注,默认的是改为N。目前56%的人类基因组重复序列的标注用的是这个工具。RepeatMasker 使用序列比较的工具包括:nhmmer, cross_match, ABBlast/WUBlast, RMBlast and Decypher。数据库位已经验证的重复序列数据库,目前也支持Dfam ( profile HMM library derived from Repbase sequences ) and Repbase。

官网: http://www.repeatmasker.org/

一、Repeats的分类

Transposable elements (TE)跟基因组结构,基因组大小,基因组重拍,host gene ,进化有关。从而影响基因组测序、组装、注释和序列比对。这样的结构在基因组中显得尤为重要。基因组中的repeats依据其序列特征分成2类:串联重复(tandem repeats) 和 散在分布在基因组中的重复序列(interspersed repeats).其中第二类主要是transposable elements(TEs).类串联重复包含:microsatellites 或 simple sequence repeats(1-6个碱基为一个重复单元) 和 minisatellites(10-60个碱基的长序列为一个重复单元).TEs包含2种类型:class-I TEs通过RNA介导的(copy and paste)机制进行转座;class-II TEs通过DNA介导的(cut and paste)机制来转座. 前者称为retroelements,后者称为DNA transposons。

class-I TEs中主要由LTR(long terminal repeat)构成。LTR的部分序列可能具有编码功能。而non-LTR则包含2个子类:LINEs(long interspersed nuclear elements)和SINEs(short interspersed elements),其中前者可能具有编码功能,后者则没有。

class-II TEs中加入了一个子类 MITEs(miniature inverted repeat transposable elements),基于DNA的转座因子,但是确通过”copy and paste”的机制来转座(Wicker et al., 2007)。

重复序列的种类:

(1)Tandem repeats 串连重复

   (i) Satellite DNA 卫星DNA

    (ii)Variable number tandem repeat /Minisatellite 小卫星

    (iii)Short tandem repeat(STR)/Microsatellite (Trinucleotide 

    repeat disorders)微卫星

(2)Interspersed repeats 散落重复

   (i) Transposon (Transposable elements (TEs) )转座子

    (ii)Retrotransposon 反转录转座子

    (iii)SINEs – Alu sequence, MIR 短散落元件

    (iiii)LINEs – LINE1, LINE2 长散落元件

    (iiiii)LTRs – HERV, MER4, retroposon 长末端重复

(3)DNA transposon DNA转座子

   (i) MER1, MER2, Mariners

    (ii)TIR(Terminal Inverted Repeat) 末端方向重复

    (iii)Discovery (发现新的)和Detect (从已知中确认)

 transposable   elements的方法

二、RepeatMasker的安装

(这个步骤我没弄)

三、RepeatMasker具体参数

RepeatMasker -pa 4 -species human -xsmall mask_output/temp.fasta -dir ./mask_output

参数详解:

-pa(rallel) [number] The number of processors to use in parallel (only works for batch files or sequences over 50 kb) -species Specify the species or clade of the input sequence. The species name must be a valid NCBI Taxonomy Database species name and be contained in the RepeatMasker repeat database. Some examples are: -species human -species mouse -species rattus -species "ciona savignyi" -species arabidopsis-xsmall Returns repetitive regions in lowercase (rest capitals) rather than masked

四、报错

1. Repeatmasker genome ID length < 50

序列名字长度不超过50个字符即可

参考资料:http://fhqdddddd.blog.163.com/blog/static/1869915420139160262497/https://groups.google.com/forum/#!topic/maker-devel/irorQYQO79sIdentifying repeats and transposable elements in sequenced genomes: how to find your way through the dense forest of programs。E Lerat。Heredity (2010) 104, 520–533; doi:10.1038/hdy.2009.165; published online 25 November 2009文献《Discovering and detecting transposable elements in genome sequences》

文章原文:http://qinqianshan.com/repeatmasker/

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 一步一步教你写perl(二)
相关文章