RepeatMasker是一款用于寻找DNA序列中中间重复序列和低复杂度DNA序列的软件。这个软件的输出是对其中重复序列的碱基进行标注,默认的是改为N。目前56%的人类基因组重复序列的标注用的是这个工具。RepeatMasker 使用序列比较的工具包括:nhmmer, cross_match, ABBlast/WUBlast, RMBlast and Decypher。数据库位已经验证的重复序列数据库,目前也支持Dfam ( profile HMM library derived from Repbase sequences ) and Repbase。
官网: http://www.repeatmasker.org/

一、Repeats的分类
Transposable elements (TE)跟基因组结构,基因组大小,基因组重拍,host gene ,进化有关。从而影响基因组测序、组装、注释和序列比对。这样的结构在基因组中显得尤为重要。基因组中的repeats依据其序列特征分成2类:串联重复(tandem repeats) 和 散在分布在基因组中的重复序列(interspersed repeats).其中第二类主要是transposable elements(TEs).类串联重复包含:microsatellites 或 simple sequence repeats(1-6个碱基为一个重复单元) 和 minisatellites(10-60个碱基的长序列为一个重复单元).TEs包含2种类型:class-I TEs通过RNA介导的(copy and paste)机制进行转座;class-II TEs通过DNA介导的(cut and paste)机制来转座. 前者称为retroelements,后者称为DNA transposons。
class-I TEs中主要由LTR(long terminal repeat)构成。LTR的部分序列可能具有编码功能。而non-LTR则包含2个子类:LINEs(long interspersed nuclear elements)和SINEs(short interspersed elements),其中前者可能具有编码功能,后者则没有。
class-II TEs中加入了一个子类 MITEs(miniature inverted repeat transposable elements),基于DNA的转座因子,但是确通过”copy and paste”的机制来转座(Wicker et al., 2007)。
重复序列的种类:
(1)Tandem repeats 串连重复
(i) Satellite DNA 卫星DNA
(ii)Variable number tandem repeat /Minisatellite 小卫星
(iii)Short tandem repeat(STR)/Microsatellite (Trinucleotide
repeat disorders)微卫星
(2)Interspersed repeats 散落重复
(i) Transposon (Transposable elements (TEs) )转座子
(ii)Retrotransposon 反转录转座子
(iii)SINEs – Alu sequence, MIR 短散落元件
(iiii)LINEs – LINE1, LINE2 长散落元件
(iiiii)LTRs – HERV, MER4, retroposon 长末端重复
(3)DNA transposon DNA转座子
(i) MER1, MER2, Mariners
(ii)TIR(Terminal Inverted Repeat) 末端方向重复
(iii)Discovery (发现新的)和Detect (从已知中确认)
transposable elements的方法
二、RepeatMasker的安装
(这个步骤我没弄)
三、RepeatMasker具体参数
RepeatMasker -pa 4 -species human -xsmall mask_output/temp.fasta -dir ./mask_output
参数详解:
-pa(rallel) [number]
The number of processors to use in parallel (only works for batch
files or sequences over 50 kb) -species
Specify the species or clade of the input sequence. The species name
must be a valid NCBI Taxonomy Database species name and be contained
in the RepeatMasker repeat database. Some examples are:
-species human
-species mouse
-species rattus
-species "ciona savignyi"
-species arabidopsis-xsmall
Returns repetitive regions in lowercase (rest capitals) rather than
masked
四、报错
1. Repeatmasker genome ID length < 50
序列名字长度不超过50个字符即可
参考资料:http://fhqdddddd.blog.163.com/blog/static/1869915420139160262497/https://groups.google.com/forum/#!topic/maker-devel/irorQYQO79sIdentifying repeats and transposable elements in sequenced genomes: how to find your way through the dense forest of programs。E Lerat。Heredity (2010) 104, 520–533; doi:10.1038/hdy.2009.165; published online 25 November 2009文献《Discovering and detecting transposable elements in genome sequences》
文章原文:http://qinqianshan.com/repeatmasker/