引言:为什么序列特征自定义注释值得认真对待
基因组组装完成后,摆在研究者面前的是一长串ATCG字符——如果不做注释,这些序列只是一堆无意义的字母。序列特征自定义注释就是把原始序列转化为有生物学意义的信息的关键一步:标记基因的位置、定义功能区域、标注调控元件,让后续的功能研究和应用开发有据可依。

与标准化的自动注释不同,自定义注释允许研究者根据实验目的定义特征类型、添加描述性元数据、设定显示颜色和链方向,甚至在序列图上标注自定义字段。这种灵活性对于非模式物种研究、特殊实验设计或企业内部的序列管理流程尤其重要。
本文将从注释策略、工具选型、实操流程和常见问题四个维度展开,帮助你在实际项目中高效完成序列特征自定义注释。
结构注释的三大策略:各有长短,必须组合
基因组注释分为结构注释和功能注释两大阶段。结构注释解决的是"基因在哪里"的问题,也是自定义注释的基础。目前主流的结构注释策略有三种,各有优劣:
- 从头预测(de novo prediction):基于统计模型(如隐马尔科夫模型)直接从序列模式中预测基因结构。常用工具包括 Augustus、GlimmerHMM、SNAP 和 GeneID。Augustus 内置了人、斑马鱼等物种的训练集,也可以用转录组和同源预测的最优结果自行训练。从头预测的优势是不依赖外部数据,缺点是对剪接位点和UTR区的预测准确率较低。
- 同源预测(homology-based prediction):利用近缘物种的已知蛋白或基因组序列,通过比对确定基因结构。典型流程是用 TBLASTN 将蛋白比对到基因组(E-value 阈值通常设为 1e-5),再用 GeneWise 或 Exonerate 进行精确比对以确定剪接位点。陆地棉基因组注释中就使用了 7 个植物物种的蛋白集进行同源预测。同源预测准确率高,但依赖高质量的近缘物种数据。
- 转录组辅助预测:使用 RNA-seq 或三代全长转录本(Iso-seq)数据辅助注释。流程通常包括 Tophat/HISAT2 比对 → Cufflinks/StringTie 组装转录本 → PASA 预测可变剪切。三代转录本与二代数据联合使用效果更好,能更准确地确定外显子边界和剪接位点。
三种策略各自的假阳性和假阴性不同,因此需要用整合工具合并结果。EvidenceModeler(EVM)和 GLEAN 是最常用的整合方案——它们会为每种预测结果分配权重,最终输出非冗余的基因结构集。在陆地棉注释中,EVM 整合后的筛选条件包括 Cscore > 0.5、肽段覆盖率 > 0.5,并过滤掉编码区 30% 以上被转座子域注释覆盖的基因模型。
功能注释:从基因位置到生物学意义
结构注释确定了基因的位置和边界,功能注释则回答"这些基因做什么"。功能注释的核心是数据库比对:
| 注释维度 | 常用数据库/工具 | 输出内容 |
| 蛋白功能 | Swiss-Prot、TrEMBL(BLASTP) | 蛋白名称、功能描述 |
| 蛋白结构域 | Pfam、InterPro(HMMER、InterProScan) | 保守结构域、功能位点 |
| 基因本体论(GO) | 基于 InterPro/Pfam 映射 | 分子功能、生物过程、细胞组分 |
| 代谢通路 | KEGG | 代谢通路、信号转导路径 |
功能注释的准确性取决于数据库的覆盖度和比对参数的设置。对于非模式物种,Nr(NCBI 非冗余蛋白数据库)通常是第一步比对的必选项,因为它涵盖了最广泛的物种信息。
自定义注释的实现方式:工具与平台
标准的 GFF3 或 GenBank 格式可以记录基因结构,但自定义注释的需求往往超出这些标准格式的字段范围。以下是几种常见的实现途径:
商业软件平台:Geneious Prime 支持创建自定义注释数据库,用户可以定义注释类型、颜色、链方向和附加字段。Benchling 的 Feature Library 提供了标准化和自动化的注释管理能力,适合团队协作。DNASTAR 的 SeqBuilder Pro 也支持基于预设或自定义特征数据库的自动注释。
脚本化方案:对于需要批量处理或与企业系统对接的场景,使用 Biopython 等编程库读写 GFF3/GenBank 文件是更灵活的选择。可以在标准字段基础上添加自定义 attribute 列,实现特征分类、实验标签、来源追溯等需求。
企业级序列管理:在生物医药研发场景中,序列特征的自定义注释往往与实验室信息管理系统(LIMS)、电子实验记录本(ELN)深度集成。衍因科技的智研云平台就提供了从序列分析、克隆设计到实验记录的一体化环境,支持在统一的平台基座上管理序列注释与实验数据,确保数据可追溯和合规。这种模式下,自定义注释不再是孤立的文件操作,而是嵌入研发全流程的数据节点。
重复序列屏蔽:注释前的必经步骤
真核生物基因组中大量存在重复序列(散在重复和串联重复),如果不先屏蔽这些区域,从头预测会产生大量假阳性。重复序列注释的常用工具组合包括:
- RepeatMasker:基于 Repbase 数据库查询已知重复序列,是使用最广泛的工具。
- TRF(Tandem Repeats Finder):基于序列结构特征识别串联重复。
- LTR-FINDER:专门识别长末端重复序列(LTR)。
- RepeatModeler:基于自身序列比对构建物种特异的重复序列库,适用于非模式物种。
重复序列屏蔽后再进行从头预测,可以显著降低假阳性率。实际项目中一般选择 2-3 种从头预测工具即可,过多工具会增加假阳性,反而降低整合结果的可靠性。
实操中的常见问题与解决思路
训练集质量决定预测质量:Augustus、GlimmerHMM、SNAP 等工具都需要训练集。使用物种自身的转录组或同源预测结果生成的训练集,效果通常优于软件自带的模式物种训练集。在 Cardamine hirsuta 基因组注释中,研究者随机选取了 2000 个位点(含 20% 单外显子基因)作为训练集,这一做法值得借鉴。
注释格式兼容性:不同工具输出格式可能略有差异,整合前需要统一为标准 GFF3。GeneMoMa 对输入 GFF 格式要求严格,从 NCBI RefSeq 或 Ensembl 下载的格式通常可以直接使用,其他来源可能需要脚本预处理。
自定义字段的标准化:团队协作中,自定义注释的字段定义需要统一。建议在项目启动时就确定注释类型的命名规则、必填字段和可选字段,避免后期合并时出现字段冲突。
结语
序列特征自定义注释是从原始序列数据到可解读生物学知识的关键桥梁。选择合适的注释策略组合(从头预测 + 同源预测 + 转录组辅助),用 EVM 等工具整合结果,再通过功能数据库比对赋予生物学意义——这个流程虽然环节多,但每一步都有成熟的工具和方法支撑。
对于需要将序列注释嵌入研发流程的团队,选择支持自定义特征管理的平台(如 Geneious、Benchling 或衍因智研云),可以显著降低注释管理与实验数据之间的割裂感,让序列信息真正服务于科研决策。