DNA甲基化(DNAm)在特定CpG位点上的5-甲基胞嘧啶(5mC)比例随年龄而显著变化,因此DNA甲基化是法医学中估计个体年龄的关键分子标记,然而,基于年龄相关CpG位点(AR-CpG)DNA甲基化标记的年龄预测模型在不同细胞类型和组织中的表现不一致,尤其是精子发生过程中独特的甲基化模式,导致体细胞模型在精液中的表现不佳。同时目前的研究受到甲基化芯片覆盖范围有限的限制,因此,迫切需要鉴定和验证精液特异性的AR-CpG标记。 近日,华中科技大学同济医学院法医学系黄代新教授团队利用双酶切简化
基因组亚硫酸盐测序(dRRBS)鉴定出新的精液特异性年龄相关CpG(AR-CpG)位点,并通过亚硫酸盐扩增测序(BSAS)验证这些标记,再结合先前报道的位点和邻近CpG位点,以开发稳健的年龄估计模型。相关研究成果以“DNA methylation-based age estimation from semen: Genome-wide marker identification and model development”为题发表在《Forensic Science International: Genetics》期刊。本研究对21名健康中国男性(分为三个年龄组)的精液样本进行了全甲基化组关联研究,每个样本生成了超4M CpG位点(深度≥5×)。对721840个共有CpG位点的分析显示,超95%的位点未被传统甲基化芯片覆盖。差异甲基化和相关性分析鉴定出139个AR-CpG位点,并采用基于多重
PCR的BSAS两阶段验证过程。阶段,对dRRBS鉴定的129个精液样本(22-64岁)中前47个AR-CpG位点、26个文献报道的位点和242个邻近CpG位点进行预测,验证了31个dRRBS、26个文献报道的和152个邻近CpG位点与年龄相关。第二阶段,在247个样本(22-67岁)中检验了154个CpG位点,确认了71个AR-CpG位点(|rho| > 0.50)。其中,chr2:129071885(cg19998819)作为最强年龄相关标记(rho = 0.81)脱颖而出。利用第二个BSAS数据集,研究在重复嵌套交叉验证(CV)框架内开发了基于多元线性
回归和随机森林(RF)算法的年龄估计模型。RF模型在5-25个CpG特征子集上表现出更高的准确性。优化的9-CpG RF模型平均均方根误差为4.73年(4.62-4.96,SD=0.10),平均绝对误差为3.30年(3.23-3.43,SD=0.06)。本研究表明dRRBS在大规模AR-CpG发现中的实用性,并为法医学应用提供了一个稳健的年龄估计模型和一个全面的精液特异性AR-CpG位点参考数据库。
研究方法1)
样本收集:精液样本来自两组健康中国男性志愿者,一组用于标记鉴定,另一组用于标记验证和模型开发。2)
AR-CpG位点的识别:使用dRRBS技术对发现队列的精液样本进行全
基因组AR-CpG位点鉴定。3)
候选AR-CpG位点的选择:基于dRRBS鉴定的AR-CpG位点和文献中报道的位点,选择前50个AR-CpG位点进行进一步验证。4)
候选AR-CpG位点的验证:通过BSAS进行两阶段验证过程,定量检测候选位点及其邻近CpG位点的甲基化水平。5)
统计分析和年龄估计建模:使用嵌套交叉验证(CV)框架开发年龄估计模型,包括多重线性
回归(MLR)和随机森林(RF)算法。
结果图形 图1:研究流程图 图2:dRRBS鉴定精液中的AR-CpG位点 表1:dRRBS筛选出的候选年AR-CpG 图3:BSAS验证候选年龄相关CpG位点 图4:利用重复嵌套交叉验证(CV)方法进行年龄估计建模和性能评估。
易小结:研究亮点dRRBS技术的应用:dRRBS技术在大规模AR-CpG发现中的实用性,为法医学应用提供了稳健的年龄估计模型和全面的精液特异性AR-CpG位点参考数据库。
模型准确性:随机森林模型在5至25个CpG表征子集上表现出优越的准确性,优化的9-CpG模型实现了平均均方根误差4.73年和平均绝对误差3.30年的高精度年龄估计。
新标记的发现:研究不仅验证了先前报道的AR-CpG位点,还发现了新的与年龄强相关的位点,如chr1:19339432和chr13:93039685,为未来的法医学年龄估计提供了新的标记。
参考文献:Li Y, Liu X, Chen M, Yi S, He X, Xiao C, Huang D. DNA methylation-based age estimation from semen: Genome-wide marker identification and model development. Forensic Sci Int Genet. Dec 25;76:103215. pii: S1872-4973(24)00211-4. doi: 10.1016/j.fsigen..103215. PubMed PMID: 39752798.