自己测数据就一定好吗?

admin 85 2025-02-15 14:58:08 编辑

这两天一直忙着做一些项目,也没有时间写稿子。

最近遇到了很多有数据分析的客户都是自己手头有数据,盘算着这总算是我自己的数据,总比网上杂七杂八的数据质量好,我是不是用这个数据就能发好一点的文章呢,或者说是不是就能得到较好的结果呢。

答案很明显不是。

其实我们做生信分析的之所以舍近求远选择网上的数据,也是有很多原因的,说白了,就是被迫的。

网上的数据,大部分比较规范,各种信息比较齐全,分析起来坑比较少,容易自洽。

客户自己测数据本来是好事,但是如果达不到如下的几个标准,可能事倍功半。

、样本量充足性

遇到的大部分客户都存在这个问题,测得样本量很少,基本就是一个实验一个对照,这样的结果其实没有统计学意义,远远不如GEO上下载一套相关性大的数据来的容易,简单又粗暴,免费还有效。如果样本量不够,建议就别做了。

第二、随访信息完整性

某些样本进行测序分析,进行定量或者突变鉴定这样的样本很多,少的是患者的随访信息是否齐全。大家之所以喜欢TCGA的数据,是因为临床信息比较齐全,做的分析很容易跟临床相关联。如果你的随访信息不完整,建议就别做了。

第三、实验设计合理性

很多客户手里有着非常稀有的样本,但是实验设计上不是很完美,看着大家都跟风做ncRNA就测的ncRNA,殊不知表达谱数据其实也没有,这样的实验设计,其实效果就会有折扣。当然还有童鞋存在其他的问题,实验设计上存在高射炮打蚊子的情况。有点浪费资源,好钢还落不在刀刃上。

总之,自己的数据相比公共数据库的数据更加贴合实验室的研究背景,相对较为独特。前提是实验设计一定要合理,数据是生信分析文章的一个极为重要的部分,前期合理设计,预计结果,从什么角度展开讨论都是需要提前考虑的。

以上是我个人的一点小的想法,希望对大家实验设计有所帮助。

如果大家有生信分析的需求,或者前期生信课题的设计,欢迎随时撩骚。

2019年,遇见更好的自己

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 质粒构建全解析:原理、方法与关键步骤
相关文章