原创:小张聊科研|微信公众号
咱们平常一直在讲数据挖掘、生信分析,但是给大家的第一感觉:生信文章都是灌水的!对申请基金没啥帮助。
我们在平台的科研群中问了这样的问题。
提问:大家觉得生信分析类的文章对申请基金的工作基础有用吗?有助于大家毕业吗?
群友们的回答:
群友1:我们学校专业型可以用来毕业,科研型不能用生信文章毕业。
群友2:预测作用大点,有实验验证的有点用,但不大。
群友3:可以用做开题吧,作为基金的思路寻找。
群友4:大数据是趋势,生信就像导盲犬,指导盲人摸象。 生信分析可以从理论层面增加研究的可行性,个人认为对申请基金很有帮助。但是如何筛选、清洗、分析生信,人个见智。
群友5:生信很有用
总体而言,生信在发文章以及申请基金方面还是有很大帮助的,今天咱们来分享一篇文章,和以往低分灌水嫌疑的不同,这一篇GEO数据挖掘配合样本的验证,居然发到了《核酸研究》(NAR)(IF为11.5分)。
文章解读:造血干细胞可分化为多种血细胞,类群较多。这个分化过程是严格调控,尤其受到转录因子,microRNAs和长非编码RNA等的调控。近些年环状RNA(circRNA)在调节细胞生物学过程起着非常重要的作用。这篇文章作者们使用GEO里的转录组测序数据,提供了第一个全面的分析人造血干细胞在分化过程中circRNA表达谱系的变化。我们在这里展示了circRNA的表达,且具有细胞特异性,随着分化的过程的成熟而增加。circRNA剪接变异体在不同细胞类型中也有不同表达差异。其中血小板和红细胞,在很多研究中被认为利用RNA维持其功能,而且在调控细胞微环境功能时,可以通过通过微囊泡传递非编码RNA到其他细胞。这里我们证明血小板和红细胞中circRNA的含量在所有的血细胞中含量是最高的。
CircRNA以及造血干细胞的分化谱系
GEO中不同细胞的数据SRA获取号:
血小板:(project: PRJEB4522):ERR335311, ERR335312以及 ERR335313;
红血细胞: (GEO: GSE63703) SRR2124299, SRR2124300,SRR2124301以及(GEO: GSE69192) SRR2038798 ;
粒细胞: (project: PRJEB8740) ERR789064,ERR789082, ERR789195以及ERR789201。
CircRNA在各个细胞中的表达差异
这里面作者用到了DCC和CircExplorer2 (CE)两种工具分析筛选到差异表达的4103种circRNA,其中大概有1000多种circRNA没有在circbase以及circNET中被详细收录。
差异表达的circRNA对其在染色体上的分布统计,每个circRNA上的外显子数量,circRNA在基因位置上的数量(一个基因不只是转录一个circRNA),每个转录本上的外显子数量,以及转录本环化的起始外显子位置以及终点外显子位点。
每个不同血细胞类群中特异性差异表达的circRNA展示,差别还是非常大的。
作者对差异表达最显著的102 circRNAs进行K-means算法聚类,进行不同细胞类群的聚类展示,其中2, 3, 5, 12以及 14中的circRNA来自于始祖细胞,例如HSCs,MMPs以及LMPP等。模块5中circRNAs同时存在于HSC 、 MPPs 以及 NK 细胞中,等等,作者通过生信对circRNA在分化中的细胞谱系变化做了详细的聚类分析,有助于确认哪些circRNA在哪类分化的细胞中表达差异变化。
在所有的细胞类型中,总共有59011个circRNA被检测到(不只是差异表达的circRNA),其中血小板拥有47 654个 circRNA ,而红细胞有27 409个,粒性白血球里有8 925个。经过设定筛选阈值,可信的circRNA在这三种细胞中分别为10729、5878、1989个。
三种细胞类群的circRNA的联合分析,其中有1087个是三者共有的。
文章的最后自然是作者通过对血液样品的样本验证,选取了典型差异表达并且特异性的circRNA们进行验证,作者使用血液样品离心之后的四个组分进行验证,红细胞不论是新生的还是年老的细胞,circ-TET2 (exon 3), circ-ANKRD12 (exon 2-8), circ-MAN1A2(exon 2-5)和SPECC1 (exon 4)都能检测到,令人惊喜的是SOX6 mRNA 可以在新生的网状细胞检测到,circ-SOX6只能在成熟的网状细胞中检测到。
啧啧啧,这么多的研究课题通过生信分析,大数据挖掘展示了全新的研究思路,这得产生多少课题出来,申请基金再也不用愁,课题设计再也不用愁。
这里面我们讲了造血干细胞分化中circRNA的细胞特异性差异表达以及验证过程,那么lncRNA呢?miRNA呢?这些都可以作为我们分析的角度,另外可以联合单细胞测序对于其他疾病类型或者组织样本进行分析。
原文:GEO数据挖掘文章发到11分,是如何做到的?
来第一个抢占沙发评论吧!