最近在高度分化的真核细胞基因表达的研究领域发现了一个新的特征,即环状RNA(circRNA)的广泛分布。在过去的几年时间里,许多运算法则被用于从RNA测序数据中检测全基因组的circRNA。但这些算法预测的交集却很少,并且至今仍缺乏一个明确的金标准来评估这些算法的准确性。来自斯坦福大学医学院的研究者们回顾了原始数据中使circRNA的准确发现变得复杂化的实验性误差和生物信息学偏倚,并且讨论了处理这些偏倚的统计学途径。
- 2012年,对全基因组剪接的统计学分析发现了circRNA在真核细胞中的普遍表达,并且发现在百余个人类基因中circRNA构成了其主要的亚型。circRNA的表达之前一直被忽略,主要是由于建库过程中以及算法上对未注释的剪接事件过滤的偏差所造成的。
- 由于实验处理、序列的同源以及外显子边缘序列的退化等因素,使得在正确的剪接位点指定读取片段变得复杂。即使是准确地指定到注释的剪接点,这么一个看似比识别未注释的剪接事件简单的任务,都一直没有得到解决。
- 常用的RNA测序方法引入了技术处理手段,能发现认定新的剪接事件,包括circRNA。运用统计学方法测试这些技术处理可以避免高的假阳性率,且不降低运用严格的生物信息学过滤所带来的敏感度。
- 当评估一个剪接位点是否真正表达的时候,读取片段的数量并不是可靠的指标。减少对读取片段数量依赖的统计学方法提高了新型线性剪接检测的准确性,使得通过U12(小)剪接体剪接形成的circRNA的发现成为可能,并且减少了由于同源基因高表达所产生的假阳性的circRNA。
- 在已经发表的circRNA检测算法中,两两间预测的结果几乎没有交集。而且在这一领域缺乏明确的金标准用于评估这些算法全基因组预测的准确性。RNA酶R(RNaseR)耐受可用于确认预测的circRNA,但在正规化、常规化以及适当的富集试验方面还有更多的工作要做,从而能够在全基因组水平评估其准确性。
- 在高度分化的真核细胞间,circRNA的表达非常广泛,并且来源于特定基因的circRNA的高表达都是保守的。circRNA的保守性、组织或发育阶段特异性调节等特征都为circRNA的生物学功能提供了详细的证据,尽管其大部分生物学功能仍然未知。
Figure:从RNA测序数据中发现环状RNA的挑战
Aa-Ac:不同准备方法构建的文库中环状RNA数量的变化。粉色表示Poly(A) RNA,绿色表示非Poly(A) RNA,蓝色表示环状RNA。Aa:几种常用的提高circRNA相对数量的RNA纯化方法。circRNA在Poly(A)+文库中数量相对少,在去除核糖体RNA(rRNA–)的文库中得以保留。在去除Poly(A)的rRNA–文库中circRNA的读取片段构成比大大增加。在进一步经过RNaseR处理后的文库中则占主要成分。Ab:根据大小筛选去除了非常小的circRNA和线性RNA。Ac:Oligo(dT)引物会使circRNA的反转录出现偏差。
Ba-Bc:常用的RNA测序方法中已知的加工处理方法。Ba:反转录可使两个不同的RNA分子以非经典顺序连接,尤其是两个RNA包含共有序列时。Bb:两个不同的cDNA在接头连接时可能以非经典顺序连接在一起,Bc:反转录可从模板链转移cDNA,生成一个包含同一circRNA多个拷贝的单个cDNA。
C:同源性和测序错误可导致反向剪接点的错误判别。在这个例子中,两个来自于一个线性的2-3号外显子剪接产生的片段在测序时出现了一个碱基读取错误,而被误识别为3-2外显子反向剪接。如果根据反向剪接识别的配对物对应在基因组区域外,那么它能正确地被作为假阳性剔除。而如果配对物对应在假定的环状结构里,那么它会被错误地认为是circRNA。注:为了更清楚地阐明,mRNA序列被标示成与DNA相同。
原文献:Szabo L, Salzman J. (2016) detecting-circular-rnas-bioinformatic-and-experimental-challenges. Nat Rev Genet 17(11):679-692. [abstract]
来第一个抢占沙发评论吧!