rna-seq对lncrna检测的局限性

lncrnas一般表达水平较低,且在低水平即可发挥功能,常常被高丰度的rnas所遮盖(图1a1b[1] rna-seq对于lncrna检测存在严重的局限性。

由于lncrnas丰度低和缺少全长注释信息,导致lncrnas的定量不准。

如果仅仅是定性检测一个lncrna,少量的可重复测序reads即可满足需求。然而,由于rna-seq数据过于分散而导致的poisson误差,要实现精准定量,至少需要数百个reads [2]。然而,一般lncrna的表达丰度只有mrna的十分之一不到[3]。常规rna-seq在定量检测这些低丰度lncrna分子时通常表现不佳,无法满足差异表达分析的要求[1,4](图1c1d)。尽管增加rna-seq测序深度可以在一定程度上改善对表达量较高的转录本的检测,如mrna,但是对低丰度的转录分子lncrna则效果不显著。即使不计成本增加测序深度(虚线曲线,将普通20m rna-seq的测序深度提高数百倍),仍有一大部分(40%)转录本不能被准确定量(图1 c[4]。此外,rna-seq中所使用的fpkmfragments per kilobase of transcript per million mapped reads)计算方法需要lncrna转录本模型的精确长度,而很多lncrna注释目前仍缺少全长序列信息[5]。相反,lncrna芯片寡核苷酸探针以高亲和性杂交靶rna,不受其它高丰度rna的影响,即使对于低丰度lncrna,也具有高灵敏度,能够实现对其精确定量[] (1d)


                         

1.alncrna的表达中值比mrna10倍(参考gencode数据)[3]。(b)前1%的高表达基因(比如看家基因)占据了约40%rna-seq信号,而低表达的lncrna只有很少的信号覆盖 addin en.cite  addin en.cite.data [1]。(c)在一个典型的测序深度为40 mmrna-seq中,只有不到10%lncrna能够被可靠定量 d)当rna水平较低时,rna-seq的定量误差变得不可接受,而芯片持续表现良好[6]


rna-seq对剪接体覆盖度差,通常缺少跨越剪接位点的reads,难以准确检测lncrna转录本异构体

lncrna一般有多个转录本异构体,且不像mrna一样有保持连续开放阅读框的限制,因此组装更灵活和模块化[1]。不同异构体与其mrna靶基因之间存在不同的基因组位置关系和调控关系。因此,在转录本水平检测lncrna非常重要。然而,rna-seq对剪切异构体,特别是那些非主流异构体的覆盖度差且不均衡[1] (图2.a)。即便测序覆盖度达到饱和,实现转录本异构体的准确重新组装也面临内在性的挑战。由于reads较短,不能在距离较远的外显子之间建立有效关联 addin en.cite  addin en.cite.data [1],使得重新组装lncrna转录本异构体和实现定量变得十分困难 addin en.cite  addin en.cite.data [7-10]。而lncrna芯片上的转录本特异性探针是根据成熟的转录本异构体模型而设计,能够精确可靠地对转录本异构体实现检测和定量(图2.b)。


图2 (a)与表达水平较高的mrna相比,低水平的lncrna不能被rna-seq的短reads充分覆盖,不足以重新组装外显子模型,也无法实现定量[1]。(b)arraystar lncrna芯片转录本特异性探针(红色)可以准确、特异性的区分和定量具有不同致癌功能的转录异构体,如bcl2l1基因的不同转录本bcl-xl, bcl-xs, 和enst412972。与之相比,基因特异性探针(紫/黄/绿色)无法区分不同转录本。箭头代表转录方向。


rna-seq数据分析缺少公共lncrna数据库,无法快速的系统性注释和分析lncrna

不像蛋白编码基因已具有成熟的参考数据库,rna-seq目前仍缺少公共的完善可靠的参考数据库,以用于原始测序数据的序列比对和注释。此外,rna-seq 的短reads 5’末端或3’末端覆盖度不均一,且经常存在rna降解、或者逆转录过程不能完整的复制至rna 5’末端等因素,导致lncrna5’3’末端注释不完整[1]

arraystar lncrna芯片基于高质量的转录组和lncrna数据库,对各种来源的lncrna进行了全面收集,包括所有权威数据库、高分文章以及通过独家自有收集流程所得到的lncrna。相比其他平台,芯片注释更丰富,更详细,更全面。

1. lncrna芯片与rna-seqlncrna表达谱检测上的比较

arraystar lncrna 芯片 rna-seq
高灵敏度、高精准的定量lncrnas检测,即使每个细胞中只有1个lncrna 拷贝也可被检测 大部分表达水平低的lncrna不能被准确、可靠的定量检测
天然地具备链特异性检测能力,同时检测sense和anti-sense lncrna 需要预先构建链特异性测序文库,方可进行链特异性检测
明确、特异地检测lncrna转录本异构体 检测lncrna转录本异构体灵敏度低、准确性差
arraystar lncrna芯片包含自建的高质量的lncrna数据库、系统而详细的注释以及功能分析,同时囊括全部mrna编码基因 缺乏公共的lncrna参考数据库,无法对rna-seq数据进行快速的系统性注释和分析



相关服务

lncrna芯片技术服务>>


参考文献

1. deveson, i.w., et al., the dimensions, dynamics, and relevance of the mammalian noncoding transcriptome. trends genet, 2017. 33(7): p. 464-478.
2. anders, s. and w. huber, differential expression analysis for sequence count data. genome biol, 2010. 11(10): p. r106.
3. derrien, t., et al., the gencode v7 catalog of human long noncoding rnas: analysis of their gene structure, evolution, and expression. genome res, 2012. 22(9): p. 1775-89.
4. labaj, p.p., et al., characterization and improvement of rna-seq precision in quantitative transcript expression profiling. bioinformatics, 2011. 27(13): p. i383-91.
5. uszczynska-ratajczak, b., et al., towards a complete map of the human long non-coding rna transcriptome. nat rev genet, 2018. 19(9): p. 535-548.
6. zhang, x., et al., maternally expressed gene 3 (meg3) noncoding ribonucleic acid: isoform structure, expression, and functions. endocrinology, 2010. 151(3): p. 939-47.
7. consortium, s.m.-i., a comprehensive assessment of rna-seq accuracy, reproducibility and information content by the sequencing quality control consortium. nat biotechnol, 2014. 32(9): p. 903-14.
8. liu, y., et al., evaluating the impact of sequencing depth on transcriptome profiling in human adipose. plos one, 2013. 8(6): p. e66883.
9. steijger, t., et al., assessment of transcript reconstruction methods for rna-seq. nat methods, 2013. 10(12): p. 1177-84.
10. baruzzo, g., et al., simulation-based comprehensive benchmarking of rna-seq aligners. nat methods, 2017. 14(2): p. 135-139.