arraystar human lncrna v5.0版本——完备、强化的全长lncrna收录

    与具有详尽注释的蛋白编码基因不同, lncrnas常常缺乏注释,信息分散且收集不全。例如,大部分被报道的lncrna 通过短reads装配而成并且一般都缺乏完整的5’末端或3’末端。通常情况下,由于rna降解或逆转录酶从3’末端方向合成dna,致使cdna文库5’末端的截短。此外,rna-seq reads在5’末端或3’末端覆盖度不均一。这些不精确或者截短的lncrna注释会对其下游应用产生巨大的影响,比如把mrna片段误认作lncrna,降低frkm评估转录本丰度的可靠性,以及错判lncrna的启动子位置。

    arraystar拥有高质量的转录组和lncrna数据库,对各种来源的lncrna进行了全面收集,包括所有权威数据库、高水平文章以及通过自有收集流程所得到的lncrna。在芯片lncrna收录过程中,对全长lncrna给予了特别关注。比如,优先选择公共数据库中注释为全长或有实验数据支持的lncrna。通过强有力的已知数据,对arraystar转录组数据库以及新近研究进展中的lncrna进行了严谨的序列完整性评估,包含是否有组蛋白标记,cage簇和dna酶i超敏位点(dhs)等数据支持的5’末端,poly(a)位点测序(3p-seq)数据支持的3’末端。另外,arraystar还使用多种方法对lncrna的编码潜能进行了评估,只有通过以上评估的lncrna才会被标记为全长lncrna,并被收录进芯片(图1)

     

1从各种来源对全长lncrna进行了全面强化地收集。


   arraystar人类lncrna v5.0芯片共收录了39,317lncrnas,主要分为两大类:8,393个金标准lncrnas30,924个可靠的lncrnas


金标准lncrnas     
 金标准lncrnas全部采用经过详细注释和实验验证确定的lncrnas,剔除了公共数据库中大量的lncrna部分片段、不完整的utrs和不可靠的lncrnas。金标准lncrnas具有完善的信息标注,包括转录单位、转录本异构体、功能机制以及亚细胞定位。它们的主要来源如下:
•lncrnadb v2.0 汇集了功能性的lncrnas [1];
•lncrnawiki 收录的经过实验验证的特色lncrnas;
•level 1 gencode v21 lncrnas精选了具有 rt-pcr-seq 方面实验数据支持的lncrnas [2];
•refseq 严格筛选了可信度高,具有全长序列的lncrnas;
•arraystar lncrna通过 encode cage clusters, polya-seq, 深度 rna-seq以及 capture seq获得的,具有5’tss,3’末端和表达量信息的全部lncrna转录本 [3, 4].
•arraystar 保持严格评估lncrna完整转录本的一贯性原则,持续从高水平文章中精选lncrna


·     可靠的lncrnas  

  这些lncrnas序列通常由转录单位而获得,是除了金标准lncrnas外,lncrnas转录组中全面且高度可信的lncrnas分子集合。根据转录本来源数据库,转录本长度和其他有效信息,从每个转录单位中挑选出一个具代表性的lncrna,最终从308525个lncrna序列中筛选出32667个可靠的lncrnas分子。


相关服务

lncrna芯片技术服务>>