金标准lncrnas和可靠的lncrnas

      与具有详尽注释的蛋白编码基因不同, lncrnas常常缺乏注释,信息分散且收集不全。arraystar拥有高质量的转录组和lncrna数据库,通过生物信息学方法建立了科学、严谨的lncrna筛选流程。 arraystar人类lncrna v4.0芯片共收录了40,173 个lncrnas,主要分为两大类:7,506个金标准lncrnas和32,667个可靠的lncrnas,实现了对所有权威数据库(如refseq, uscs known genes, gencode, lincrna catalogs, lncrnadb, t-ucrs, rnadb, nred 等)、高水平文章和超过47 tb rna-seq数据中的lncrna最全面、最可靠和最及时的整理和收集。


金标准lncrnas

       金标准lncrnas全部采用经过详细注释和实验验证确定的lncrnas,剔除了公共数据库中大量的lncrna部分片段、不完整的utrs和不可靠的lncrnas。金标准lncrnas具有完善的信息标注,包括转录单位、转录本异构体、功能机制以及亚细胞定位。它们的主要来源如下:

•lncrnadb v2.0汇集了功能性 lncrnas [1];

•arraystar 筛选和收集了高水平文章中的lncrna;

•level 1 gencode v21 精心挑选了具有rt-pcr-seq方面实验数据支持的lncrnas [2];

•refseq 严格筛选了可信度高、具有全长序列的lncrnas ;

•arraystar 通过encode cage clusters,,polya-seq,深度rna-seq以及capture seq获得的,具有5’tss、3’末端和表达量信息的全部lncrna转录本 [3, 4]。


可靠的lncrnas

       除了金标准lncrna外,其他的 lncrna序列主要通过整合数据库和经典文献中的转录单位(transcription units)而获得。dna链的转录起始于dna模板的一个特殊起点,并在一个终点处终止,此转录区域称为转录单位。根据转录本长度、来源数据库和其他有效信息,每个转录单位挑选一个最具代表性的lncrna进行检测。最终从308,525个lncrna序列中筛选出32,667个可靠的 lncrnas分子。


相关服务

lncrna芯片技术服务

超级增强子lncrna芯片技术服务

lncpathtm芯片技术服务

nrstartm human functional lncrna pcr芯片技术服务

t-ucr芯片技术服务



参考文献

1. quek x.c. et al. (2015) nucleic acids res. 43(database issue):d168-73 [pmid: 25332394]

2. howald c. et al. (2012) genome res. 22(9):1698-710 [pmid: 22955982]


3. clark m.b. et al. (2015) nat. methods 12(4):339-42 [pmid: 25751143]

4. iyer m.k. et al. (2015) nat. genet. 47(3):199-208 [pmid: 25599403]