当前位置:首页 >> 农林牧渔 >>

microRNA计算发现方法的研究进展


HEREDITAS (Beijing) 2008 年 6 月, 30(6): 687― 696 ISSN 0253-9772 www.chinagene.cn

综述

DOI: 10.3724/SP.J.1005.2008.00687

microRNA 计算发现方法的研究进展
侯妍妍, 应晓敏, 李伍举

r />军事医学科学院基础医学研究所计算生物学中心, 北京 100850 摘要: microRNA (miRNA)是近几年发现的一类长度为~21 nt 的内源非编码小 RNA, 在植物和动物中发挥着重 要而广泛的调控功能。它的发现主要有 cDNA 克隆测序和计算发现两条途径。由于 cDNA 克隆测序方法受 miRNA 表达的时间和组织特异性以及表达水平的影响, 而计算发现可以弥补其不足, 因此 miRNA 的计算发现 方法研究受到了广泛的重视。文章对近几年计算发现 miRNA 的研究进展进行了综述, 根据计算发现方法的本 质, 将计算发现方法归纳为 5 类, 分别是同源片段搜索方法、基于比较基因组学的预测方法、基于序列和结构 特征打分的预测方法、 结合作用靶标的预测方法和基于机器学习的预测方法, 并对各类方法的原理、 核心思想、 优点和局限性进行了分析, 最后探讨了进一步的发展方向。 关键词: microRNA; 计算发现; 同源搜索; 比较基因组学; 作用靶标; 机器学习

Computational approaches to microRNA discovery
HOU Yan-Yan, YING Xiao-Min, LI Wu-Ju
Center of Computational Biology, Beijing Institute of Basic Medical Sciences, Beijing 100850, China Abstract: microRNAs (miRNAs) are endogenous non-coding RNAs of ~21 nucleotides in length discovered in recent years. They are involved in diverse pathways and play an important role in gene regulation in plants and animals. There are two main groups of approaches to miRNA discovery, which are cDNA cloning and computational identification. Since some miRNAs are expressed at a low level and the expression of many miRNAs has spatio-temporal specificity, it is difficult to find them through cDNA cloning. However, computational approaches can predict the miRNAs specifically expressed or with low abundance, which is complement to cDNA cloning. Computational approaches have hence gained wide attention. In this review, the computational approaches to miRNA discovery were summarized. According to their intrinsic characteristics, computational approaches were categorized into five classes: (1) homology search; (2) prediction based on comparative genomics; (3) scoring candidates using the sequence and structure characteristics; (4) prediction combined with targets; and (5) prediction with machine learning. The principles of each class of the approaches and their advantages and limitations in miRNA discovery were discussed. Finally, the future direction in miRNA discovery was pointed out.
Keywords: microRNA; computational identification; homology search; comparative genomics; target; machine learning

收稿日期: 2007?11?19; 修回日期: 2008?02?01 基金项目: 国家自然科学基金项目(编号: 30500105 和 30470411)资助[Supported by the National Natural Science Foundation of China (No. 30500105 and No. 30470411)] 作者简介: 候妍妍(1983?), 女, 湖南常德人, 硕士研究生, 专业方向:计算生物学。Tel: 010-66932301; E-mail: diana0003@163.com 通讯作者: 李伍举(1966?), 男, 江苏沭阳人, 博士, 研究员, 研究方向:计算生物学。Tel: 010-66931324; E-mail: liwj@bmi.ac.cn 应晓敏(1975?), 女, 江西上饶人, 博士, 副研究员, 研究方向:计算生物学。Tel: 010-66932301; E-mail: yingxm@bmi.ac.cn

688

HEREDITAS (Beijing)

2008

第 30 卷

miRNA是近年来发现的一类长度为~21 nt的内 源、单链、非编码小RNA。目前的研究表明, miRNA 基因由RNA聚合酶Ⅱ [1,2]或聚合酶Ⅲ [3]转录成初级转 录物(pri-miRNA), 而后在动物体内经Drosha酶剪切 形成长度约为 70 nt的miRNA前体(pre- miRNA)
[4,5]

比对算法在相同或相近基因组中搜索已知 miRNA 或 pre-miRNA 的同源片段。由于 miRNA 的显著特 征是前体折叠形成茎环结构, 因此单纯采用序列比 对算法 搜索 到的同 源片 段还不 足以 判断为 可能 的 miRNA, 还需要根据二级结构特征进行筛选; 而采 用序列和结构比对相结合的同源片段搜索方法则可 以找出满足 miRNA 结构特征的同源片段, 可初步判 断为可能的 miRNA。 由于pre-miRNA的序列较长, 且形成茎环结构, 因而目前大部分同源片段搜索方法均是在基因组中 搜索pre-miRNA的同源片段。Weber等 [28] 用BLAT[29] 在人和小鼠基因组中交叉搜索已知小鼠、大鼠和人 pre-miRNA的同源片段, 而后根据同源片段的二级 结构、miRNA成熟体所在区域的配对数以及成熟体 的保守性进行筛选, 最后得到 35 个可能的人premiRNA和 45 个可能的小鼠pre-miRNA。Dezulian等
[30]

,

在转运蛋白Exportin-5 的作用下由细胞核内转到细 胞 质 中 [6,7], 最 后 经 Dicer酶 进 一 步 切 割产生成熟的 miRNA
[8~11]

; 在植物体内则由DCL1(Dicer-like 1 pro[12]

tein)逐步剪切为成熟miRNA

, 而后经HASTY(HST,
[13,14]

Exportin-5 的 同 源 蛋 白 )运 输 至 核 外

。成熟的

miRNA 与 RNA 诱 导 沉 默 复 合 物 (RNA-induced silencing complex, RISC)结合, 通过与靶mRNA的特 定 序 列 结 合 , 诱 导 靶 mRNA 剪 切 或 者 阻 遏 其 翻 译
[15]

。miRNA 的显著特点是前体折叠形成茎环或类

似茎环的二级结构。通过对pre- miRNA的基因组定 位和注释发现, miRNA主要位于基因间区或已知转 录本的内含子中
[16]

, 较大比例的miRNA呈现成簇分

则 用 BLAST[31] 在 NCBI EST 数 据 库 中 搜 索 已 知

布的特点, 且在相近或多物种中保守 [17] 。尽管目前 大部分miRNA的确切功能以及其发挥功能的准确调 控网络尚在研究之中, 但初步的实验结果表明, miRNA在生物体内发挥着重要的调控功能, 如调控 幼虫发育时序
[24] [18,19]

pre-miRNA的同源片段, 而后根据同源片段是否包 含已知成熟miRNA、同源片段的二级结构以及已知 成熟miRNA是否位于茎区来筛选候选miRNA。由于 pre-miRNA的茎区更为保守、环区则容易随着进化 距离的增加而趋于不保守 [32,33], 因此采用不区分比 对区域的同源序列比对算法, 如BLAST、BLAT, 只 能搜索到与已知pre-miRNA在各个区域序列同源性 均较高的片段, 对于由于进化距离较远、而在环区 序列同源性较低的同源片段就难以发现。为了克服 这一弱点, Legendre等 [34] 采用基于谱的序列比对表 示和搜索方法ERPIN[35] 来发现新的pre-miRNA。他 们首先对所有动物和植物的pre-miRNA进行了多序 列比对, 根据比对情况分出miRNA家族, 而后提取 同 一 家 族 pre-miRNA 的 一 致 二 级 结 构 , 最 后 采 用 ERPIN表示miRNA家族的一致二级结构、并在基因 组中搜索同源片段。这种方法在序列同源的基础上 增加了结构同源性, 因而可以发现进化距离较远、 但结构同源性较高的pre-miRNA。他们根据miRNA 家族的一致二级结构、用ERPIN在 20 余种动物基因 组 中 搜 索 同 源 片 段 , 发 现 了 265 个 可 能 的 pre-miRNA, 较 用 BLAST 发 现 的 miRNA 要 多 出 17%。 然而, 采用ERPIN表示和搜索同源序列的前提 是miRNA必须要有较多隶属于同一家族的成员, 对 于那些缺乏 家族成员的 miRNA则无 法搜索同源 序 列。Wang等 [36]对这一问题做了进一步的改进。他们 首先用BLAST搜索已知pre-miRNA的同源片段, 而

、细胞增殖

[20]

、脂肪代谢

[21]

、造

血系统分化 [22]、生殖干细胞自我更新 [23]和花的发育 等。 miRNA的发现主要有cDNA克隆测序和计算预 测两种方法。早期miRNA的发现主要通过cDNA克 隆测序。这种方法直接、可靠, 然而很难克隆出在 不同时 期表 达或只 在特 定组织 或细 胞系中 表达 的 miRNA; 而且由于克隆方法固有的局限性, 也很难 捕获表达丰度较低的miRNA
[25,26]

。近年来通过计算

来预测 miRNA的方法成为 miRNA发现的另一条重 要途径, 其优点是不受miRNA表达的时间和组织特 异性以及表达水平的影响, 从而可以弥补cDNA克 隆测序方法的不足
[27]

。根据预测方法的本质, 计算

预测方法可分为 5 种类型, 分别是同源片段搜索方 法、基于比较基因组学的预测方法、基于序列和结 构特征打分的预测方法、结合作用靶标的预测方法 和基于机器学习的预测方法, 下面分别对各类方法 的原理、特点和局限性进行论述。

1

同源片段搜索方法
同源片段搜索方法实现简单, 是最早采用的计

算发现方法。这类方法的共同点是采用序列或结构

第6期

侯妍妍等: MicroRNA 计算发现方法的研究进展

689

后根据同源片段的最低自由能、miRNA成熟体在同 源片段中的位置进行筛选, 最后计算pre-miRNA与 同源片段的结构比对, 并给出两条序列二级结构的 相似性度量, 根据标准化后的度量进行筛选。利用 该方法, Wang等人在冈比亚按蚊(Anopheles gambiae) 基因组中发现了 59 个可能的新miRNA基因。 经比较, Wang 等 人 提 出 的 这 一 方 法 的 敏 感 性 要 优 于 采 用 BLAST和ERPIN的方法, 特异性则优于采用BLAST 的方法, 与ERPIN方法相当。 与上述方法不同, Li等
[37]

人、小鼠及河豚基因组保守的茎环结构对中预测了 188 个可能的pre-miRNA, 包含 109 个已知miRNA中 的 81 个, 精度为 74%。 Grad等 [43]同样先从线虫基因 组的基因间区中找出可能的pre-miRNA片段, 而后 在果蝇基因组中寻找同源pre-miRNA, 之后将线虫 可能的pre-miRNA在C. briggsae基因组中搜索同源 片段, 得到 81 个可能的pre-miRNA, 其中 6 个为已 知 的 pre-miRNA; 同 时 将 果 蝇 pre-miRNA在 人 基 因 组中寻找同源片段, 要求线虫、果蝇和人 3 物种对 应的pre-miRNA中可能的成熟miRNA在同一端, 得 到 40 个 可 能 的 pre-miRNA, 其 中 6 个 为 已 知 的 pre-miRNA。Wang等 [44]采用类似的方法在拟南芥中 预测miRNA。他们首先在拟南芥基因组中寻找可能 的pre-miRNA, 而后在水稻基因组中寻找高度同源 且折叠形成类似茎环结构的片段, 得到 95 个可能的 miRNA, 其中包括 12 个已知的miRNA, 并通过实验 验证了新发现的 83 个miRNA中的 25 个。 另一种基于比较基因组学预测miRNA的思路是 先通过比较两物种的基因组找出保守区域, 而后在 保守区域中根据结构和序列特征搜索可能的 miRNA。Bonnet等 [45]首先对拟南芥基因间区序列与 水稻基因组进行序列比对, 得到保守短片段, 而后 以保守短片段为中心在两物种基因组中寻找可能的 pre-miRNA, 最后得到 91 个可能的miRNA, 其中 58 个miRNA有潜在的靶标。另一种代表性的预测方法 是Lai等 [32] 提出的miRSeeker。他们首先通过比较果 蝇D. melanogaster和D. pseudoobscura的基因组, 得 到保守的内含子和基因间区, 而后在保守序列中寻 找可能的pre-miRNA, 根据奖赏配对、惩罚内部环/ 膨胀圈等不配对的打分矩阵对茎环结构片段进行打 分 。 Lai 等 通 过 观 察 24 对 已 知 D. melanogaster pre-miRNA与相应D. pseudoobscura同源片段的序列 比对, 发现pre-miRNA的茎区受进化压力的影响而 更为保守, 环区则更富于变化。利用这一保守模式, Lai等对保守的茎环结构进行了筛选, 最后得到约 200 个可能的pre-miRNA。此外, 他们还在进化距离 较 远 的 物 种 (如 昆 虫 、 线 虫 、 脊 椎 动 物 )中 寻 找 D. melanogaster保守茎环结构的同源片段。通过实验, 他们验证了 24 个新的miRNA, 其中包括 20 个在 3 物种中保守的miRNA和 4 个果蝇特异的miRNA。 Berezilov等 [33]在miRNA保守模式方面做了更为深入 的研究, 并基于新发现的保守模式对人miRNA进行 了预测。他们采用种系发生投影方法(Phylogenetic

通过在基因组中搜索

成熟miRNA的同源片段来预测新的miRNA。他们首 先在拟南芥和水稻中采用BLAST搜索这两物种已知 成熟miRNA的同源片段, 而后根据同源片段及其侧 翼序列的二级结构、与已知pre-miRNA的同源性进 行筛选, 最后找出 20 个可能的拟南芥miRNA和 40 个可能的水稻miRNA。Qiu等 [38] 、Xie等 [39] 和Zhang 等
[40]

采用了类似的方法, 不同的是, 他们分别在棉

花 、 欧 洲 油 菜 和 多 种 植 物 EST序 列 中 搜 索 可 能 的 miRNA。 就本质而言, 上述同源序列搜索方法均需要以 已 知 的 miRNA/pre-miRNA 为 参 照 , 搜 索 与 已 知 miRNA/pre-miRNA 在 序 列 上 和 结 构 上 同 源 的 miRNA/pre-miRNA, 对 于 不 与 已 知 miRNA/premiRNA 同源的 miRNA/pre-miRNA 则无能为力。

2

基于比较基因组学的预测方法
随着对 miRNA 功能研究的深入, 研究者发现

部分 miRNA 参与很多基本而重要的生理过程, 这提 示其很可能在进化过程中保守。 而且, 对 miRNA 进 行基因组分析也发现, 较大比例的已知 miRNA 位于 基因组中进化保守的区域。因此, 基于比较基因组 学搜索在多物种中保守的 miRNA 成为一种可行而 有效的方法。 一种基于比较基因组学预测miRNA的思路是先 在一个物种基因组中根据结构和序列特征找出可能 的pre-miRNA, 而后与其他物种基因组比较, 判断 其序列和结构是否保守。Lim等
[41]

首先在秀丽线虫

(C. elegans)基 因 组 中 找 出 可 能 的 pre-miRNA片 段 , 而 后 与 C. briggsae 序 列 进 行 比 对 , 找 出 同 源 pre-miRNA, 最后按照miRNA成熟体区域的配对概 率总和等 7 个特征对茎环结构对进行打分。利用该 方法, Lim等人预测出 35 个可能的新miRNA, 其中 16 个得到实验验证。Lim等
[42]

还采用相同的方法在

690

HEREDITAS (Beijing)

2008

第 30 卷

shadowing)对 10 个灵长类物种的 122 条miRNA序列 的侧翼序列进行了多序列比对, 发现pre-miRNA的 茎区相对保守, 环区更不保守, 且pre-miRNA侧翼 序列的保守性相对于pre-miRNA而言出现骤降。利 用这一保守模式, 他们在人/小鼠和人/大鼠的保守 谱中(conservation profile)中搜寻满足相应模式的片 段, 而后根据折叠形成茎环结构和随机检验P值 [46] 进行筛选, 得到 976 个可能的miRNA。 通过实验, 他 们验证了其中的 16 个。 从单纯的序列和结构保守发展到通过已知 pre-miRNA 找出保守模 式、进而利 用该模式搜 寻 miRNA, 基 于 比 较 基 因 组 学 的 预 测 方 法 使 得 miRNA 的计算发现有了很大的进展。相对于同源片 段搜索而言, 基于比较基因组学的预测方法能够找 到不与已知 miRNA 同源的新 miRNA, 具有更大的 优越性。然而, 该类方法由于仅在两个或多个物种 基因组的保守序列中预测 miRNA, 限制了其对非保 守 miRNA 的发现, 如病毒 miRNA。 而且, 由于大部 分物种基因组之间的进化距离较远, 通过比较基因 组学的方法也难以发现仅出现在某些进化距离很近 的物种中的 miRNA。

结构的片段进行筛选成为发现这些非同源、物种特 异miRNA的行之有效的途径。 Sullivan等 [55] 采用根据结构特征打分的方法对 猿猴病毒 40(SV40)的miRNA进行了预测。他们在 SV40 病毒的基因组中找出形成茎环结构的片段, 而 后根据奖赏配对、惩罚膨胀圈和末端环的打分规则 对茎环结构片段打分。得到的分值与最低自由能相 乘作为每个茎环结构片段的最后分值。采用这一方 法他们在SV40 的基因组中预测出了 2 个可能的 miRNA, 其中 1 个得到实验验证。Grundhoff等 [56]在 文献[55]方法的基础上做了改进, 使这一方法能够 适用于更大的病毒基因组。他们做的改进主要在两 个方面, 一是提高了给配对的奖赏分值和给膨胀 圈、末端环的惩罚分值, 另一个改进是增加了对预测 成为pre-miRNA的片段的分组。采用这种预测方法、 结合基因芯片检测, Grundhoff等发现了 10 个已知的卡 波 济 肉 瘤 相 关 疱 疹 病 毒 (KSHV)miRNA, 1 个 新 的 KSHV pre-miRNA和 18 个新的EBV pre-miRNA。 与上述打分方法相比, Cui等 [57]采用了一种非常 简单的方法对单纯疱疹病毒Ⅰ型(HSV-1)的miRNA 进行预测。他们采用类似文献[44]的方法取候选片 段, 然后根据成熟miRNA区域的GC含量、复杂度和 茎环结构筛选, 得到可能的pre-miRNA。 通过这一方 法, 他们预测出了 13 个可能的HSV-1 pre-miRNA, 编码 24 个可能的成熟miRNA。 通过实验, 他们验证 了其中的 1 个。 由于病毒基因组较小且紧致, 形成茎环结构的 背景片段数量很小, 因此, 尽管上述基于序列和结 构特征打分的预测方法较为简单, 但仍然在病毒 miRNA预测中取得了较好的效果。然而, 对于高等 真核生物而言, 基因组规模在千万至上百亿个碱基 对, 形成茎环结构的片段达几万乃至几百万个, 从 中通过序列和特征打分挑选出可能的pre-miRNA则 是一个巨大的挑战。为了能够从大量背景茎环结构 片段中挑选出真实的pre-miRNA, Bentwich等 [58] 引 入了基于有向图寻找最优分割路径的方法。对每个 茎环结构片段, 他们根据序列重复性、最低自由能 与随机序列自由能的Z值等 11 个序列和结构特征进 行量化, 并将茎环片段每个特征的分值都用阈值向 量离散化, 这样, 所有茎环结构片段都可以表示为 11 维超空间中按照每个特征阈值向量分割而成的网 格中的点。为寻找最优分割路径, Bentwich等人随机 选取了 10 000 非蛋白编码区的茎环结构片段作为背

3

基于序列和结构特征打分的预测方法
随着miRNA发现的不断深入, 研究者不仅在高

等真核生物基因组中发现了新的miRNA, 同时还在 感 染 高 等 真 核 生 物 的 DNA 病 毒 基 因 组 中 发 现 了 miRNA
[47~51]

。序列分析发现, 病毒miRNA之间的序

列相似性很低, 仅有 8 例非洲淋巴细胞瘤病毒(EBV) 的miRNA与猕猴淋巴隐病毒(RLCV)的miRNA同源, 其他病毒miRNA很少有同源序列
[52]

; 而且, 对于很

多病毒而言, 它们只存在进化距离很远的直系同源 成员, 这使得通过同源片段搜索或比较基因组学方 法预测病毒miRNA变得相当困难, 甚至是不可能。 类似的问题也发生在一些高等真核生物上, 如到目 前为止, 具有完整基因组序列且与拟南芥进化距离 相对最近的物种是水稻, 而水稻与拟南芥基因组早 在 2 亿年前就已经分化
[53]

; 具有完整基因组序列且
[54]

与人进化距离相对最近的物种是黑猩猩, 而黑猩猩 与人基因组也早在 4 百万年前就已经分化 。同源 片段搜索或基于比较基因组学预测仅能发现一些在 进化距离较远的物种基因组中保守的miRNA, 而难 以发现物种特异的miRNA。根据已知miRNA在序列 和结构上的特征、对全基因组中可能折叠形成茎环

第6期

侯妍妍等: MicroRNA 计算发现方法的研究进展

691

景片段, 与真实的pre-miRNA一起量化, 而后基于 有向图搜索最优分类性能的路径。按照这一方法, Bentwich等 在 人 类 全 基因 组 中 预 测 pre-miRNA, 得 到 434 239 个候选片段, 其中包括 86%的真实premiRNA。 通过基因芯片检测, 他们发现了 89 个新的 miRNA, 其中 53 个仅在灵长类物种中保守。 Li等
[59]

miRNA家族, 其中 7 个家族中的 23 条miRNA经过实 验验证。 Xie等 [61]采用了与文献[60]完全不同的思路, 作 用靶标不再作为筛选候选miRNA的最后条件, 而是 一开始就根据 3′ UTR(Untranslated region)中的保守 8 聚体逆向搜索可能与之作用的miRNA。他们首先 对人、小鼠、大鼠和狗基因组中的 3′ UTR序列进行 比对, 根据保守性分值, 找到 72 个高度保守的 8 聚 体, 随后在 4 物种保守的基因组序列中搜索这些 8 聚体的反向互补片段, 并要求这些片段在 4 个物种 中的侧翼序列均折叠形成茎环结构、且最小自由能 小于?25 kcal/mol。通过筛选, 他们找到 242 个可能 的miRNA基因, 其中 113 条编码已知的miRNA。他 们对 129 条候选miRNA基因中的 12 条进行了实验验 证, 发现了其中的 6 条。 同样是从作用靶序列逆向搜索miRNA, Adai 等
[62]

则将预测miRNA的范围限定在人类EST和内含子序 列中, 这大大减少了背景茎环结构片段的数量。根 据GC含量、最小自由能等 4 个序列和结构特征进行 筛选, 他们最后预测出 208 个可能的pre- miRNA, 其 中 包 括 52 个 已 知 的 pre-miRNA, 占 已 知 总 pre-miRNA的 60% (52/86)。 基于序列和结构特征打分的预测方法由于没有 依赖同源序列和多物种中的保守序列, 因而可以找 出不与已知 miRNA 同源和物种特异的 miRNA。然 而为了从大量背景茎环片段中选出真实的 miRNA、 同时降低假阳性, 这类方法往往用异常严格的序列 和结构标准筛选候选片段, 因而可能遗漏大量的 miRNA。

不要求作用靶序列在多物种中保守, 仅在筛选过

程中要求miRNA和对应的miRNA*(pre-miRNA中与 miRNA配对的序列片段)在相近物种中保守。 他们首 先在拟南芥基因间区中搜索与已知转录本匹配的短 片段, 按照奖赏配对的原则打分, 根据分值筛选可 能的miRNA; 而后以基因间区中可能的miRNA为中 心 寻 找 可 能 的 pre-miRNA, 并 在 其 中 搜 索 相 应 的 miRNA*, 按 照 奖 赏 配 对 和 惩 罚 间 隔 的 原 则 打 分 , 根据分值筛选miRNA与相应的miRNA*; 之后, 根 据 miRNA与转录本中匹配片段的分值、 miRNA与 miRNA*的分 值和 miRNA与相应 miRNA*界定片段 的自由能, 对每个转录本对应的所有可能的miRNA 进行筛选。 为减少候选miRNA的个数, Adai等还要求 候 选 miRNA 在 水 稻 基 因 组 中 有 完 全 相 同 的 同 源 miRNA, 并且同源miRNA和相应的miRNA*也通过 上述方法的筛选。最后得到 236 个包含候选miRNA 与相应靶序列的簇。 13 个候选miRNA进行了实验 对 验证, 检测到其中的 8 个。 尽管Xie等 [61] 和Adai等 [62] 均根据作用靶标预测 miRNA, 然而为了减少候选miRNA的个数, 他们或 者要求作用靶序列和候选miRNA在多物种中保守, 或者要求miRNA和相应的miRNA*在多物种中保守, 这无疑会使 其失去了发 现非保守 miRNA的机会 。 Lindow和Krogh[63] 同样从mRNA出发, 在拟南芥基 因组中搜索与mRNA无间隔匹配且长度在 20?27 nt (允许 2 个不匹配)的片段, 但他们不是通过在相近 物种中保守来筛选候选miRNA, 而是通过序列复杂

4

结合作用靶标的预测方法
miRNA 的作用机制是通过与靶基因的碱基互

补配对来发挥调控功能。虽然其序列中的部分碱基 可能在进化过程中发生改变, 然而 miRNA 与相应靶 序列的碱基互补配对模式从根本上来说却仍然具有 严格的保守性, 换言之, miRNA 与其靶序列的相互 作用较 miRNA 序列本身更为稳定。 部分研究者利用 这一特点, 开展了 miRNA 预测的工作, 发现了一些 新的 miRNA。 Rhoades 和 Bartel
[60]

将作用靶标作为筛选候选

miRNA的最后条件, 在拟南芥和水稻基因组中发现 新的miRNA。他们首先在拟南芥和水稻基因组中分 别寻找可能的miRNA(长度设定为 20 nt, 称为 20 聚 体), 而后将两物种的 20 聚体分别在对方 20 聚体集 合中搜寻同源片段, 之后在各自物种的基因组中搜 寻这些同源 20 聚体的茎环结构前体, 随后分别在对 方物种的茎环结构前体中搜索同源片段, 最后, 分 别在拟南芥和水稻mRNA中搜索 20 聚体的作用靶 标。 为了提高特异性, 要求靶mRNA在另一物种中有 同 源 mRNA 且 结 合 部 位 序 列 在 两 同 源 mRNA 中 保 守。 通过上述方法, Rhoades和Bartel预测了拟南芥中 的 24 个 miRNA 家 族 , 其 中 11 个 家 族 为 已 知 的 miRNA家族, 敏感性达到 85%, 13 个为新发现的

692

HEREDITAS (Beijing)

2008

第 30 卷

度、是 否位 于外显 子区 域、是 否包 含重复 元件 、 miRNA与mRNA双链的自由能、在基因组中的拷贝 数和前体序列的自由能、环的大小和配对数这 6 条 标准严格进行筛选。 通过这样的筛选, 他们找到 592 个候选miRNA。他们预测出的候选miRNA大部分在 其他植物基因组中均未呈现出明显保守性。 尽管理论上结合作用靶标的预测方法既能够预 测在多物种中保守的 miRNA, 也能够预测非保守的 miRNA, 应该具有更好的敏感性和特异性, 但在实 际应用中, 与 mRNA 片段反向互补的基因间区序列 数目巨大, 使得这类方法也不得不借助在多物种中 的保守性来提高特异性, 减少预测出的候选 miRNA 的数目, 或者采用严格的标准筛选, 牺牲了敏感性。 而且, 由于植物 miRNA 与靶标存在更多的互补配对, 而动物 miRNA 与靶标的结合方式存在较大的不确 定性, 因而这类方法多用于植物 miRNA 的预测。

miR-abela所 采用的 训练 集中阴 性样 本数量 远远 大 于阳性样本数量, 这使得分类器倾向于将样本判断 为阴性, 也就是提高了特异性, 但牺牲了敏感性。 他 们采用该分类器对 8 种以人为宿主的病毒的miRNA 进行了预测, 预测出 32 个可能的pre-miRNA, 其中 13 个得到实验验证; 他们还采用相同的方法对人、 小鼠和大鼠已知pre-miRNA簇上下游 10 kb的区域进 行了预测, 分别发现了 89、66 和 105 个可能的 pre-miRNA, 其 中 分 别 有 20 、 17 和 6 个 可 能 的 pre-miRNA 能 够 在 小 RNA 克 隆 库 中 找 到 匹 配 的 序 列。Hertel和Stadler[68]以 295 个动物pre-miRNA与其 在所有多细胞生物中的直系和旁系同源片段的多序 列比对为阳性数据集、 294 个随机置乱的pre-miRNA 与同源序列的多序列比对和 483 个tRNA多序列比对 为阴性数据集、采用 12 个序列和结构特征描述样 本、构建和测试了分类器RNAmicro。随机选取阳性 和阴性数据中的一半为训练集, 另一半为测试集, RNAmicro 对 测 试 集 的 敏 感 性 和 特 异 性 分 别 达 到 90%和 99%。特异性高部分地也是源于阴性样本数 量大于阳性样本数量。Helvik等 [69] 采用两个级联的 分类器Microprocessor SVM和miRNA SVM 来预测 miRNA 。 Microprocessor SVM 是 以 327 个 人 pre-miRNA中真实的Drosha酶剪切位点为阳性样本、 其他位点为阴性样本构建的分类器, 用于预测 pre-miRNA中的Drosha酶剪切位点, 它的输出、 结合 327 个真实的人pre-miRNA(阳性样本)和 3 000 个从 人基 因组 中 随机 选取 的 茎环 结构 片 段(阴 性样 本 ), 用于训练分类器miRNA SVM。 他们采用了 686 结构 和序列特征描述训练分类器Microprocessor SVM的 样本, 另外还增加了 7 个剪切位点特征描述训练分 类器miRNA SVM的样本。 该级联分类器的敏感性和 特异性分别为~90%和~ 95%。高特异性同样部分地 源于训练集中阴性样本数量远大于阳性样本数量。 Jiang等 [70]尝试采用随机森林(Random forest)方 法 构 建 区 分 pre-miRNA 和 非 pre-miRNA 的 分 类 器 MiPred。他们采用的训练数据集与Xue等 [64] 完全相 同, 同时也用了Xue等 [64]文中所用的 32 个三联体结 构-序列特征, 他们还另外增加了最小自由能和自由 能的随机检验P值 [46] 两个特征来描述样本。MiPred 对 测 试 集 的 敏 感 性 和 特 异 性 分 别 为 89.35% 和 93.21%, 远高于 3SVM[64]在相同测试集上的性能。 Nam等 [71] 采用隐马尔可夫模型(Hidden markov model, HMM)描 述 真 实 pre-miRNA和 非 pre-miRNA

5

基于机器学习的预测方法
基于机器学习的预测方法是近两年出现的

miRNA 预测方法, 与前 4 种方法最大的不同在于, 基于机器学习的预测方法不仅需要已知的 miRNA, 还需要已知的“非 miRNA”, 通过 miRNA(阳性)和 非 miRNA(阴性)数据集来构建区分两者的分类器, 而后根据学习得到的分类器对未知序列进行预测。 支持向量机(Support vector machines, SVM)方 法是目前miRNA分类和预测最常采用的机器学习方 法。 Xue等
[64]

根据 163 个已知人pre-miRNA和 168 个

蛋 白 编 码 区 (Coding sequences, CDS) 中 折 成 stemloop结构的片段、 32 个三联体结构-序列特征描述 用 样本、 构建了分类器 3SVM, 该分类器对测试集的敏 感 性 和 特 异 性 分 别 为 93.3%, 和 88.1% 。 Ng 和 Mishra
[65]

采用了与Xue等

[64]

完全相同的数据源构建

分类器miPred, 但他们采用 29 个碱基组成和结构特 征描述样本。为了提高分类器的特异性, 他们增加 了训练集中阴性样本的数量, 使阴性与阳性数据集 的比例增大到 2︰1, 构建了一个有偏的分类器。 miPred对测试集的特异性提高到 97.97%, 而相应的 敏感性降低到 84.55%。Sewer等 [66]和Pfeffer等 [67]根 据 178 个已知的人pre-miRNA和 5 395 个从tRNA、 rRNA、mRNA、人和多种病毒基因组随机选取的序 列、采用 37 个结构特征描述样本、构建了分类器 miR-abela。 miR-abela对训练集自身的敏感性为 71%, 特异性为 97%。特异性高而敏感性低的主要原因是

第6期

侯妍妍等: MicroRNA 计算发现方法的研究进展

693

的二级结构, 根据 136 个已知人pre-miRNA和 1 000 个从人基因组中随机选取的茎环结构片段估计 HMM 的 转 移 概 率 和 发 射 概 率 , 构 建 了 分 类 器 ProMiR。当取阈值 0.033 时, 该分类器的 5 折交叉 检验特异性高达 96%, 而敏感性只有 73%。他们利 用该分类器、结合同源EST搜索、自由能随机检验P 值 [46]、在脊椎动物基因组中的保守性模式 [33]等条件 对人 16、17、18 和 19 号染色体进行了预测, 最后 预测出 23 个可能的miRNA。 通过实验, 他们验证了 其中的 9 个。 Yousef等 [72]则采用Naive Bayes分类器构建了区 分 pre-miRNA 和 非 pre-miRNA 的 分 类 器 BayesMiRNAfind。由于增加训练样本的数量有助于 提高分类器的性能, 因此Yousef等将多种病毒、 植物 和动物共计 1 420 个pre-miRNA作为阳性训练集, 将 30 000 个多物种保守序列中折成茎环结构的片段作 为阴性训练集来训练分类器。他们采用几千个序列 和结构特征描述样本。利用该分类器, 结合片段的 长度等结构特征和与人以及河豚基因组的保守性, 他们在小鼠基因组的正链中预测出 533 个可能的 pre-miRNA( 阈 值 为 0.99), 其 中 包 括 135 条 已 知 miRNA中的 53 条, 敏感性为 39%。 理论上只要阳性和阴性训练样本选取合理, 描 述样本的特征能够很好地反映两类样本的差异, 并 采用适当的机器学习方法, 完全可以高效地预测 miRNA。然而, 在实际应用中, 由于难以选取到足 以描述整个阴性样本空间的代表样本, 也难以找到 足以区分 miRNA 和非 miRNA 的特征, 使得基于机 器学习预测 miRNA 的效果不尽如人意。 即使有的分 类器对训练集和测试集均表现出很好的性能, 然而 在对基因组进行预测时, 仍然会预测出大量的候选 miRNA。尽管不排除各物种 miRNA 的真实数量可 能远超过现在估计的几百个, 但其中仍然包含了大 量的假阳性。如何降低假阳性、进一步提高敏感性, 是基于机器学习的预测方法需要进一步探索和解决 的问题。

加 [74~76], 这使得cDNA克隆方法更加难以捕捉到这 些逆境miRNA。因此, 尽管一开始计算发现方法是 作为cDNA克隆方法的补充出现, 但发展到现在, 计 算发现方法已经在miRNA的发现中发挥着举足轻重 的作用。 到目前为止, 通过计算预测 miRNA 的方法已 经有几十种, 尽管根据算法本质可分为 5 大类, 但 无论算法本质是同源搜索, 还是机器学习, 这些方 法都存在共同的问题, 就是根据少量的已知 miRNA 或 pre-miRNA 总结规律, 去发现大量的新 miRNA。 这个问 题导 致计算 预测 方法的 精度 还不能 令人 满 意。 由于已知 miRNA 的数量较少, 因而从中总结的 规律不足以代表整个 miRNA 家族, 使得计算预测存 在大量的假阳性和假阴性, 尤其是当对全基因组进 行预测时, 往往预测出几十万个可能的 miRNA, 其 中包含大量的假阳性, 而漏检的比例也很高。这个 问题的解决途径一方面可以借助新的大规模并行测 序技术发现更多的 miRNA, 以利于计算发现方法总 结出更为细致、准确的规律, 提高计算发现方法的 敏感性和特异性; 另一方面也有待于探索新的计算 发现方法或将现有的预测方法进行有效整合, 以便 在现有知识的情况下, 尽可能的在提高特异性的同 时, 也提高敏感性。 最近, 研究者在小鼠、大鼠和人的睾丸组织中 发 现 了 一 类 长 度 在 26~31 nt的 小 RNA — piRNA — [77~81] (Piwi-interacting RNA) 。 尽管目前尚未发现这类 小RNA具有特殊的结构, 但miRNA计算发现方法中 的很多思路在piRNA等其他类型的小RNA的发现方 面仍然具有借鉴意义。

参考文献(References):
[1] Cai X, Hagedorn CH, Cullen BR. Human microRNAs are processed from capped, polyadenylated transcripts that can also function as mRNAs. RNA, 2004, 10(12): 1957?1966.[DOI] [2] Lee Y, Kim M, Han J, Yeom KH, Lee S, Baek SH, Kim VN. MicroRNA genes are transcribed by RNA polymerase Ⅱ. EMBO Journal, 2004, 23: 4051?4060.[DOI] [3] Borchert GM, Lanier W, Davidson BL. RNA polymerase Ⅲtranscribes human microRNAs. Nat Struct Mol Biol, 2006, 13(12): 1097?1101.[DOI] [4] Lee Y, Ahn C, Han J, Choi H, Kim J, Yim J, Lee J, Provost P, Radmark O, Kim S, Kim VN. The nuclear RNaseⅢ Drosha initiates microRNA processing. Nature, 2003, 425(6956): 415?419.[DOI] [5] Zeng Y, Yi R, Cullen BR. Recognition and cleavage of primary

6

结论与展望
自 1993 年第一个miRNA— lin-4 发现以来, 到 —

目前为止已有 5 000 多个miRNA 被陆续发现 [73], 其 中较大比例的miRNA是通过计算方法预测、而后经 实验验证的。而且, 越来越多的研究显示, 部分 miRNA是机体或细胞在逆境胁迫时表达或表达量增

694

HEREDITAS (Beijing)

2008

第 30 卷

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15] [16]

[17]

[18]

[19]

microRNA precursors by the nuclear processing enzyme Drosha. EMBO Journal, 2005, 24(1): 138?148.[DOI] Yi R, Qin Y, Macara IG, Cullen BR. Exportin-5 mediates the nuclear export of pre-microRNAs and short hairpin RNAs. Genes Dev, 2003, 17(24): 3011?3016.[DOI] Bohnsack MT, Czaplinski K, Gorlich D. Exportin 5 is a RanGTP-dependent dsRNA-binding protein that mediates nuclear export of pre-miRNAs. RNA, 2004, 10(2): 185?191.[DOI] Ketting RF, Fischer SE, Bernstein E, Sijen T, Hannon GJ, Plasterk RH. Dicer functions in RNA interference and in synthesis of small RNA involved in developmental timing in C. elegans. Genes Dev, 2001, 15(20): 2654?2659.[DOI] Jiang F, Ye X, Liu X, Fincher L, McKearin D, Liu Q. Dicer-1 and R3D1-L catalyze microRNA maturation in Drosophila. Genes Dev, 2005, 19(14): 1674?1679. Lee YS, Nakahara K, Pham JW, Kim K, He Z, Sontheimer EJ, Carthew RW. Distinct roles for Drosophila Dicer-1 and Dicer-2 in the siRNA/miRNA silencing pathways. Cell, 2004, 117(1): 69?81.[DOI] SHENG Xi-Hui, DU Li-Xin. Progress on the research of microRNAs and its function in humans and animals. Hereditas (Beijing), 2007, 29(6): 651?658.[DOI] 盛熙晖, 杜立新. MicroRNA 及其在人和动物上的研究 进展. 遗传, 2007, 29(6): 651?658. Kurihara Y, Watanabe Y. Arabidopsis micro-RNA biogenesis through Dicer-like 1 protein functions. Proc Natl Acad Sci USA, 2004, 101(34): 12753?12758.[DOI] Park MY, Wu G, Gonzalez-Sulser A, Vaucheret H, Poethig RS. Nuclear processing and export of microRNAs in Arabidopsis. Proc Nat Acad Sci USA, 2005, 102(10): 3691?3696.[DOI] LI Pei-Wang, LU Xiang-Yang, LI Chang-Zhu, FANG Jun, TIAN Yun. Advances in the study of plant microRNAs. Hereditas (Beijing), 2007, 29(3): 283?288.[DOI] 李 培 旺 , 卢 向 阳 , 李 昌 珠 , 方 俊 , 田 云 . 植 物 microRNAs 研究进展. 遗传, 2007, 29(3): 283?288. Bartel DP. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell, 2004, 116: 281?297.[DOI] Rodriguez A, Griffiths-Jones S, Ashurst JL, Bradley A. Identification of mammalian microrna host genes and transcription units. Genome Res, 2004, 14(10A): 1902?1910.[DOI] Altuvia Y, Landgraf P, Lithwick G, Elefant N, Pfeffer S, Aravin A, Brownstein MJ, Tuschl T, Margalit H. Clustering and conservation patterns of human microRNAs. Nucleic Acids Res, 2005, 33(8): 2697?2706.[DOI] Moss EG, Lee RC, Ambros V. The cold shock domain protein LIN-28 controls developmental timing in C. elegans and is regulated by the lin-4 RNA. Cell, 1997, 88: 637?646.[DOI] Reinhart BJ, Slack FJ, Basson M, Bettinger JC, Pasquinelli

[20]

[21]

[22]

[23]

[24]

[25] [26]

[27] [28]

[29] [30]

[31]

[32]

[33]

[34]

[35]

AE, Rougvie AE, Horvitz HR, Ruvkun G. The 21 nucleotide let-7 RNA regulates developmental timing in Caenorhabditis elegans. Nature, 2000, 403: 901?906.[DOI] Brennecke J, Hipfner DR, Stark A, Russell RB, Cohen SM. Bantam encodes a developmentally regulated microrna that controls cell proliferation and regulates the proapoptotic gene hid in Drosophila. Cell, 2003, 113: 25?36.[DOI] Xu P, Vernooy SY, Guo M, Hay BA. The Drosophila microRNA mir-14 suppresses cell death and is required for normal fat metabolism. Curr Biol, 2003, 13(9): 790?795.[DOI] Chen CZ, Li L, Lodish HF, Bartel DP. MicroRNAs modulate hematopoietic lineage differentiation. Science, 2004, 303(5654): 83?86.[DOI] Park JK, Liu X, Strauss TJ, McKearin DM, Liu Q. The miRNA pathway intrinsically controls self-renewal of drosophila germline stem cells. Curr Biol, 2007, 17(6): 533?538.[DOI] Chen X. A microRNA as a translational repressor of APETALA2 in Arabidopsis flower development. Science, 2004, 303: 2022?2025.[DOI] Berezikov E, Cuppen E, Plasterk RHA. Approaches to microRNA discovery. Nat Genet, 2006, 38(Suppl.): S2?S7. Bentwich I. Prediction and validation of microRNAs and their targets. FEBS Letter, 2005, 579(26): 5904?5910.[DOI] Kim VN, Nam JW. Genomics of microRNA. Trends Genet, 2006, 22(3): 165?173.[DOI] Weber MJ. New human and mouse microRNA genes found by homology search. FEBS Journal, 2005, 272(1): 59?73.[DOI] Kent WJ. BLAT — The BLAST-Like alignment tool. — Genome Res, 2002, 12(4): 656?664.[DOI] Dezulian T, Remmert M, Palatnik JF, Weigel D, Huson DH. identification of plant microRNA homologs. Bioinformatics, 2005, 22(3): 359?360.[DOI] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol, 1990, 215(3): 403?410. Lai EC, Tomancak P, Williams RW, Rubin GM. Computational Identification of Drosophila microRNA genes. Genome Biol, 2003, 4(7): R42. Berezikov E, Guryev V, van de BJ, Wienholds E, Plasterk RH, Cuppen E. Phylogenetic shadowing and computational identification of human microRNA genes. Cell, 2005, 120(1): 21?24.[DOI] Legendre M, Lambert A, Gautheret D. Profile-based detection of microRNA precursors in animal genomes. Bioinformatics, 2005, 21(7): 841?845.[DOI] Gautheret D, Lambert A. Direct RNA motif definition and identification from multiple sequence alignments using

第6期

侯妍妍等: MicroRNA 计算发现方法的研究进展

695

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

secondary structure profiles. J Mol Biol, 2001, 313(5): 1003?1011.[DOI] Wang X, Zhang J, Li F, Gu J, He T, Zhang X, Li Y. MicroRNA identification based on sequence and structure alignment. Bioinformatics, 2005, 21(18): 3610?3614.[DOI] Li Y, Li W, Jin YX. Computational identification of novel family members of microRNA genes in Arabidopsis thaliana and Oryza sativa. Acta Biochimica Biophysica Sinica (Shanghai), 2005, 37(2): 75?87.[DOI] Qiu CX, Xie FL, Zhu YY, Guo K, Huang SQ, Nie L, Yang ZM. Computational identification of microRNAs and their targets in Gossypium hirsutum expressed sequence tags. Gene, 2007, 395(1?2): 49?61.[DOI] Xie FL, Huang SQ, Guo K, Xiang AL, Zhu YY, Nie L, Yang ZM. Computational identification of novel microRNAs and targets in Brassica napus. FEBS Letter, 2007, 581(7): 1464?1474.[DOI] Zhang BH, Pan XP, Wang QL, Cobb GP, Anderson TA. Identification and characterization of new plant microRNAs using EST analysis. Cell Research, 2005, 15(5): 336?360.[DOI] Lim LP, Lau NC, Weinstein EG, Abdelhakim A, Yekta S, Rhoades MW, Burge CB, Bartel DP. The microRNAs of Caenorhabditis elegans. Genes Dev, 2003, 17(8): 991?1008.[DOI] Lim LP, Glasner ME, Yekta S, Burge CB, Bartel DP. Vertebrate microRNA genes. Science, 2003, 299(5612): 1540?1540.[DOI] Grad Y, Aach J, Hayes GD, Reinhart BJ, Church GM, Ruvkun G, Kim J. Computational and experimental identification of C. elegans microRNAs. Molecular Cell, 2003, 11: 1253?1263.[DOI] Wang XJ, Reyes JL, Chua NH, Gaasterland T. Prediction and identification of Arabidopsis thaliana microRNAs and their mRNA targets. Genome Biol, 2004, 5(9): R65.[DOI] Bonnet E, Wuyts J, Rouze P, Van de Peer Y. Detection of 91 potential conserved plant microRNAs in Arabidopsis thaliana and Oryza sativa identifies important target genes. Proc Nat Acad Sci USA, 2004, 101(31): 11511?11516.[DOI] Bonnet E, Wuyts J, Rouze P, Van de Peer Y. Evidence that microRNA precursors, unlike other non-coding RNAs, have lower folding free energies than random sequences. Bioinformatics, 2004, 20(17): 2911?2917.[DOI] Pfeffer S, Zavolan M, Grasser FA, Chien M, Russo JJ, Ju J, John B, Enright AJ, Marks D, Sander C, Tuschl T. Identification of virus-encoded microRNAs. Science, 2004, 304(5671): 734?736.[DOI] Cai X, Schafer A, Lu S, Bilello JP, Desrosiers RC, Edwards R, Raab-Traub N, Cullen BR. Epstein-Barr virus microRNAs are evolutionarily conserved and differentially expressed. PLoS Pathogens, 2006, 2(3): e23.[DOI]

[49] Cai X, Lu S, Zhang Z, Gonzalez CM, Damania B, Cullen BR. Kaposi's sarcoma-associated herpesvirus expresses an array of viral microRNAs in latently infected cells. Proc Nati Acad Sci USA, 2005, 102(15): 5570?5575.[DOI] [50] Omoto S, Ito M, Tsutsumi Y, Ichikawa Y, Okuyama H, Brisibe EA, Saksena NK, Fujii YR. HIV-1 nef suppression by virally encoded microRNA. Retrovirology, 2004, 1(1): 44.[DOI] [51] Burnside J, Bernberg E, Anderson A, Lu C, Meyers BC, Green PJ, Jain N, Isaacs G, Morgan RW. Marek's disease virus encodes MicroRNAs that map to meq and the latency-associated transcript. J Virol, 2006, 80(17): 8778?8786.[DOI] [52] Cullen BR. Viruses and microRNAs. Nat Genet, 2006, 38: S25?S30.[DOI] [53] Nelson DR, Schuler MA, Paquette SM, Werck-Reichhart D, Bak S. Comparative genomics of rice and Arabidopsis. Analysis of 727 cytochrome P450 genes and pseudogenes from a monocot and a dicot. Plant Physiology, 2004, 135(2): 756?772.[DOI] [54] Hobolth A, Christensen OF, Mailund T, Schierup MH. Genomic relationships and speciation times of human, chimpanzee, and gorilla inferred from a coalescent hidden markov model. PLoS Genetics, 2007, 3(2): e7. [55] Sullivan CS, Grundhoff AT, Tevethia S, Pipas JM, Ganem D. SV40-encoded microRNAs regulate viral gene expression and reduce susceptibility to cytotoxic T cells. Nature, 2005, 435(7042): 682?686.[DOI] [56] Grundhoff A, Sullivan CS, Ganem D. A combined computational and microarray-based approach identifies novel microRNAs encoded by human gamma-herpesviruses. RNA, 2006, 12(5): 733?750.[DOI] [57] Cui C, Griffiths A, Li G, Silva LM, Kramer MF, Gaasterland T, Wang XJ, Coen DM. Prediction and identification of herpes simplex virus 1-encoded microRNAs. J Virol, 2006, 80(11): 5499?5508.[DOI] [58] Bentwich I, Avniel A, Karov Y, Aharonov R, Gilad S, Barad O, Barzilai A, Einat P, Einav U, Meiri E, Sharon E, Spector Y, Bentwich Z. Identification of hundreds of conserved and nonconserved human microRNAs. Nat Genet, 2005, 37(7): 766?770.[DOI] [59] Li SC, Pan CY, Lin WC. Bioinformatic discovery of microRNA precursors from human ESTs and introns. BMC Genomics, 2006, 7: 164?164.[DOI] [60] Jones-Rhoades MW, Bartel DP. Computational identification of plant micrornas and their targets, including a stress-induced miRNA. Molecular Cell, 2004, 14(6): 787?799.[DOI] [61] Xie X, Lu J, Kulbokas EJ, Golub TR, Mootha V, Lindblad-Toh K, Lander ES, Kellis M. Systematic discovery of regulatory motifs in human promoters and 3′UTRs by comparison of several mammals. Nature, 2005, 434(7031):

696

HEREDITAS (Beijing)

2008

第 30 卷

338?345.[DOI] [62] Adai A, Johnson C, Mlotshwa S, Archer-Evans S, Manocha V, Vance V, Sundaresan V. Computational prediction of miRNAs in Arabidopsis thaliana. Genome Res, 2005, 15(1): 78?91.[DOI] [63] Lindow M, Krogh A. Computational evidence for hundreds of non-conserved plant microRNAs. BMC Genomics, 2005, 6(1): 119.[DOI] [64] Xue C, Li F, He T, Liu GP, Li Y, Zhang X. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine. BMC Bioinformatics, 2005, 6(1): 310.[DOI] [65] Ng KLS, Mishra SK. De novo SVM classification of precursor microRNAs from genomic pseudo hairpins using global and intrinsic folding measures. Bioinformatics, 2007, 23(11): 1321?1330.[DOI] [66] Sewer A, Paul N, Landgraf P, Aravin A, Pfeffer S, Brownstein M, Tuschl T, van Nimwegen E, Zavolan M. Identification of clustered microRNAs using an ab initio prediction method. BMC Bioinformatics, 2005, 6(1): 267.[DOI] [67] Pfeffer S, Sewer A, Lagos-Quintana M, Sheridan R, Sander C, Grasser FA, van Dyk LF, Ho CK, Shuman S, Chien M, Russo JJ, Ju J, Randall G, Lindenbach BD, Rice CM, Simon V, Ho DD, Zavolan M, Tuschl T. Identification of microRNAs of the herpesvirus family. Nat Methods, 2005, 2(4): 269?276.[DOI] [68] Hertel J, Stadler PF. Hairpins in a Haystack: recognizing microRNA precursors in comparative genomics data. Bioinformatics, 2006, 22(14): e197?e202.[DOI] [69] Helvik SA, Snove O Jr, Saetrom P. Reliable prediction of Drosha processing sites improves microRNA gene prediction. Bioinformatics, 2007, 23(2): 142?149.[DOI] [70] Jiang P, Wu H, Wang W, Ma W, Sun X, Lu Z. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined features. Nucleic Acids Research, 2007, 35(Web Server issue): W339?W344.[DOI] [71] Nam JW, Shin KR, Han J, Lee Y, Kim VN, Zhang BT. Human microRNA prediction through a probabilistic co-learning model of sequence and structure. Nucleic Aci-

ds Res, 2005, 33(11): 3570?3581.[DOI] [72] Yousef M, Nebozhyn M, Shatkay H, Kanterakis S, Showe LC, Showe MK. Combining multi-species genomic data for microRNA identification using a Naive Bayes classifier. Bioinformatics, 2006, 22(11): 1325?1334.[DOI] [73] Griffiths-Jones S, Grocock RJ, van Dongen S, Bateman A, Enright AJ. miRBase: microRNA sequences, targets and gene nomenclature. Nucleic Acids Res, 2006, 34(Suppl_1): D140?D144.[DOI] [74] Zhao B, Liang R, Ge L, Li W, Xiao H, Lin H, Ruan K, Jin Y. Identification of drought-induced microRNAs in rice. Biochem Biophys Res Commun, 2007, 354(2): 585?590.[DOI] [75] Sunkar R, Zhu JK. Novel and stress-regulated microRNAs and other small RNAs from Arabidopsis. Plant Cell, 2004, 16(8): 2001?2019.[DOI] [76] Leung AK, Sharp PA. microRNAs: a safeguard against turmoil? Cell, 2007, 130(4): 581?585.[DOI] [77] Girard A, Sachidanandam R, Hannon GJ, Carmell MA. A germline-specific class of small RNAs binds mammalian Piwi proteins. Nature, 2006, 442(7099): 199?202. [78] Aravin A, Gaidatzis D, Pfeffer S, Lagos-Quintana M, Landgraf P, Iovino N, Morris P, Brownstein MJ, Kuramochi-Miyagawa S, Nakano T, Chien M, Russo JJ, Ju J, Sheridan R, Sander C, Zavolan M, Tuschl T. A novel class of small RNAs bind to MILI protein in mouse testes. Nature, 2006, 442(7099): 203?207. [79] Grivna ST, Beyret E, Wang Z, Lin H. A novel class of small RNAs in mouse spermatogenic cells. Genes Dev, 2006, 20(13): 1709?1714.[DOI] [80] Watanabe T, Takeda A, Tsukiyama T, Mise K, Okuno T, Sasaki H, Minami N, Imai H. Identification and characterization of two novel classes of small RNAs in the mouse germline: retrotransposon-derived siRNAs in oocytes and germline small RNAs in testes. Genes Dev, 2006, 20(13): 1732?1743.[DOI] [81] Lau NC, Seto AG, Kim J, Kuramochi-Miyagawa S, Nakano T, Bartel DP, Kingston RE. Characterization of the piRNA complex from rat testes. Science, 2006, 313(5785): 363?367.[DOI]
[ 82]


相关文章:
知识的发现方法与应用
知识的发现方法与应用_计算机软件及应用_IT/计算机_...同时,这份报告将并行计算机体 系结构研究和 KDD ...其发展方向有:数据库数 XIV 太原科技大学经济与管理...
MicroRNA与癌症的研究进展
生物技术专题讲座考核论文 MicroRNA与癌症的研究进展 MicroRNA与癌症的研究进展郭海洋 材料与化工学院生物工程专业 摘要: 摘要:MicroRNA(MiRNA)是近年发现的以序列特异...
国外材料计算研究进展
计算研究进展 编者按:材料计算学是一门前沿交叉学科,在提高材料高级科学发现、...“材料基因组” 是一种新提法,其本质与材料计算学类似)是上述计划的重要组成...
microRNA相关问题的计算分析
生物信息学在 miRNA 的研究中 起到了关键作用,极大地推动了该领域的迅速发展...microrna 计算发现方法的... 10页 免费 microRNA论文:microRNA... 8页 免费 ...
MicroRNA的研究进展
MicroRNA的研究进展_临床医学_医药卫生_专业资料。JIANGXI...1993 年,Lee等[9]利用定位克隆在秀丽隐杆线虫中...的研究仍处于初 始阶段,还有很多基因未被发现,甚至...
micro RNA
Ason B[4]等研究发现,不同物种间许多 microRNA 表现高度保守性,mRNA 表达变化...这将不断的增加人们对 miRNA 的认 识,为更深入的发展疾病治疗方法及新药研制...
MicroRNA与肺癌的 关系研究进展
MicroRNA与肺癌的 关系研究进展_教育学/心理学_人文社科_专业资料。microRNA 与肺癌的关系研究进展胡亚峰 按照稿约填写你的资料、单位、地址、电话等。 “北京医学”...
targetscan
MicroRNA Targeting Specificity in Mammals: Determinants beyond Seed Pairing,考虑 context 以后,对于很多不保守的 seed match region,同样可以计算相应的 context scor...
武汉大学分子生物学真题10,12,13
2、 在你的课题研究中, 你发现真核生物的 A ...其中 microRNA 和泛素起了非常重要的作用, 请简述 ...计算 太多,无法计算 太多,无法计算 太多,无法计算 ...
更多相关标签:
microrna研究进展 | 普适计算研究进展 | 云计算研究进展综述 | microrna的发现 | microrna研究思路 | microrna研究策略 | microrna研究方法 | 固体电子学研究与进展 |