DNA 芯片(上图左侧)由附着在表面的核酸探针组成。首先,从样品中提取 RNA 并转化为互补 DNA(cDNA),用荧光标签(1)进行标记。 接下来标记的 cDNA 片段与芯片(2)上的核酸杂交。 扫描芯片检测每个斑点的荧光水平,从而得到基因表达水平(3)。 在 RNA-seq 中,RNA 也从样品中提取并转化为 cDNA,以备用于测序(A)。 接下来对 cDNA 文库进行测序(B),将所得读数与基因组对应,定量分析基因表达(C)。
自二十世纪九十年代中期以来,芯片就一直是基因组表达分析的中坚力量。在这一技术最辉煌的时期,准备研究基因表达模式的人都会想到使用芯片。不过随着测序成本的直线下降,RNA 测序(RNA-seq)成为了越来越受欢迎的转录组分析方法。
DNA 芯片上排列着大量的核酸探针,可以代表生物的整个基因组或部分基因组,比如外显子、miRNA、单核苷酸多态性 SNP 等等。用芯片分析基因表达需要抽提 RNA,将其反转录为 cDNA,然后进行荧光标记。芯片上各点的信号强弱,代表了该探针目的基因的表达量。RNA-seq 主要是将 RNA 转化为 cDNA 文库,然后进行直接测序。虽然处理原始数据比较麻烦,但 RNA-seq 能够做得到芯片做不到的事。RNA-seq 可以揭示未知的转录本、基因融合和遗传多态性,而芯片只能检出明确的已知目标。
在测序深度足够的情况下,RNA-seq 在高丰度和低丰度转录本检测中都比芯片有效。不过由于芯片可以快速分析大量样本,该技术在这方面还将继续占据统治地位,FDA 国家毒理学研究中心的 Weida Tong 指出。不过,科学研究最终将完全转向 RNA-seq,Tong 说。在此之前,芯片和 RNA-seq 数据应当更加兼容,RNA-seq 数据的分析和储存必须进一步简化。
“这就像是临产前的阵痛期,”Tong 说。“一旦完成这个痛苦的过程,大家就能真正享受到技术带来的福利。”The Scientist 杂志与多位专家共同探讨了从芯片到 RNA-seq 的过渡,希望帮助研究者们顺利度过这段艰难的转型期,最终实现华丽转身。
通向全新世界
芯片分析依赖于已知的基因组信息,这也是该技术的最大局限。显然,在探索性研究和非模式生物研究中,RNA-seq 才是真正的大赢家。RNA-seq 的转录组分析是无偏好的,可以揭示新剪接点、小 RNA 以及芯片漏掉的新基因。“
与芯片探针不同,RNA 测序不需要预先知道序列信息,” 安捷伦科技公司的 Kevin Poon 说,“因此它是一个理想的研发平台,能够获得转录本序列并在此基础上发现突变和融合转录本。”
改用 RNA-seq 的研究者们往往是 “看到了芯片无法检出的生物学信息,” 赛默飞世尔公司的 Anup Parikh 指出。举例来说,南佛罗里达大学(USF)Christina Richards 实验室的研究生 Mariano Alvarez 正在研究 2010 墨西哥湾漏油事件对当地植物的影响。他们最初是用芯片在评估基因表达,但现在他们已经引入了 RNA 测序数据,以获得更为丰富的信息。
没有底线的检测
芯片检测的动态范围比较窄,在转录本丰度很低的情况下,RNA-seq 才是你正确的选择。
Tong 及其同事去年用 Illumina RNA-seq 平台和 Affymetrix 芯片,评估了大鼠肝脏在药物处理下的基因表达改变。他们发现,在检测丰度较高的基因时,RNA-seq 和芯片的结果基本一致。但在检测表达水平低的基因时,RNA-seq 更加准确。这一结论也得到了其他一些研究的支持。造成这种差异的主要原因是,当基因低水平表达时,芯片中结合探针的 cDNA 发出较弱的荧光,难以压倒背景荧光。
对于 RNA-seq 而言,覆盖度越高能检测的转录本水平就越低,没有绝对的下限。当然,RNA-seq 也没有绝对的检测上限。而芯片在检测表达量很高的基因时,可能会出现饱和。
生命力依然顽强
尽管 RNA-seq 有许多优势,但许多研究者还是在继续使用芯片,尤其是样本量比较大的研究。芯片在临床研究中也很吃香,因为它的数据处理又快又简单。
“芯片能提供高度一致的数据,分析软件也相当成熟,”Poon 说。“通过分析成百上千的样本,基因和 miRNA 的表达特征已经被赋予了临床上的诊断价值。”
“我会一直使用芯片,”MitoGenetics 公司的 Kirk Mantione 说。“我知道要做些什么,结果也更容易解读。”Mantione 使用芯片对自己开发的药物进行评估,在细胞系和动物中分析这些药物对基因表达的影响。芯片可以快速给出结果,展示药物对特定基因的作用。不过 Mantione 也希望用 RNA-seq 研究那些还不成熟的生物模型,或者寻找之前没有发现的转录本多态性。
有时候,人们继续使用芯片只是因为想要对新数据和旧数据进行比较,如果所有的数据都是以同样的方式获得的,比较起来自然更为容易。Affymetrix 公司建议大家先用芯片快速筛查大量样本,然后用这些结果指导 RNA-seq。此外,芯片也可以用来验证 RNA-seq 的数据。
RNA-seq 数据分析
RNA-seq 有非常广泛的应用,但没有哪个分析软件是万能的。科学家们一般会根据自己的研究对象和研究目标,采用不同的数据分析策略。现在人们已经发表了大量的 RNA-seq 和数据分析方案,对于刚入门的新手来说难免有些无所适从。
佛罗里达大学、加州大学 Irvine 分校等单位的研究人员在一月二十六日的 Genome Biology 杂志上发表文章,概述了 RNA-seq 生物信息学分析的现行标准和现有资源,为人们提供了一份带有注释的 RNA-seq 数据分析指南。这将成为开展 RNA-seq 研究的宝贵参考资料。
这份指南覆盖了 RNA-seq 数据分析的所有主要步骤,比如质量控制、读段比对、基因和转录本定量、差异性基因表达、功能分析、基因融合检测、eQTL 图谱分析等等。研究人员绘制的 RNA-seq 分析通用路线图(标准 Illumina 测序),将主要分析步骤分为前期分析、核心分析和高级分析三类。
前期预处理包括实验设计、测序设计和质量控制。核心分析包括转录组图谱分析、差异基因表达和功能分析。高级分析包括可视化、其他 RNA-seq 技术和数据整合。研究人员在文章中探讨了每个步骤所面临的挑战,也评估了一些数据处理方法的潜力和局限。此外,他们还介绍了 RNA-seq 数据与其他数据类型的整合。这种数据整合可以将基因表达调控与分子生理学和功能基因组学关联起来,如今越来越受到研究者的欢迎。