图片来源:项目双胞胎的插图

单细胞生物学是当今的热门话题。该领域的前沿是单细胞RNA测序(scRNA-seq)。

传统的“批量”RNA测序(RNA-seq)方法一次处理数十万个细胞,并平均出差异。但是没有两个细胞是完全相同的,scRNA-seq可以揭示使每个细胞独特的微妙变化。它甚至可以揭示全新的细胞类型。

例如,在使用scRNA-seq检测了大约2400个免疫系统细胞后,马萨诸塞州剑桥市布罗德研究所的Aviv Regev和她的同事发现了一些具有强大t细胞刺激活性的树突细胞(a -c。Villani公司科学356eaah4573;2017)。雷格夫,他被描述为新闻功能他说,刺激这些细胞的疫苗可能会增强免疫系统,预防癌症。

但这样的发现来之不易。操纵单个细胞比操纵大群体要困难得多,而且由于每个细胞只能产生少量的RNA,因此没有出错的余地。另一个问题是分析由此产生的大量数据——尤其是因为所使用的工具可能不直观。

通常,RNA-seq数据是通过在Unix操作系统中费力地输入命令来分析的。数据文件从一个软件包传递到下一个软件包,每个工具处理过程中的一个步骤:基因组比对、质量控制、变体调用等等。

这个过程很复杂。但至少对于批量RNA-seq,已经出现了一种共识,即哪种算法最适合每一步,以及它们应该如何运行。因此,“管道”现在存在,即使不是完全的即插即用,至少对于非专家来说是易于处理的。剑桥英国癌症研究中心(Cancer Research UK)的计算生物学家Aaron Lun表示,要分析基因表达的差异,批量rna测序(bulk RNA-seq)“基本上是一个已解决的问题”。

自然特别的:单细胞生物

对于scRNA-seq来说,情况并非如此:研究人员仍在研究他们可以用这些数据集做什么,以及哪些算法最有用。

但是,一系列在线资源和工具正在开始简化scRNA-seq数据分析的过程。在GitHub的一个页面,称为“令人敬畏的单细胞”(go.nature.com/2rmb1hp),列出超过70种工具和资源,涵盖分析过程的每一个步骤。西雅图华盛顿大学的生物学家科尔·特拉普内尔(Cole Trapnell)说,这一领域催生了计算生物工具的家庭手工业。

定制技术

夏威夷大学(University of Hawaii in Honolulu)的生物信息学家拉娜·加米尔(Lana Garmire)在去年发表的一篇综述中列出了scRNA-seq数据分析的基本步骤(以及大约48个执行这些步骤的工具)前面。麝猫。7, 163;2016)。她说,虽然每个实验都是独一无二的,但大多数分析管道都遵循相同的步骤来清理和过滤测序数据,找出哪些转录本被表达,并纠正放大效率的差异。然后,研究人员进行一个或多个二级分析,以检测亚群和其他功能。

威斯康星大学麦迪逊分校的生物统计学家Christina Kendziorski说,在许多情况下,用于批量RNA-seq的工具可以应用于scRNA-seq。但数据的根本差异意味着这并不总是可能的。首先,单细胞数据噪音更大,伦说。由于需要处理的RNA如此之少,扩增和捕获效率的微小变化会在细胞与细胞之间以及每天产生与生物学无关的巨大差异。因此,研究人员必须警惕“批量效应”,即在不同日子制备的看似相同的细胞由于纯粹的技术原因而不同,以及“缺失”——在细胞中表达但没有在序列数据中提取的基因。

另一个挑战是规模,澳大利亚悉尼Victor Chang心脏研究所的生物信息学家Joshua Ho说。一个典型的大量RNA-seq实验涉及少量样本,但scRNA-seq研究可能涉及数千个样本。可以处理十几个样本的工具在面对十倍或百倍的样本时往往会变得很慢。(何猷龙的Falco软件利用按需云计算资源来解决这个问题。)

在scRNA-seq的世界里,即使是什么构成良好的细胞制备这一看似简单的问题也很复杂。Lun的工作流程假设大多数细胞具有近似相等的RNA丰度。但他表示,“这种假设并不一定正确”。例如,他说,从未被抗原激活且相对静止的幼稚T细胞往往比其他免疫细胞拥有更少的信使RNA,最终可能在分析过程中被移除,因为程序认为没有足够的RNA进行处理。

也许最重要的是,进行scRNA-seq的研究人员倾向于提出与分析体块RNA不同的问题。批量分析通常研究两种或多种处理条件下基因表达的差异。但研究单细胞的研究人员往往旨在识别新的细胞类型或状态,或重建发育的细胞通路。“因为目标不同,这必然需要一套不同的工具来分析数据,”伦说。

例如,单细胞分析的一种常见类型是降维。这个过程简化了数据集,以方便识别相似的单元。根据英国剑桥威康基金会桑格研究所的计算生物学家马丁·亨伯格(Martin Hemberg)的说法,scRNA-seq数据将每个细胞表示为“一个包含2万个基因表达值的列表”。降维算法,如主成分分析(PCA)和t分布随机邻居嵌入(t-SNE),有效地将这些形状投射到二维或三维空间,使相似的细胞簇明显可见。另一个流行的应用是伪时间分析。特拉普内尔在2014年开发了第一个这样的工具,名为Monocle。特拉普内尔说,该软件使用机器学习从scRNA-seq实验中推断出伴随细胞分化的基因表达变化序列,就像通过从空中拍摄跑步者来推断跑步路线一样。

其他工具用于亚群体检测(例如,来自马萨诸塞州波士顿哈佛医学院的Peter Kharchenko的Pagoda)和空间定位,它使用组织中基因表达分布的数据来确定组织中每个转录组的位置。纽约市纽约基因组中心的Rahul Satija开发了一个这样的工具,Seurat,作为Regev的博士后,他说该软件使用这些数据将细胞定位为3D空间中的点。“这就是为什么我们把这个包命名为Seurat,”他解释说,“因为这些点让我们想起了点彩画上的点。”

尽管这些工具针对的是特定的任务,但它们通常处理多种功能。例如,Seurat为Regev的团队进行的细胞亚群分析提供了动力,以确定新的免疫细胞类别。

大多数scRNA-seq工具以Unix程序或r编程语言包的形式存在,但加州大学圣地亚哥分校的生物信息学家Gene Yeo说,相对来说,很少有生物学家能在这些环境中舒适地工作。即使他们是,他们可能缺乏所需的时间来下载和配置一切使这些工具工作。

已经开发了一些现成的管道。此外,还有端到端的图形工具,包括来自FlowJo的商业SeqGeq软件包,以及两个开源网络工具:Garmire团队的Granatum,以及来自瑞士洛桑联邦理工学院生物工程师Bart Deplancke实验室的ASAP(自动单细胞分析管道)。

ASAP和Granatum使用网络浏览器提供相对简单的交互式工作流程,允许研究人员以图形方式探索他们的数据。用户上传他们的数据,软件会一步一步地引导他们完成这些步骤。对于ASAP,这意味着通过预处理、可视化、聚类和差异基因表达分析获取数据;Granatum允许伪时间分析和蛋白质相互作用数据的整合。

根据Garmire和depancke的说法,ASAP和Granatum的设计是为了让研究人员和计算生物学家一起工作。研究人员“过去认为(生物信息学家)是一种神奇的生物,他们只是获得数据,然后神奇地产生结果,”夏威夷大学马诺阿分校(University of Hawaii at Manoa)博士生、Granatum的首席开发者朱逊(Xun Zhu)说。“现在他们可以稍微参与调整参数。这是一件好事。”

小心接近

当然,这些工具并非适用于所有情况。例如,一个擅长识别细胞类型的管道可能会在伪时间分析中出错。此外,加州大学伯克利分校的生物统计学家Sandrine Dudoit说,适当的方法“非常依赖于数据集”。可能需要对方法和调优参数进行调整,以考虑诸如排序长度等变量。但剑桥英国癌症研究中心的约翰·马里奥尼表示,重要的是不要完全相信这种方法。他说:“仅仅因为卫星导航告诉你把车开进河里,你就不会把车开进河里。”

对于初学者来说,谨慎是有必要的。生物信息学工具几乎总能给出答案;问题是,这个答案有什么意义吗?Dudoit的建议是做一些探索性的分析,并验证你所选择的算法背后的假设是有意义的。

Satija说,一些分析任务仍然具有挑战性,包括比较不同实验条件或生物体的数据集,以及整合来自不同“组学”的数据。(他指出,Seurat的更新计划应该会解决前一个问题。)

但是有足够的工具让大多数研究人员忙碌起来。肯齐奥斯基建议感兴趣的人直接投入进去。每一种新工具都能揭示生物学的另一个方面;只需要关注科学,做出明智的选择。