单细胞文献精读胰腺癌的转录表型由肿瘤
2021-6-18 来源:本站原创 浏览次数:次1全文概览
胰腺癌(pancreaticcancer)是一种具有高度侵袭性的疾病。该类疾病的异质性基础就在于低肿瘤细胞性以及广泛的基因组不稳定性。为解决这一问题,作者从原发性以及转移肿瘤中获得了纯化后的上皮细胞的全基因组及转录组数据集。转录组分析表明分子亚型是肿瘤内亚群混合驱动的基因表达连续体的产物,单细胞分析验证了这一结论。整合全基因组分析结果发现:分子亚型与特定基因拷贝数畸变有关(例如突变体KRAS和GATA6)。通过绘制肿瘤的遗传历史图谱,发现四倍体化为这些事件背后的关键突变过程。综上所述:肿瘤中的基因组畸变会产生分子亚型,而疾病异质性是由进展过程中持续的基因组不稳定性所致。
2介绍胰腺癌是一个高度致死性疾病,大多数患者在发现时就已处于第Ⅳ期,并在诊断一年内就会死亡。虽然乳腺癌具有一致的侵袭性,但就治疗反应而言,不同患者间存在广泛的异质性。排除罕见病例,大多数患者的反应时间从几个月到一年多不等,而其他患者虽然在进展前有短暂稳定期,但几乎对一线化疗药物没有反应,并会出现肿瘤生长。对于外科手术切除肿瘤的患者而言(Ⅰ期或Ⅱ期),部分在数月之内就会进展为IV期,部分在一年之后会复发,只有少部分人可以痊愈。基因组研究认为:这种疾病具有同质性,并伴随四种基因的突变:KRAS,CDKN2A,TP53以及SMAD4。只是如果大多数胰腺癌通过相似的突变途径发展,那么临床异质性是如何产生的呢?
原发肿瘤和转移瘤的基因突变范围是有限的,这提示非遗传机制,比如细胞来源或基质细胞相互作用,可能是这种变异的主要来源。然而,大多数基因组研究使用的肿瘤样本都具有低肿瘤细胞性,并且多以研究比DNA拷贝数变异更容易检测的单核苷酸变异(single-nucleotidevariants,SNVs)为主。胰腺肿瘤的染色体碎裂(chromothripsis)频率较高,然而与基因组不稳定性相关的突变过程是否影响胰腺癌的临床异质性尚不清楚。
就实验而言,解决上面提到的问题主要遇到2个阻碍:首先,大多数胰腺癌的基因组研究基于疾病早期(Ⅰ/Ⅱ期),只能代表少数患者。这主要是因为转移性患者的样本较难获取。年12月,作者启动了COMPASS试验(NCT),只招募晚期患者进行基因组分析。因此本文的患者队列包括Ⅳ期样本,这样就囊括了超过一半的胰腺癌患者亚群,有助于捕获到更广泛的疾病特征。其次,低肿瘤细胞性仍然是这种疾病分子分型的主要障碍。除Moffittetal的研究外,近日发表的Raphaeletal等人的研究证实,胰腺癌的分子分型受基质细胞浸润程度高的影响。因此,在细胞未纯化的情况下,肿瘤的表达特征就可能被掩盖。因此,为提高基因组分析时的肿瘤细胞数,作者在大量样本中通过激光捕获显微切割技术(lasercapturemicrodissection,LCM)纯化了上皮细胞。具体而言,作者对来自例患者个LCM-纯化肿瘤样本进行了全基因组测序(whole-genomesequencing,WGS),对个肿瘤样本进行了全转录组测序(RNAsequencing,RNA-seq)。作者使用上述数据主要研究了临床胰腺癌的异质性是否与基因变化相关。
3部分概念RNA原位杂交
RNA原位杂交技术的出现,可在保持组织和细胞形态的条件下,单细胞单分子水平对细胞内RNA进行定位、定量。具有高度特异性、极高的信噪比的特点,同时能够在单细胞单分子水平同时定位、定量分析多个RNA的表达。
NMF算法
NMF算法即为非负矩阵分解算法,是一种在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。使用这种方法,输入一个非负矩阵V,将输出两个非负矩阵W和H,并且目标为V=WH。
事实上,利用矩阵分解来解决实际问题的分析方法很多,如PCA(主成分分析)、ICA(独立成分分析)、SVD(奇异值分解)、VQ(矢量量化)等,但是它们的共同特点是,输出的W和H中的元素可正可负,即使输入的初始矩阵元素全是正的,传统的秩削减算法也不能保证原始数据的非负性。在数学上,从计算的观点看,分解结果中存在负值是正确的,但负值元素在实际问题中往往是没有意义的。例如图像数据中不可能有负值的像素点;在文档统计中,负值也是无法解释的。因为NMF的分解不出现负值,因此采用NMF分析基因DNA的分子序列可使分析结果更加可靠。
拷贝中性LOH
杂合性丢失(LOH,lossofheterozygosity)是用来描述一段DNA序列的等位基因分型结果中无杂合子(AB),而只有纯合子(AA/BB)的状态,本身与拷贝数无关,也就是一段序列是LOH状态,但其拷贝数可能为1,2,3。
拷贝数中性的杂合性丢失(copyneutralLOH)是指当拷贝数为2的时候发生的杂合性丢失。最常见的是单亲二倍体,也就是来自父母一方的染色体片段被另一方的同源部分取代,或一个个体的两条同源染色体来自同一亲体。
基因倍增过程的串联重复
基因家族,是指来源于同一祖先,经过基因重复和突变而产生的一组具有序列结构与功能相似性的基因,它们编码相似的蛋白质产物。同一个家族的基因可以紧密排列在一起,构成一个基因簇,也可以分散在同一个染色体的不同位置,或者在不同染色体。每个基因有着自己不同的表达调控模式。
基因倍增是指DNA片段在基因组中复制出一个或更多的拷贝,这种DNA片段可以是一小段基因组序列、整条染色体,甚至是整个基因组。基因倍增是基因组进化最主要的驱动力之一,是产生具有新功能的基因和进化出新物种的主要原因之一。基因倍增有两种模式:串联基因倍增和大规模基因倍增,两种基因倍增过程均产生大量基因家族。串联基因倍增是DNA分子复制出一个或多个邻近拷贝的过程,其通过高频率的基因产生和死亡实现基因家族的进化。大规模基因倍增是染色体中大片段基因组倍增,甚至全基因组倍增,其发生频率较低,且倍增基因通常大量流失,存留下来的倍增基因积聚突变或者获得新的功能,或者退化成没有功能的假基因。
4具体结果1.疾病亚型和与临床分期的联系Fig.1疾病队列的分子分型目前的分型方案有助于确定可切除肿瘤的预后亚类,但是并不能确定晚期疾病的预后。
ExtendedDataFig.1a不同乳腺癌分型方式的预后分类
因此作者用本文队列对疾病进行了重分型,以期待能对晚期胰腺癌也能有预后预测效果。作者使用非负矩阵分解算法(Non-negativematrixfactorization,NMF)提取了肿瘤特异性基因集(基因集1,2,6和10),而这些基因表达模式在单细胞数据集中也得到了验证。
SupplementaryTables4部分截图:NMF成分基因列表
这四个基因集中的基因接下来被用作聚类分析(consensusclustering),结果如图Fig.1a(包括例肿瘤样本)所示:
该队列中的细胞经一致性聚类分析,基于肿瘤NMF基因集的基因表达连续谱被分为5个亚群,作者将5个亚群分别标注为“基底样A亚群”,“基底样B亚群”,“混杂亚群”,“经典A亚群”以及“经典B亚群”
接下来,作者将其与已有的经典分类方式做比较,得到Fig.1b
与其他4篇文章中的分型方式做对比,本文的分类方式将“基底样细胞亚群”和“经典B型细胞亚群”又各自细分为2个亚型。其中,各种分类方案所定义的“混杂亚群”中都包含多个基因集的表达,因此作者将其定义为“Hybrids”。
下一步,作者分别统计了本文的5种亚型在各个临床分期中的占比,得到Fig.1c,d(Fisher精确检验)
早期肿瘤中(Ⅰ/Ⅱ期,可切除),经典亚群A和B所占比例较高(62%,n=98/),而他们在晚期肿瘤中(IV期)仅占46%。此外,基底样A亚群在早期肿瘤中很罕见(5%,n=8/),在局部进展肿瘤中缺如(Ⅲ期),但在晚期转移性肿瘤中(Ⅳ期)占了将近1/4(24%,n=18/74)。有趣的是,早期可切除肿瘤样本中的基底样肿瘤主要由基底样B亚群(9%,n=14/)和混杂亚群构成(24%,n=38/)。这提示:早期和晚期肿瘤样本中的基底样细胞表型是不同的。
基底样A,B亚群以及Hybrid肿瘤的分布区别有2点重要的提示意义:1)与其他分型方案相比,早期可切除样本中的基底样B亚群及混杂亚群确定了两个预后亚群,而在之前的方案下它们被一致认为具有侵袭性;
ExtendedDataFig.3a:3种分类方法中不同亚型在早期样本的生存时间
2)在晚期样本中,基底样A亚群具有高度的化学耐药性,与不良预后相关。
ExtendedDataFig.3c,d:晚期样本不同亚型的生存分析
基底样A,B亚群以及Hybrid肿瘤之间的区别使不同化疗反应之间的差异更加有据可循。然而,这些发现还有待于未来更大的独立研究队列的验证。
ExtendedDataFig.3e,f:
其中FOLFIRINOX是一种胰腺癌的化疗方案
总之,综合上述研究结果,不同临床分期的肿瘤亚型是不同的,并且研究样本中包含对晚期肿瘤样本的分子分析也是至关重要的。
2.基底样及经典亚群在肿瘤内共表达Fig.2使用单细胞RNA测序结果追踪基底样及经典样亚群相关的基因集为研究从大规模RNA测序得到的表达基因集是如何在瘤内分布的,作者对15个样本进行了单细胞RNA测序(13个早期可切除样本,2个晚期转移样本)。
ExtendedDataFig.4a:获取样本,筛选肿瘤上皮细胞,最终得到31,个细胞进行10X测序的流程图
作者通过阴性细胞选择的方式首先富集得到了肿瘤上皮细胞。剩余的免疫细胞、成纤维细胞和内皮细胞也使用已建立的谱系标记基因得到鉴定
ExtendedDataFig.4b,c:B图为患者负性选择之后的细胞UMAP聚类图;C为标志上皮细胞(EPCAM,KRT19),免疫细胞(PTPRC,CD33)以及成纤维细胞(THY1,ACTA2)的基因在UMAP中的分布图
鉴定出上皮细胞之后,作者进一步利用人类正常胰腺单细胞转录组图谱中的标记基因来区分正常和恶性上皮细胞
ExtendedDataFig.4d,e:d图展示在患者中进一步鉴定不同类型的上皮细胞;e图分别展示了外分泌细胞(SPP1,CFTR),内分泌细胞(GCG,INS)相关基因的分布情况。
此外,作者只在肿瘤细胞中观察到了罕见突变的KRASreads和推测的拷贝数畸变。
ExtendedDataFig.4f–h:f为患者的UMAP图;g图为测序结果中包含KRAS突变的reads。突变阳性的细胞仅在恶性细胞簇可见
h图一例病例中推断为单细胞拷贝数变异以验证细胞归类为恶性上皮细胞是非整倍体的热图。上图展示了正常上皮的拷贝数分布,底部轨迹显示了肿瘤的拷贝数变化
作者将肿瘤细胞重聚类,得到Fig.2a:
同时,还对每这7个亚群中的标志基因进行了热图展示,同时展示了每个细胞的肿瘤基因集(signatures1,2,6和10)和EMT基因集得分,如图Fig.2b所示:
基底样肿瘤细胞为基因集2和10,经典样肿瘤细胞表达基因集1和6。可以看到,亚群0,1和3多表达基底样基因集,亚群2,4,6多表达经典型基因集,而亚群5并没有高表达这几个基因集中的任何一个。在15个肿瘤中的13个中,可以在同一肿瘤同时发现基底样细胞亚群和经典型细胞亚群,这些亚群通常可以划分不同的肿瘤细胞群
ExtendedDataFig.4i:15例样本中的每个单细胞亚群4个基因集的基因集得分。亚群被分为3种类型:基底亚群包含>75%Sig.2和Sig.10的细胞;经典亚群包含??75%Sig.1和Sig.6的亚群;其余亚群被标记为混合亚群。星号表示4个基因集的表达缺如。
接下来,作者探索了这两个基因集的相关关系:
Fig.2c,n=15samples
其中,左图为:某一代表性肿瘤样本基因集6和基因集2的相关关系散点图(two-sidedSpearmancorrelation),每一个点代表一个细胞。右图为15个样本中4个肿瘤基因集(基因集1,2,6)之间两两比较的Spearman相关系数热图。CI,Ba分别为Classical(signature1or6)和Basal(signature2or10)的缩写
可以发现:基底及经典相关的基因集表达在单细胞水平负相关
在大规模RNA测序层次,作者还发现基底细胞样基因集与上皮间质细胞转化基因集有一定的关系,因此作者在单细胞层次也探索了两者的关系:
Fig.2d
单细胞层次,两者呈正相关关系。
总而言之,上述结果显示:(1)基底细胞样以及经典表达基因集都存在于肿瘤内;(2)不同基因集的表达和构成可以区分不同的细胞亚集;(3)EMT基因集与基底细胞样基因集存在相关关系
3.经典型肿瘤中富含SMAD4和GATA6变异Fig.3分子亚型的DNA拷贝数分析接下来,作者分析了全基因组测序数据中肿瘤亚型的遗传特征。其中,存在同源重组缺陷(homologousre