多癌种血液早筛CancerSEEK技术
2021-9-8 来源:本站原创 浏览次数:次壹癌症早筛很重要
在经典美剧《绝命毒师》中,身怀绝技的高中化学老师WalterWhite经常咳嗽,在一次洗车时突然晕倒,检查后才发现已经是肺癌晚期,White自知没钱医治,时日不多,为了给老婆孩子留下一笔资产,不惜铤而走险,成为大毒枭,最后死于非命。当然这只是影视剧,但对于所有癌症患者来讲,癌症无疑会对身体、心理和经济造成巨大的压力。
其实大部分没有发生转移的癌症仅仅通过手术就可以完全治愈!不幸的是,大部分患者跟电视剧中的White一样,出现明显症状时才被诊断为癌症,此时往往已经形成了大的肿瘤转移物,目前的疗法很少能完全治愈。所以,如果能在癌细胞转移前,就检测出癌症,是治愈癌症不可缺少的手段。
对于成人癌症,从初始瘤性病变进展到晚期癌症需要花费长达20-30年的时间。即使肿瘤细胞成功定植到恶化也需要几年的时间。如果很不幸肿瘤开始发生转移,但只要不明显,通过系统性的治疗(比如细胞毒素药物和免疫治疗),治愈率仍可达到50%。所以在癌症转移前,有相当长一个窗口期可以进行检测!
贰一管血筛查癌症
目前有效的癌症早筛手段寥寥无几,大家所熟知的无非就是肠镜检查、乳腺X线摄影等。而且对于大部分癌症目前没有早期筛查的方法。随着基因组学和蛋白质组学的兴起,科学家们一直在致力于使用更加方便准确的方法来筛查大部分常见的癌症,例如,抽一管血,就可以筛查出癌症。
血液检测体细胞突变,俗称液态活检,是一种非常有前景的筛查技术,但目前使用此方法检测的患者,基本到了肿瘤晚期。因为早期癌症患者,每毫升血浆可能含有不到一个突变DNA模板,超出了现有检测突变技术的极限。如果不局限于只检测基因突变信号,通过多维度的血液组学分析,是否可以实现癌症早筛?
首先我们不得不面对血液早筛的几个重要原则:
1.血液筛查必须要有非常高的特异性,否则健康人如果收到癌症阳性报告,势必会导致不必要的定期复查和焦虑。
2.检测灵敏度尽可能的高。
3.受试者如果检测为癌症阳性,最好能判断患者得了哪一种癌症。
基于以上背景和原则,年,约翰霍普金斯大学医学院NickolasPapadopoulos团队在Science上发表了多癌症早筛领域的奠基性比较研究成果。本文将详细对这篇报道进行解读,以供读者学习和讨论。
作者的总体思路和实验可以归结为以下内容:
1.选择在人群中比较普遍的癌种,并且目前没有血液筛查的方法,最终确定卵巢癌、肝癌、胃癌、胰腺癌、食道癌、结肠癌、肺癌和乳腺癌8种癌症为研究对象。
2.在技术层面上,同时检测血浆ctDNA肿瘤驱动基因突变和血浆癌症蛋白标志物;
3.通过大规模癌症患者和健康人的测试数据,开发稳健的逻辑回归算法预测癌症阳性和阴性,同时通过机器学习判断癌症类型。
作者将这一整套检测技术,命名为CancerSEEK。
叁CancerSEEK第一板斧:肿瘤驱动基因ctDNA突变
检测血浆ctDNA基因突变,不得不面对的一个问题是:如何挑选基因位点?作者筛选基因位点的标准如下:
1.碱基位点要充足,而且位点突变后,能驱动较多数量的癌症;
2.每一种癌症至少能检测到一个驱动基因突变;
3.每个碱基位点测序深度必须要达到几千乘,使低频突变能被检测到;
4.碱基位点必须有限制,因为位点越多,人造突变会越多,降低信噪比;
5.检测技术必选要应用于实际筛查,因此检测成本必须低,而且筛查通量要大。
基于以上标准,作者首先分析公共数据库,发现扩增子的数量与检测灵敏度之间存在一定的关系,约60个扩增子时,灵敏度会达到平台期。达到平台期后,增加扩增子的数量,并不能检测到更多潜在的癌症,相反会增加假阳性的结果。
据此,作者设计了61个扩增子的小panel,总共检测16个基因,每个扩增子检测约33bp的区域;这16个基因和相应扩增子个数如下:TP53(31)、PIK3CA(4)、FBXW7(4)、KRAS(3)、NRAS(2)、CTNNB1(2)、APC(2)、CDKN2A(2)、PTEN(2)、FGFR2(1)、HRAS(1)、AKT1(1)、PPP2R1A(1)、GNAS(1)、EGFR(1)、BRAF(1)。
接着,作者使用61扩增子panel在癌症体细胞突变数据库(COSMIC)中进行检测,理论上能检测到41%(肝)到95%(胰腺)的癌症。而在实际个癌症样本中,panel检出癌症能力表现更出色,82%的患者能检测到1个突变位点,47%的患者能检测到2个突变位点,8%的患者能检测到超过两个突变位点。
这是由于PCR扩增子测序的灵敏度比传统全基因组测序更灵敏,所以实际检测的肿瘤比例比COSMIC预测的要高。基于ctDNA突变检测,预计最大的检测能力从60%(肝癌)到%(卵巢癌)。
设计扩增子panel后,作者进一步开发了2种技术来检测血浆中罕见的突变。首先,通过多重PCR直接对模板DNA分子标记上barcode,用来纠正高通量测序引入的错误。再者,将cfDNA分成许多液滴,每个模板液滴都独立进行扩增,从而减少每个反应孔中DNA分子的数量,增加每个孔中突变分子的比例,鉴定低频突变(后面会单独出一期技术解读的文章)。
61扩增子panel检测血浆ctDNA突变
图中曲线代表扩增子数量与癌症检出比例的关系,扩增子数量在约60个时,会达到平台期。图中圆点表示,作者61扩增子panel实际检出癌症的比例(平均82%)。
肆CancerSEEK第二板斧:肿瘤蛋白标志物
CancerSEEK第二个核心技术是检测蛋白标志物。其实,大部分早期肿瘤释放的ctDNA量极少,即使用极端灵敏的检测技术,有时也很难检测到。因此不得不寻找其它的肿瘤标志物作为补充。有文献报道,许多蛋白是癌症早筛和诊断的潜在标志物,使用蛋白标志物检测上述8种癌症,能使每种癌症检测敏感性大于10%,特异性大于99%。
据此,作者寻找了41种潜在的蛋白标志物,并分别在癌症患者和正常人血浆中进行初步鉴定。通过免疫检测平台,作者发现其中39种蛋白可重复被检测。其中8种蛋白在区分癌症患者和健康人中贡献最大。它们分别是:癌症抗原(CA-)、癌胚抗原(CEA)、癌症抗原19-9(CA19-9)、催乳素(PRL)、干细胞生长因子(HGF)、骨调素(OPN)、髓过氧化物酶(MPO)、金属蛋白酶1、组织抑制子(TIMP-1)。
伍CancerSEEK第三板斧:大规模人群检测和逻辑回归算法
ctDNA突变和蛋白标志物检测技术稳健后,作者开始了大规模的人群检测,总共收集了5例Ⅰ-Ⅲ期肿瘤患者的样本,这些患者分属于前面提到的八种癌症。病人在收集血液样品前,都没有经过新辅助化疗(neo-adjuvantchemotherapy),所有患者癌组织都没有明显的远端转移。患者确诊时年纪中位数为64岁(区间为22-93岁)。其中处于Ⅱ期的患者最多,占比49%;Ⅰ期占比20%,Ⅲ期占比31%。所有分期都按照美国癌症联合委员会(AJCC)标准划分。健康人群队列包含例,年龄中位数为55岁(区间为17-88岁),没有癌症史、发育不良、自身免疫疾病、慢性肾病。
试验中肿瘤患者的类型分布表
癌种
Ⅰ期病例
Ⅱ期病例
Ⅲ期病例
总病例
乳腺癌
32
63
结肠癌
77
食管癌
5
29
11
45
肝癌
5
19
20
44
肺癌
46
27
31
卵巢癌
9
4
41
54
胰腺癌
4
83
6
93
胃癌
21
30
17
68
总计
5
前面讲到,CancerSEEK评估8种蛋白的表达水平和基因组个位点的突变水平。只要测试位点上存在一个突变或者任何一个蛋白水平上升,受试者将会被判断为阳性。为了确保测试的准确性,作者开发了逻辑回归算法,将突变数据和蛋白标志物水平进行综合计数打分,敏感性和特异性的平均值通过10倍交叉验证获得。
从受试者工作特征曲线(ROC)中可以看到,CancerSEEK在大于99%的特异性时,受试者的平均敏感度为62%(下图红点)
ROC结果表明CancerSEEK的平均敏感度为82%
在特异性大于99%的情况下,8种癌症的敏感度中位数为70%,从98%(卵巢癌)到33%(乳腺癌)变化。另外,在例健康人群中,有7例被检测为阳性(0.86%),即假阳性,但也不排除其本身可能患有没有被查出的癌症。
CancerSEEK在不同癌种中的敏感度癌症筛查最重要的目的是尽可能早地筛查出癌症。CancerSEEK对于Ⅱ期患者的灵敏度是73%,Ⅲ期是78%,Ⅰ期是43%。值得提出的是,对于Ⅰ期患者,CancerSEEK肝癌的灵敏度达到%;食管癌最低,灵敏度只有20%。
CancerSEEK在不同癌期中的灵敏度
陆CancerSEEK第四板斧:机器学习预测癌症起源
如果受试者被CancerSEEK判定为阳性,那么他/她到底得了哪种癌症?如果能预测出癌种,也为后期进一步的检测和治疗带来方便。
为了测试CancerSEEK是否能判断癌症的组织起源,作者使用了有监督的机器学习来预测阳性病人潜在的癌症类型,这套算法综合考虑了ctDNA突变和蛋白标志物的水平以及患者的性别。
随后,作者使用这套机器学习算法调查了例CancerSEEK阳性癌症患者,在没有任何患者信息的前提下,83%的患者(中位数)能将癌症起源定位到2种组织,定位到单一组织的患者比例为63%(中位数)。预测精确度在不同肿瘤类型中差异很大,最高的是结肠癌(84%),最低的是肺癌(39%)。考虑到肿瘤驱动基因突变通常不是组织特异性的,所以蛋白标志物在鉴定癌症类型方面做了很大的贡献。
机器学习预测阳性患者的癌症类型
(注:由于内窥镜检查是食管癌和胃癌检测的最佳的选择,因此作者将这两种癌症归为一类)
柒CancerSEEk总结和讨论
作者将血浆基因突变和蛋白标志物检测结合,在不降低特异性的情况下,尽可能提升检测灵敏度,为帮助筛查8种常见恶性肿瘤提供信息指导。同时作者认为研究中也存在一些弊端:
1.所使用的患者队列都是已知癌症类型的患者,并且大部分都是通过疾病症状诊断的。虽然所有患者没有表现出转移性病变,但在实际筛查中,大部分患者可能症状并不明显,因此检测的敏感性可能比报道的要低。
2.研究使用的对照人群是完全健康的,但在实际癌症筛查中,一些个体可能有炎症或者其它疾病,因此假阳性的比例可能比报道的要高。
3.虽然多重交叉验证方法,功能比较强大,并且被广泛用于队列敏感性和特异性分析,但研究并没有使用完全独立的病例来进行验证。
4.研究使用的癌症患者队列并没有囊括对应癌种的所有类型。如果CanceSEEK用于实际筛查,估计这8种癌症的实际敏感性约为55%。但CancerSEEK可能对5种癌症(卵巢癌、肝癌、胃癌、胰腺癌、食管癌)仍然高敏感(69%-98%),而目前这5种癌症,风险人群仍然没有很好的检测方法。
这篇报道为多类型癌症的血液早筛,提供了理论和实践基础,作者估计筛查的费用可能不到每次美元,这可能与其它筛查方式价格差不多或者更便宜(在美国)。CancerSEEK如果想进入实际的临床性应用,还需要大规模癌症类型的前瞻性研究。
如果WalterWhite所处的时代也有癌症早筛技术,他可能也会看到儿子上大学,女儿健康成长。
所谓未来的趋势,不过是你我现在所