Cell | 利用弱监督学习对前列腺癌患者复杂三维病理数据进行临床风险及预后预测
2024年5月9日,来自Jonathan T.C. Liu和Faisal Mahmood研究团队的Andrew H. Song、Mane Williams和Drew F.K. Williamson等人在Cell期刊上发表了一篇题为“Analysis of 3D pathology samples using weakly supervised AI”的研究文章。这篇文章重点介绍了一个基于弱监督学习的深度学习平台TriPath,用于处理和分析3D病理样本,并能有效预测临床结果。这一平台不仅提高了对前列腺癌样本的风险分层能力,而且比传统的2D病理方法和病理学家的基线表现更优,显示出其在未来临床应用中的潜力。研究团队的工作不仅推动了3D成像技术和深度学习在病理学中的应用,还可能改变我们理解和诊断复杂疾病的方式。
人体组织是多样化和异质性结构的集合,这些结构本质上是三维(3D)的。尽管如此,超过一个世纪以来,薄的二维(2D)组织切片仍然是诊断的标准。在玻璃载玻片上的2D组织采样仅代表了所有三维中固有的复杂形态信息的一小部分。实际上,研究表明,在某些应用中,检查同一组织块的多个层面比单一2D切片能得到更准确的诊断。此外,复杂组织微结构的某些特征在2D横截面组织学图像中是模糊的或完全不可见的。这些因素表明,从2D向3D病理的转变可能会更好地描述在整个组织体积中遇到的形态多样性,并最终改善患者的诊断、预后和治疗反应预测。
为了全面捕捉体积组织形态,过去十年出现了几种3D成像技术。除了采用组织连续切片后进行3D重建的协议外,如高通量3D光片显微镜(light-sheet microscopy)、微计算机断层扫描(microCT)、光声显微镜、多光子显微镜和光学相干断层扫描等非破坏性成像方式已显示出捕捉高分辨率3D体积组织图像的潜力。然而,3D成像技术的临床采用仍存在几个障碍。其中一个主要挑战是如何有效且准确地分析这些技术常规生成的大型、特征丰富的3D数据集。深度维度的增加可以使高分辨率组织学图像的大小增加数个数量级,使得病理学家的手动检查工作(在2D中已经很繁琐)变得更加耗时且容易出错。
对于分析大型3D病理数据集,基于深度学习(DL)的计算方法呈现出一个有吸引力的解决方案,因为它能够有效且自动地提供诊断决策和决策支持。尽管基于DL的计算病理学框架已经取得了显著进展,特别是在以最小临床干预进行患者级预测方面,但这些框架几乎完全基于2D组织图像。在计算3D病理学中,最近的工作利用了从腺体或细胞核等组织原始结构衍生的手工制作的3D特征,这些算法基于预定义的形态度量描述符,其范围有限,需要先进的分割网络来首先在3D中勾勒出选定的组织原始结构。
此外,端到端的DL方法提供了在不受约束的方式中识别新视觉特征的潜力,有可能最大化预测性能。然而,目前还没有计算管道来探索这种3D DL方法的价值,特别是展示其超过当前2D切片基础分析范式的优越性。这样的结果将具有重大意义,并可能为更多的诊所和制药公司提供来自大型、精心策划的患者队列的完整组织样本,这些样本与可靠的患者级结果相匹配,进一步加速计算3D病理学的临床转化。
研究团队介绍了一个基于DL的计算管道TriPath,用于体积组织图像分析,可以基于3D形态特征进行患者预后,而不需要病理学家的手动注释。TriPath的定义特征是其作为一个通用的计算工具用于组织体积分析。TriPath对成像模式不敏感,这一点在当前多样化的3D组织成像模式的环境中尤为重要,并且可以灵活地适应用于体积输入的2D和3D分析,以应对多种任务。
关键字:3D成像、弱监督、多实例学习、前列腺癌、注意力机制、临床病理预测
研究内容
TriPath平台的开发旨在通过深度学习技术和三维成像方法,克服传统二维病理分析的限制,实现对复杂疾病如前列腺癌的更准确诊断和预测。该平台使用前列腺癌患者通过开放顶部光片显微镜(OTLS)和微计算机断层扫描(microCT)采集的体积组织样本。这些高分辨率的三维图像首先经过一系列预处理步骤,包括去噪声、对比度增强和图像标准化,以优化后续的深度学习处理过程。在深度学习框架中,TriPath利用了多实例学习(MIL)的策略,其中整个组织体积被视为一个“袋子”,袋子内的每个小体积块(实例)都可能包含对最终诊断有用的信息。这种方法允许模型从没有标注的大量图像实例中学习到预测患者级临床结果的关键特征,而无需每个实例的具体标注。核心的特征提取过程由预训练的三维卷积神经网络(CNN)执行,这些网络能够自动地从每个三维块中提取出复杂的空间关系和深层次的生物学特征。这些特征对于理解和识别疾病的微观环境至关重要,尤其是那些在二维图像中难以观察到的特征。此外,TriPath在特征聚合阶段采用了注意力机制,该机制通过加权各个实例的贡献,突出对预测结果最具影响力的体积块。这一步骤是模型优化信息提取的关键,确保了模型在预测时能够聚焦于最关键的区域。整个网络采用端到端的训练方式,直接从原始的三维图像数据学习到预测患者临床结果的功能,这种训练方法最大化了预测性能,并尽可能减少了手工定义特征可能引入的偏差。通过这种深入的学习和分析方法,TriPath不仅提高了疾病诊断的精度,也为未来的临床应用奠定了基础。
在TriPath平台的实验结果中,该系统表现出了卓越的性能,特别是在前列腺癌样本的风险分层和预测方面。通过使用开放顶部光片显微镜(OTLS)和微计算机断层扫描(microCT)技术获得的数据,TriPath能够有效识别并利用三维组织结构中的复杂形态特征,这些特征在传统的二维病理分析中往往无法捕捉。实验结果显示,TriPath在提取和分析这些特征方面的能力,显著优于传统的二维切片方法及病理学家的基线分析。具体来说,三维体积基础的预测不仅提高了诊断的准确性,还增强了对疾病进展的预测能力,这对于改善患者的预后和制定个性化治疗方案具有重要意义。此外,TriPath的应用展示了深度学习在高度异质和复杂数据集中的强大潜力,其能够通过精确分析大规模的三维数据来提供可靠的临床决策支持。这些结果不仅验证了三维病理学在临床应用中的有效性,也预示了人工智能技术在未来医疗健康领域的广泛应用前景。
研究结果
计算平台TriPath用于三维病理样本的弱监督分析
TriPath将一个非常大的(千亿体素,超过10^9体素)输入组织体积划分为一系列较小体积的实例,这些实例随后被总结为一个单一的低维特征向量(数量级为10^3)。这个压缩向量成为预测患者级临床终点的基础,这是多实例学习的典型范式,也被称为弱监督学习。具体来说,TriPath的预处理组件首先将体积分割成一堆平面(2D)或长方体(3D),包含组织,并进一步将它们镶嵌成更小的2D或3D块(实例),这些块允许直接计算处理(图1A和1B)。每个实例进一步采用一系列模块进行编码,包括预训练的2D或3D深度学习(DL)特征编码器和一个可适应任务的浅前馈网络。特征编码器的角色是压缩和提取每个实例的低维且具代表性的特征,实现超过1000倍的压缩比。最终,体积内的实例特征被加权并汇总形成体积级特征,用于患者级风险预测。TriPath使用基于注意力的聚合模块自动识别对预后决策有贡献的重要实例和区域,无需额外的病理学家注释。作为事后解释方法,可以使用模型预测的显著性热图来识别与临床终点相关的形态特征(图1C)。
图1:TriPath 计算工作流程
基于体积的3D分析开辟了当前2D框架无法实现的新途径。从临床角度看,TriPath能够可靠地包括在传统全幅切片图像(WSI)中不存在的具有预后重要性的区域,这些图像对形态异质组织的覆盖有限。从技术角度看,除了在2D自然图像上预训练的基于2D的架构外,TriPath采用了在图像序列上预训练的3D卷积神经网络(CNN)或3D视觉变换器(ViTs),以编码从3D块中提取的3D形态感知的低维特征。自动编码形态表征的基于DL的特征编码器避免了人类认知限制下的手工工程特征,这些特征需要复杂的分割网络来描绘特定的组织原语(如腺体和核),这在3D中尤为具有挑战性。
尽管3D方法在更广泛的医学成像社区中的临床重要性已被认可,从而导致了如心脏衰竭预测的超声心动图视频和乳腺癌的乳房X光检测等应用,TriPath在几个方面区别于这些应用。首先,大多数医学成像应用依赖于特定形态的识别和分割,需要像素级注释或切片级注释。与之相反,TriPath主要处理患者级标签(临床终点),这些标签不需要临床医生的手动注释。此外,现有的3D医学成像框架处理的是分辨率较低的图像(>1毫米/体素)和较小的数据集(大约是100张最多512×512像素的图像序列),与这里分析的千亿体素3D病理扫描(<1毫米/体素)相比,这些数据集的规模只会随着3D成像技术的进步而增加。因此,3D病理需要几项技术进步,这些进步在以前的医学成像框架中未被利用,这些是TriPath所解决的。研究团队首先在模拟的3D幻影数据集上评估TriPath,然后是针对两个不同的前列腺癌队列的预后任务,这些队列使用不同的3D成像模式进行成像。他们广泛比较了体积样本的几种分析处理方法,从利用每个体积内几个平面的2D块(模拟传统的2D病理工作流)到利用整个体积的3D块。为了进一步验证性能,他们将TriPath与基于当前临床实践的基准进行比较,进行了一项涉及六名泌尿病理学家和苏木精和伊红(H&E)WSI的读者研究。前列腺癌数据集来自两个不同的中心,布莱根妇女医院(BWH)和华盛顿大学(UW):BWH队列包含45例前列腺切除标本(n=45名患者),UW队列包含从前列腺切除标本中提取的444个针刺活检(n=74名患者),其中171个活检含有癌症,并包括在本研究中。千亿体素体积图像是从两种3D病理成像方式获得的:华盛顿大学队列采用开顶式光片显微镜(OTLS)进行成像,布莱根妇女医院队列采用微CT进行成像。OTLS是一种荧光显微技术,可用于快速、高分辨率成像脱蜡组织体积,这些组织用快速的小分子荧光类似物染色,并通过可逆脱水基协议进行光学清晰化。微CT通过从多个角度穿透样本的X射线投影重建一个三维体积。研究团队使用的数据集是由一个双通道(核和伊红通道)第二代OTLS显微镜获得的,其各向同性采样间距为1毫米/体素(显微镜的光学分辨率在2D中为0.9毫米,在3D中为3.5毫米)。单通道(灰度)的微CT数据集的各向同性采样间距为4毫米/体素(奈奎斯特采样)。因此,本机成像分辨率和采样间距都小于或等于临床实践中使用的物理组织切片的厚度(5毫米)。他们选择前列腺癌是因为前列腺癌预后的重要腺体和建筑特征可以在适度的空间分辨率下可靠捕获。对于患者级临床终点,他们使用从前列腺切除到前列腺癌复发的经过时间作为指标,由前列腺特异性抗原(PSA)上升到某一阈值以上,称为生化复发(BCR)。
使用模拟的3D数据进行验证
模拟的幻影数据集经常用于评估新的计算框架,并在通用机器学习、3D生物成像和3D放射学应用中测试特定的数据或算法相关假设。研究团队为TriPath创建了受控的模拟数据集,专门用于验证一个与算法相关的假设,即采用3D卷积和大组织体积可以改善识别显著的3D形态特征和下游分析性能的能力,相比之下,依赖2D卷积和部分体积则不然。他们创建了一个填充有不同偏心率的独特3D“细胞”(球体)的模拟数据集,这些球体代表不同的类别。准确表征不同偏心率的球体结构是一个具有挑战性的任务,特别是在稀疏的2D横截面图像中。然后,他们通过使用部分体积与整体体积、2D与3D卷积来评估TriPath的性能。由于他们对算法相关假设(例如,架构和数据处理)感兴趣,而不是数据相关假设(例如,形态特征和样本数量),因此模拟数据集并不旨在忠实地重现真实的组织图像。
结果表明,使用整个体积比仅使用部分体积更好,这在接收者操作特征曲线(AUC)指标比较中得到了证明(AUC,整体体积3D:0.974,整体体积2D:0.803,单一平面:0.677)。对于二分类任务,针对性平面方法(选择每个体积的一个目标平面,确保捕捉到两个类别的形态)表现优于随机平面方法(AUC,0.677对0.501),并展示了随机采样一个切片可能会错过相关表型并影响性能。此外,在处理相同体积时,3D贴片与3D特征提取的性能优于2D贴片与2D特征提取(AUC,0.974对0.803),这表明当3D结构包含显著的指示特征时(在他们的案例中是3D球体的偏心率),3D形态感知的特征编码可以显著提高性能。他们还为风险分层创建了一个3D幻影数据集(n = 150),将两个形态类别分配给两个不同的风险组。他们观察到与分类任务中类似的趋势,其中使用整体体积3D方法可以实现更好的风险分层。
在OTLS队列上的评估
在模拟数据集上对整体体积3D方法取得了有利结果后,研究团队随后在OTLS队列上测试了TriPath用于风险分层。这项任务被定义为低风险组和高风险组之间的二分类任务,高风险组定义为在前列腺切除术后5年内经历BCR的患者,低风险组则反之。他们将OTLS队列分为模型开发数据集(118个活检,涉及50名患者)和保留的测试数据集(53个活检,涉及24名患者)。由于开发数据集的样本量有限,他们执行了5折交叉验证,训练和测试数据之间分割为80%和20%,并汇总所有折叠的预测概率值来计算队列级AUC,重复五个不同数据分割的交叉验证分析。然后他们在保留的测试数据集上评估训练好的模型。
为了评估TriPath在不同设置中的性能,研究团队比较了三种预后模型的性能。第一个模型是基于从每个体积的最大平面/层提取的2D块进行训练的,额外的平面位于±20毫米(2D平面)。其他两个模型基于从每个样本的整体体积提取的3D块,这些块分别用2D和3D特征编码器处理(分别为整体体积2D和3D)(图2A)。2D平面基准模仿标准病理实践,即检查每个活检的三个层次进行诊断。选择最大的组织区域,从体积图像中易于识别,确保捕获到足够的组织。为了比较在3D和2D中编码形态的好处,3D块要么通过逐层应用2D特征编码器并平均每个3D块内的切片特征(整体体积2D),要么直接应用3D特征编码器(整体体积3D)。他们还将基于标准术后组织学检查的前列腺切除标本的Gleason等级作为临床基线,其中逻辑回归分类器也以同样的5折交叉验证方式训练,以预测BCR状态。
对于开发数据集(n=50),研究团队观察到使用2D平面(AUC, 0.816)与整体体积3D(AUC, 0.860, p < 0.01)之间存在统计学上的显著差异。他们将性能提升归因于两个因素:(1)与2D病理相比,分析的组织数量级多了3D;(2)提取在2D图像中无法识别的3D特征。当使用整体体积2D与2D平面比较时观察到的性能提升(AUC, 0.845 vs. 0.816),说明了使用整个活检体积的好处,这通常包含的数据量超过单个2D切片的1000倍以上。3D特征的表现也优于平均的2D特征(AUC, 整体体积3D: 0.860 vs. 整体体积2D: 0.845),表明量化3D形态的额外好处。他们还观察到,整体体积3D方法优于临床基线(AUC, 0.761, p < 0.001),证明了TriPath的潜在临床应用,即使是应用于小的穿刺活检而不是对整个前列腺切除术后的系统检查。在24名患者的保留测试数据集上评估时,他们观察到整体体积3D方法(AUC, 0.804)仍然优于临床基线(AUC, 0.744, p < 0.01)(图2B)。他们将整体性能下降归因于保留数据集的更具挑战性的性质,如在临床基线的性能下降中所见(AUC, 开发: 0.761 vs. 保留: 0.744)。尽管如此,他们观察到使用3D和整体体积分析对风险分层的同样好处。
研究团队进一步在开发数据集中进行了消融分析,以确定用于训练和测试的每个体积的百分比是否影响性能。具体来说,他们逐渐增加模型看到的体积,从每个体积的顶部向下扩展。他们识别出随着体积的更大部分被纳入,AUC趋势上升(图2C)。使用不同特征编码器的额外实验也证实了整体体积3D与部分体积3D或2D基线相比的优越性能。
为了研究驱动风险预测的形态,研究团队采用了集成梯度(IG)解释性分析,通过预测时为每个块计算一个IG归属分数。高(正)分数与增加预测风险(不利预后)的区域相关,而低(负)分数与降低预测风险(有利预后)的区域相关。为了首先了解与有利和不利预后相关的形态描述符,他们提取了队列中所有3D块的IG分数,并将它们分为高(前10%)、中(以0为中心的10%—对预后无倾向性)和低(后10%)(图2D)。高IG簇的块展示了主要是分化差的腺体(Gleason模式4)的浸润性癌,表现为筛状结构。中IG簇的块展示了类似Gleason模式3和4的混合的浸润性癌。低IG簇的块主要展示大的、良性的腺体,偶尔伴有淀粉样体。这些观察结果与众所周知的前列腺癌预后生物标记物一致。IG群体在主成分特征空间中形成独特的簇,进一步支持独特的形态观察(图2D)。IG值可以叠加在原始体积输入上,生成IG解释性热图,并进一步定位组织体积中不同预后信息的区域(图2E)。
接下来,研究团队检查了每个患者的平均IG分数与预测风险之间的关系,通过预测高风险组的预测概率定义。强相关性(Pearson r, 0.94, p < 0.0001)证实了TriPath学习在整个队列中分配预后归属。对每个样本的IG组成员的进一步分析显示,预测风险概况越高,高IG组块的比例越大,低IG组块的比例越小(Pearson r, 高IG: 0.77, p < 0.0001, 低IG: -0.78, p < 0.0001)。他们还观察到高IG和低IG组块数量比在合理地划分队列方面表现良好,这 collectively suggests that风险分层是由预后形态在每个样本中的表现程度驱动的。
图2:TriPath 分析开放顶部光片显微镜(OTLS)前列腺癌队列
在microCT队列上的评估
研究团队在microCT队列上评估了TriPath用于风险分层,同样采用了BCR风险的二元预测任务。他们使用与OTLS分析相同的预后和临床基线,采用5折交叉验证,训练和测试数据分割为80%和20%,并重复五个数据分割。与之前在模拟和OTLS数据集中观察到的一样,从3D块中编码3D特征提供了最佳性能,与仅编码2D特征的基线相比(AUC,整体体积3D:0.749,整体体积2D:0.640,2D平面:0.634)(图3A)。总体来说,性能低于OTLS,这可以归因于microCT的分辨率较低(microCT为4毫米/体素,而OTLS为1毫米/体素),且microCT只提供单通道信息,而OTLS提供双通道。此外,整体体积3D方法的表现优于临床基线(AUC,0.712,p < 0.01),而2D基线的表现较差。研究团队还将2D基线的较低表现归因于microCT的单通道和较低分辨率,与用于前列腺切除组织检查的H&E图像相比。然而,通过对microCT数据集进行整体体积3D分析,这一缺点得以克服。3D方法的优越性也体现在通过Kaplan-Meier分析显示的更好的风险分层性能中(图3B)。
有趣的是,使用3D特征与整体体积内平均的2D特征之间的AUC差距很大,强调了编码3D形态的好处。与OTLS相似,他们观察到随着分析的microCT体积百分比的增加,性能倾向于提高(图3C)。与部分体积分析或2D分析相比,整体体积3D分析的优越性能在不同的特征编码器中一致观察到。
从每个组中的IG热图和代表性3D块的定性分析(图3D–3F)展示了多样的形态特征。高IG簇包括最接近Gleason模式4的浸润性癌块;然而,较低的分辨率和缺乏H&E染色使得通过视觉检查进行明确分级变得不可行。大多数中IG簇的块包含浸润性癌,类似于Gleason模式3和4。低IG簇主要由包含良性前列腺组织的块组成,偶尔出现类似Gleason模式3的浸润性癌灶。
对microCT队列的进一步IG评分分析证实了OTLS中的发现。研究团队观察到每位患者的平均IG评分与预测风险之间存在统计学上显著的相关性(Pearson r,0.95,p < 0.0001)。随着预测风险的增加,高IG块的比例增加和低IG块的比例减少也被观察到(Pearson r,高IG:0.79,p < 0.0001,低IG:-0.61,p <0.0001),并且基于高IG和低IG组块数量比的队列分层表现良好。这些分析与OTLS的观察结果一致,即不利的预后形态的扩散程度在风险分层中发挥重要作用。
图3:TriPath 分析微型计算机断层扫描(microCT)前列腺癌队列
与临床基线的比较
Gleason分级目前是患者治疗决策中最重要的因素。与此实践相符,对于OTLS队列,研究团队进行了两轮读片研究,其中六名来自四个不同国家(五个不同医疗中心)的认证泌尿病理学家,在医学院毕业后有14至40年的临床经验(平均26.5年),对3D OTLS图像中的H&E假彩色2D切片进行了Gleason分级(来自开发数据集的118个含癌活检)。病理学家审阅的切片来自与TriPath处理的同一OTLS活检扫描,以消除TriPath和病理学家之间的区域取样偏差。在第一轮中,每位病理学家被展示了每个活检的三个H&E假彩色切片(层次),即中心层和中心±20毫米的层次,这复制了标准临床实践中丢弃5个组织切片的做法(图4A)。在经过2个月的清洗期后进行的第二轮中,向每位病理学家展示了完整深度堆叠(垂直序列)的H&E假彩色切片(每个活检>300层),他们可以实时放大和缩小任何区域并在深度间滚动。在包含多个含癌活检的情况下,按照标准临床实践,使用最高Gleason等级的活检代表患者。
研究团队使用逻辑回归训练了一个二元分类器,根据得到的Gleason等级预测BCR状态,遵循之前使用的相同的5折分割。为确保结果不偏向特定的数据分割,他们还重复了五个不同数据分割的交叉验证分析。与TriPath比较时,他们根据个别病理学家(P1-P6)提供的Gleason等级和病理学家共识(每位患者分配的Gleason等级的中位数)计算AUC。在读片研究的第二轮,他们还实施了一个2D版本的TriPath,该版本从整个体积的切片中处理2D块特征,以模仿病理学家检查所有切片的任务。他们还根据病理报告中的原始Gleason等级计算AUC,该等级是基于前列腺切除标本的标准术后检查确定的。
研究团队还通过计算每对病理学家(共15对)之间的二次加权kappa指标来评估病理学家间的一致性(图4B)。尽管存在一定程度的观察者变异性,中位kappa值0.677表明,尽管与标准护理的H&E存在一定差异,基于假彩色OTLS图像的病理学家判定之间具有良好的可重复性,与基于标准H&E的Gleason等级判定相当。在比较AUC性能时,TriPath优于个别病理学家提供的Gleason等级、病理学家共识和前列腺切除标本的标准术后组织学检查(图4C)。这证明了基于DL的3D病理工作流的临床潜力,该工作流可以自动识别3D预后生物标记物。此外,病理学家的整体表现与基于多个块(通常为20至30块)的H&E切片的前列腺切除等级相当,这验证了先前文献的显示,病理学家可以基于H&E假彩色OTLS图像作出有效的诊断判断。
尽管研究团队观察到,与检查3个切片相比,从检查所有切片中得出的病理学家共识表现有所提高(AUC,所有切片:0.799 vs. 三个切片:0.744),值得注意的是,TriPath仍然优于所有临床基线。结合中位kappa值没有显著变化的事实(kappa,所有切片:0.662 vs. 三个切片:0.677),结果表明,对于人类来说,分析大量的2D切片(每个活检切片数量增加1000倍)并保留关键信息是困难的,尤其是在没有解释3D病理的现有指南的情况下。此外,事实上,3D TriPath优于依赖于整个组织体积所有切片的2D形态的TriPath 2D变体,再次强调了编码3D形态的重要性。
在microCT队列中,与甲醛固定和石蜡包埋(FFPE)块相邻的一个组织切片被H&E染色并以103倍放大(1毫米/像素)扫描。然后用TriPath(以2D形式)处理得到的WSI进行队列级分层(图4D)。研究团队进一步提取了与microCT图像的侧视场匹配的每个WSI的4×4毫米的感兴趣区域(ROI),并用TriPath处理。这样做是为了最小化由于H&E组织学和microCT数据集的不同视场引起的潜在偏差。与OTLS分析相似,他们基于WSI的预测风险在5个不同数据分割中计算队列级AUC。此外,他们使用从原始病理报告获得的前列腺切除等级来计算临床基线的表现。他们观察到TriPath可以在统计上显著地优于H&E基线(ROI和WSI)和前列腺切除等级基线(图4E)。H&E ROI和WSI之间的类似表现表明,ROI中包含的形态学特征代表了整个WSI的特征。H&E组织学基线与前列腺切除基线之间的表现差距是预期的,因为单个H&E切片无法像多个前列腺切除样本那样全面代表一名患者。值得注意的是,尽管分辨率较低(microCT为4毫米/体素,H&E为1毫米/像素)并且只使用了一个前列腺切除块,microCT的表现仍然优于这些基线,这表明在能够编码3D形态的DL分析框架中处理大体积组织的临床效用。总体而言,与临床基线的比较展示了3D病理的潜在价值,TriPath基于来自相同或相邻组织体积和切片的形态学信息优于临床基线。更多细节可以在STAR方法中找到。
图4:TriPath 用于 3D 病理学的临床验证
缓解采样偏差与三维体积分析
鉴于基于体积的预后分析与基于平面的替代方法及临床基线相比表现出色,研究团队研究了整体体积3D方法除性能外的额外好处。为此,他们首先调查组织体积内的形态异质性如何影响风险预测。他们测量了预测风险作为OTLS样本内深度的函数,使用在组织体积的所有平面上训练的模型以实现与上一节中TriPath 2D变体相同的平面级粒度。然后,他们通过计算下方和上方5%平面级预测风险之间的差异来量化风险波动,有效地构建了90%的置信区间。他们观察到某些患者的差异间隙较大,这表明由于组织内的异质性可能存在相当大的风险变异性(图5A)。此类变异可能对基于阈值的患者风险组判定(例如,0.5的阈值)构成挑战,不同部分的组织体积可能导致风险预测在阈值的两侧(图5B),从而导致不同的风险组。进一步的形态分析确实表明,组织体积的异质性可能导致风险波动,其中高风险平面含有的Gleason 4级形态显著多于低风险切片,后者主要由Gleason 3级形态主导(图5C-5E)。这也展示了TriPath的潜在分流能力,它可以缩小组织体积内的高风险组织切片,以供病理学家进一步检查。
图5:OTLS 数据集的平面变异性分析
为评估此类组织体积异质性如何影响队列级表现,研究团队使用训练有整体体积3D的模型,并在每个组织体积的一部分(15%)上进行了5折交叉验证测试。他们重复了50次实验,每次随机抽取组织体积的不同部分,同时保持数据分割不变。对于OTLS队列,他们观察到队列级AUC的分布相当大(中位AUC:0.806,最小-最大AUC差:0.112),因此表明由组织体积内的异质性引起的显著表现变异性,大多数(80%)的样本的AUC低于在整个体积上测试的AUC(图6A)。对于microCT队列,他们观察到类似的结果,AUC分布相当(中位AUC:0.734,最小-最大AUC差:0.126),大多数(74%)的值低于在整个体积上测试的AUC(图6C)。在仔细检查示例的重要块后,他们观察到从部分体积分析中识别的最高IG块在与剩余部分的其他块一起考虑时,不再是增加风险的最大贡献者(图6B和6D)。对于一个示例OTLS样本,部分体积中增加风险最高的块在预测整个体积的风险时,排在其他13个剩余体积的块之后(图6B)。这表明,在分析部分体积时可能会错过重要的预后区域。
两种不同分析的结果共同重申了先前对诊断决策中采样偏差作用的关注,并支持使用更大的组织体积进行可靠的预后分析。
图6:全体积与部分体积分析的比较
OTLS与microCT队列之间的跨模态评估
为了与独立的测试队列进行验证,研究团队进行了跨模态概括实验,其中在一种模态上训练的模型在另一种模态上进行测试。利用两个队列都是前列腺癌的事实,他们假设训练模型应该捕捉到跨模态的可概括形态学特征,尽管跨模态评估的性质具有挑战性。为了帮助概括,研究团队生成了一个转换后的OTLS数据集,其中原始数据集降采样到4毫米/体素,并且只保留单一通道(核通道),以匹配microCT数据集的特征。如预期,这降低了在转换后的OTLS数据集上训练和测试的模型的表现,因为信息丢失(AUC,转换后OTLS:0.708 vs. 原始OTLS:0.860)。在microCT数据上训练的TriPath模型在转换后OTLS队列上获得了平均测试AUC为0.676(AUC,训练于转换后OTLS的模型:0.708)(图7A)。此外,在转换后OTLS数据上训练的TriPath模型在microCT队列上获得了平均测试AUC为0.725(AUC,训练于microCT的模型:0.749)(图7B)。与在同一模态上的训练和测试相比,性能下降可以归因于OTLS和microCT的不同成像协议(光片vs. X射线),但它与2D计算病理学中外部验证任务的典型性能下降相当。这些结果表明,模型学习正确识别重要的预后形态学并可以推广到多样的成像模态。进一步的形态学检查支持了这一观察,突出显示了差分化腺体或浸润性癌作为不利预后的贡献者(图7C和7D)。
图7:OTLS 和 microCT 队列之间的交叉模态和跨机构评估
结论与前景
研究团队提出了一个基于DL的计算平台TriPath,以支持利用3D病理学进行临床决策支持的研究。TriPath处理基于3D组织的患者预后,这是一个挑战性任务,因为对成千上万个3D块只提供了单一的患者级标签,没有额外的手动注释(弱监督)。有了一组体积组织图像,TriPath可以无缝执行组织体积和3D块的预处理,并结合特征编码器与基于注意力的聚合网络,以提供患者级预测。TriPath还提供了解释工具,以探究患者风险的形态学相关性。TriPath对成像模式不敏感,因此可以适应正在积极开发的多种3D成像技术。
研究团队首先展示了TriPath在模拟幻影数据集上进行风险分层的成功应用,然后是在两个使用不同3D成像模式(OTLS和microCT)成像的前列腺癌数据集上的应用。他们识别了跨数据集的关键趋势:首先,利用更大部分的组织体积可以得到更好的风险预测。这与先前的工作一致,后者表明通过整合更多的组织切片可以实现更好的患者诊断和预后。其次,通过将组织体积视为一组3D块而不是一堆2D图像处理,可以实现额外的预测性能。这表明3D特征的量化增加了对基于2D的组织体积分析的价值。与病理学家的标准临床实践判定相比,他们观察到TriPath再次实现了优越的表现。这些发现表明,3D形态学感知的计算框架——一种直观的用于检查内在3D生物结构的范式——可以改善临床终点的预测。
思考与挑战
在临床转化方面,非破坏性3D病理的方法和设备在近几十年迅速发展,并开始在研究实验室和临床中部署。特别是,基于OTLS的3D病理服务最近已经商业化,安装在全球各地,包括领先的临床实验室改进修正法(CLIA)认证实验室。microCT已经在研究中心普遍存在,作为一种用于表征各种材料的3D形态的多功能方法,并且持续改进软组织成像。非破坏性3D成像的一个主要优势是不需要物理组织切片或组织破坏。因此,组织准备步骤可以完全自动化,由一系列缓冲液和试剂交换组成(对于OTLS而言),对于microCT则不需要,从而省去了对高技能组织学技术人员的需求。随着更多高分辨率的3D病理图像变得可用,病理学家面临的挑战是如何高效地审查如此大的数据集,并开发标准化方法来利用和理解3D病理学提供的额外洞见。由于3D病理数据集的大小,AI将作为一个分流工具,对病理学家至关重要,以指导他们选择高风险的2D横截面或用于完全自动化的决策支持,类似于已经商业化的许多分子检测,包括前列腺癌风险预测(例如,Prolaris、Decipher、Oncotype DX)。病理学家可能难以解释3D病理图像,因为它们与2D H&E图像在染色和外观上的差异。然而,已经存在先进的图像处理方法,可以使OTLS或microCT数据集对病理学家来说可解释。例如,使用OTLS组织数据集,这些组织使用H&E的荧光类似物染色,使用基于Beer-Lambert定律的物理模型对数据集进行假彩色处理,使其类似于标准的H&E组织学。尽管OTLS图像缺乏物理切片的某些伪影,例如收缩/脱水伪影和裂纹,但“虚拟H&E”图像使病理学家能够做出多种诊断判定,包括本研究中的判定。对于缺乏基于物理的转换的其他模态,例如microCT,基于DL的虚拟染色方法也在变得普遍。
未来,AI还将在发现3D形态学生物标记物中发挥使能作用,这些生物标记物对于2D方法来说是不透明的,用于各种临床和研究任务。除了像TriPath这样的端到端DL方法,它可以识别和定位与特定临床结果相关的区域外,还需要开发专用的3D分割AI框架,以从这些区域提取直观的形态学特征,并阐明它们对诊断和预后判定的价值。一个直接的目标是开发基于3D病理的实验室开发测试(LDTs),这些测试与许多用于患者管理的分子LDTs不同,它们完全不破坏宝贵的组织标本。例如,对于低至中度风险的前列腺癌患者,Gleason分级存在高度观察者间变异性,这可能极大地影响关键的治疗决策(例如,积极监测vs.治愈性手术或放疗)。对此类患者的过度治疗和不足治疗可能会对生存和生活质量产生重大影响(例如,失禁和阳痿)。为此,泌尿科医生和肿瘤学家经常发送选定的活检进行破坏性分子分析,以指导他们的治疗决策。同样,可以以较低的成本发送活检进行“3D病理咨询”,其中标本将完整返回,作为FFPE块用于其他分析或存档目的。显然,作为下一步,需要进行更大规模的验证研究以实现这一愿景,但本研究开发的技术强烈支持计算3D病理的临床可行性和价值,以证明此类未来扩展研究的必要性。
链接
引文:Song AH, Williams M, Williamson DFK, Chow SSL, Jaume G, Gao G, Zhang A, Chen B, Baras AS, Serafin R, Colling R, Downes MR, Farré X, Humphrey P, Verrill C, True LD, Parwani AV, Liu JTC, Mahmood F. Analysis of 3D pathology samples using weakly supervised AI. Cell. 2024 May 9;187(10):2502-2520.e17.
原文链接:https://doi.org/10.1016/j.cell.2024.03.035
代码链接:https://github.com/mahmoodlab/tripath
数据链接:https://www.cancerimagingarchive.net/collection/pca_bx_3dpathology/
启发
TriPath研究的成功为临床病理学领域提供了新的视角,特别是在如何有效利用三维成像数据来改进疾病诊断和预测的方法论上。这项工作显示了深度学习技术在处理和解析大规模复杂数据集中的巨大潜力,尤其是在传统方法难以处理的三维数据分析上。通过自动化提取组织的三维形态特征并将其与临床结果相关联,TriPath不仅提高了诊断的准确性,还为如何利用现有的医学成像技术提供了新的思路。此外,这一研究强调了在现代医疗实践中,对于现有诊断标准的重新评估和创新的必要性,特别是在个性化医疗和精准治疗日益受到重视的背景下。这表明,未来的病理学诊断可能会越来越依赖于通过高级成像和计算模型来理解和预测疾病,而这种转变可能会大幅提高治疗效果并优化患者管理。这项研究不仅为病理学领域带来了技术上的创新,更为医疗健康领域提供了向更高效、更精确诊疗方向发展的重要启示
来第一个抢占沙发评论吧!