医学院 新闻动态

医学院郭天南团队开发蛋白分类器助力甲状腺滤泡肿瘤鉴别诊断

2025年5月29日,西湖大学医学院郭天南教授团队,联合广东省人民医院关海霞教授等多个团队,在 EMBO Molecular Medicine 发表了一项基于蛋白质组学的滤泡状甲状腺肿瘤精准分型研究。该研究通过构建并验证一个基于24种蛋白的分类器,有效改善了滤泡状甲状腺腺瘤与癌的鉴别诊断,该技术对甲状腺滤泡肿瘤的术前精准诊断提供了参考信息。

文章链接:

https://www.embopress.org/doi/full/10.1038/s44321-025-00242-2

图1文章截图

提纲挈领

研究收集了来自中国和新加坡24家临床中心共1568名患者、2443样本的核酸与蛋白信息,最终建并验证了一个基于24种蛋白的XGBoost分类器,能够有效区分组织学高度相似的滤泡状甲状腺腺瘤(FTA)与滤泡状甲状腺癌(FTC)。
该模型在多个独立的回顾性组织样本和前瞻性FNA活检样本中均展现出优异的诊断性能(AUC最高达0.953,阴性预测值最高达95.7%),显著优于基于基因的诊断模型,并在多组独立回顾性及前瞻性样本中表现出较高的诊断准确性和阴性预测值,展示了蛋白质组学在甲状腺肿瘤术前精准诊断中的重要潜力和临床应用价值。
甲状腺结节的临床诊断中存在一个关键难题——滤泡状甲状腺腺瘤(FTA)与滤泡状甲状腺癌(FTC)的鉴别诊断。二者在病理组织学上极为相似,仅凭术后组织切片的包膜或血管侵犯的存在才能区分,这使得术前基于细胞学或影像学的诊断几乎无法实现。因此,临床上常需依赖术后病理检查来进行确诊,这不仅增加了患者的手术风险,也造成了资源浪费。
本研究通过多中心、大样本设计,联合中国和新加坡24家机构,收集了2443份甲状腺样本,对1568名患者进行了系统性分析。首先,通过66-gene panel的二代测序发现,FTC与FTA的突变谱结构相似,仅在群体中的突变频率上存在差异,且并无特异性基因可作为明确的分型标志。因此,单靠基因层面的分析难以实现准确区分。这一点也反映在模型表现上,基于基因的分类器仅获得了AUROC为0.670的中等区分能力。
为突破这一瓶颈,研究团队转向蛋白质组学分析,通过TMT定量策略鉴定并量化了超过10,000种蛋白质,筛选出187个差异表达蛋白(DEPs)。随后,优化了XGBoost模型参数和蛋白质特征组合。最终模型从中筛选出24个具有高区分力的蛋白,构建蛋白质分类器。该模型在训练集中的AUROC为0.899,显著优于基因模型。
为实现临床转化,研究进一步采用靶向蛋白质谱检测技术(PRM)对候选蛋白进行精准定量,并在并在两个独立的回顾性组织样本和一个前瞻性FNA活检样本中均表现稳健(AUROC分别为0.871、0.853和0.781),多中心样本中验证了所建模型的重复性和实用性。其中FNA组的阴性预测值高达95.7%,具有良好的 “排除恶性” 效能,有助于减少不必要手术。
相比传统的抗体检测方法,质谱技术具备更高的通量、稳定性与扩展性,更适合与机器学习算法协同,构建复杂疾病的多维诊断工具,展现出在临床场景中更广阔的应用前景。
图2图文概要


以下为研究的结果部分详细解读:

01患者特征与研究设计

本研究共纳入来自中国和新加坡24家中心的1568名患者,共收集了2443份样本数据。其中,FTA患者909例,FTC患者659例。患者中位年龄为49岁,女性占比约70%,男女比例为2.4:1。结节中位直径为35 mm,且近半数病例的结节小于40 mm。

研究采用多阶段设计:首先,通过NGS分析609例样本的基因变化;通过TMT标记定量质谱技术分析620例样本的蛋白质表达并进行分类模型构建、比较与优化。随后,在729例样本上实施靶向质谱(PRM)以构建蛋白质分类器,并在三个独立测试集(内部、回顾性、前瞻性)中进行了验证。

图3生物标志物发现、分类器开发、性能评估和比较的流程图

02基因组模型不能有效区分FTA与FTC

对609例样本进行66基因panel测序发现,仅有41个基因(62.1%)在数据中被检测到。整体突变率为53.4%,其中FTA为46.2%,FTC为66.7%,但46.6%的样本无任何可检突变。

尽管FTA与FTC在患者人群水平突变频率上略有差异,如TERT(2.3% vs 18.8%)和NRAS(12.4% vs 21.6%),但二者的突变特点相似。
以四个基因(TERT promoter、NRAS、DICER1、BRAF)为特征构建的XGBoost模型在外部测试集中仅实现AUC为0.670,说明基因变异本身不足以用于有效鉴别FTA与FTC,尤其是在缺乏特异性突变标志的情况下。
图4模型在不同数据集上的表现

03深度蛋白质组学可显著改善分类性能

研究通过TMT质谱分析620份回顾性FFPE样本,定量检测到10,336种蛋白,质量控制后用于后续分析的蛋白数为7876。

通过比较,FTC与FTA二者之间差异表达分析识别出187个DEPs,该蛋白群体主要富集于甲状腺激素生成和代谢通路。然而,进一步的降维分析显示,单靠这些DEPs仍难以完全区分FTA与FTC,进一步说明了分子表达水平上的相似性与鉴别二者的困难性。

因此,研究团队利用多种机器学习方法筛选最佳特征数和算法,最终构建了基于24个蛋白的XGBoost模型,在训练、交叉验证和独立测试集中分别获得AUC为0.953、0.905和0.899,显著优于基因模型。同时,该模型在独立测试集中的敏感性、特异性、准确率和NPV均表现良好。进一步分析显示,联合基因数据并未显著提升模型性能,强调蛋白组数据在分类中的主导作用。

图5 在TMT发现数据集中对FTC与FTA进行的比较蛋白质组学分析


图6 利用发现性蛋白质组数据进行建模

04靶向蛋白质组学模型的开发与验证

考虑到TMT的测试成本高和临床可及性低,研究转向PRM靶向质谱以提升临床实用性。在靶向可以检测到的44个差异蛋白中,筛选出24个蛋白用于构建分类器,并在四个数据集中(总样本1214例)进行测试。

在325例内部测试集中,分类器准确率为0.785,AUC为0.871。进一步在两个独立中心验证,其中回顾性样本组AUC为0.853,前瞻性FNA活检样本组AUC为0.781,尽管后者样本受限,但仍展现出较高的阴性预测值(95.7%),具备良好的 “排除恶性” 能力。

多个中心的外部验证进一步证实了该模型的泛化能力和临床应用前景,尤其对术前诊断具有重要意义。

05基因与蛋白质联合模型的比较分析

在494例同时具备基因和蛋白数据的样本中,研究构建了三个模型:仅基因、仅蛋白,以及二者联合。

结果显示,联合模型AUC为0.893,虽略高于蛋白模型(24蛋白),但提升主要归功于蛋白特征,基因信息的增益有限。该联合模型在独立测试集中表现稳定,准确率为0.820,特异性高达0.897,进一步验证了蛋白质组学在分类性能上的主导性和临床价值。

图7 组合特征模型的性能比较及特点



总结


本研究通过整合深度蛋白质组学和靶向蛋白组学,并结合机器学习方法,构建了一个高效、可推广的蛋白质分类器,首次实现了对FTA与FTC的高精度鉴别诊断。

研究不仅为甲状腺结节的精准诊疗提供了新工具,也展示了蛋白质组学在疾病分类与生物标志物开发中的广阔前景。未来,该策略有望拓展至其他组织病理分型难题,为临床病理诊断提供更科学、精准的解决方案。


西湖大学医学院博士后研究员孙耀庭(现为德国马克斯·普朗克生物化学研究所博士后研究员),科研助理王赫(现为新加坡国立大学博士研究生)、访问学生李璐(现为浙江大学博士研究生)等为该研究共同第一作者。西湖大学医学院郭天南教授、广东省人民医院关海霞教授、西湖实验室朱怡研究员为共同通讯作者。

研究得到了慢性非传染性疾病国家科技重大专项、国家重点研发计划、浙江省“尖兵领雁”研发攻关计划、中国博士后科学基金以及医学蛋白质组全国重点实验室自主研究课题资助的支持。感谢西湖大学超级计算机中心提供的数据存储和计算服务。