
医学院 新闻动态
2025年1月21日,西湖大学医学院 / 生命科学学院 / 西湖实验室 / 未来产业研究中心 / 西湖大学蛋白质组复杂科学实验室郭天南团队,联合国家蛋白质科学中心(北京)贺福初院士团队、中国计量科学研究院、浙江省农业科学院、广州医科大学、浙江大学、华中农业大学等多个实验室/课题组,在 Nature Communications 上发表了题为 iDIA-QC: AI-empowered data-independent acquisition mass spectrometry-based quality control 的研究成果。
文章链接:
https://www.nature.com/articles/s41467-024-54871-1

图1 文章截图
01 联合全国9个实验室的21台质谱开展长达2.6年的质控监测
他们对这九个实验室的21台质谱仪进行了最高长达2.6年的检测,涵盖了Orbitrap、TripleTOF和timsTOF Pro等质谱设备。这些仪器共产生了2638对DDA和DIA质谱文件。在这个过程中,他们还详细记录了多达785次对LC-MS的维护操作。

西湖大学蛋白质组复杂科学实验室基于文献报道和实践操作,筛选出15个关键的特征,用于全面、精炼地评价原始质谱文件的质量。同时,他们还邀请了来自10个实验室(西湖大学,国家蛋白质科学中心、中国计量科学研究院、广州医科大学、浙江省农业科学院等)的21位质谱领域的专业人员,对2638个DIA MS数据集从15个关键特征的层面进行原始文件标注。
以肽段离子的物理化学性质为标准,研究者进一步筛选出来934条肽段离子。结合经过标记后的这2638个DIA文件,以及934个稳健的肽段离子,西湖大学蛋白质组复杂科学实验室提出了一种基于DIA模式的质谱数据质控新策略,并在此基础上建立了机器学习模型。

图3 实验设计
02 相较于DDA质控,DIA质控在LC-MS系统故障检测中展现出更高的灵敏度
西湖大学蛋白质组复杂科学实验室团队随机选择了一台QE HF-X质谱仪,并从其280天的监测数据中挑选了四个包含常规维护操作的代表性时间段,每个时间段持续30至40天。

图4 DIA指标在LC-MS系统故障检测中比DDA指标具有更高的灵敏度
03 质控文件评价指标的优化与2638个DIA文件标注
他们构建了桑基图来揭示这些指标与仪器常见故障之间的联系,结果证实这15个指标的综合应用能够有效识别所有LC-MS系统的故障。
同时,研究人员们还对每个文件的LC和MS整体状态进行合格性评估。然后,采用 “观察一致性” 算法,并结合少数服从多数的机制来确定每个文件的最终标签。

图5 用于评价原始文件性能指标的筛选
04 开发基于DIA的QC分类器和软件工具
利用XGBoost机器学习算法和五折交叉验证,他们从这些肽段离子中提取了33个肽段离子作为关键特征,并构建了能够区分DIA文件 “合格” 或 “不合格” 的分别针对LC性能和MS性能的独立分类器。独立测试集的LC模型的AUC达到了0.91,MS模型的AUC高达0.97,充分证明了这些模型的高效性和实用性。
为了验证这33个选定肽段离子在实际应用中的稳定性,西湖大学蛋白质组复杂科学实验室进行了独立的长期监测实验。在31天的时间内,他们使用TripleTOF 5600+对WMLD样本进行了DIA分析,监测肽段离子的保留时间、GRAVY值和变异系数(CV)。
结果显示,这些肽段离子的保留时间跨度从7.67到33.07分钟,GRAVY值范围在-1.97到1.83之间,表明它们具有广泛的色谱分布特性。肽段离子的CV中位数为2.9%,平均CV为3.5%,这些数据也证明了这些肽段离子的稳定性。
该工具支持多种数据格式,包括.raw、.d和.wiff等原始质谱数据格式,并且能够为生成的文件分配仪器ID,增加了其灵活性和适用性。iDIA-QC的用户友好输出包括HTML报告和矩阵,易于使用,无需额外的统计软件支持。

本研究针对大规模定量蛋白质组大数据产生的过程,开发了AI驱动的iDIA- QC质控模型,可用于有效监测LC-MS运行过程中产生的蛋白质组学数据的质量和稳定性,为多中心、多机器、高通量、大队列样品的定量蛋白质组分析提供了质量保障。
文章中也指出了iDIA-QC研究目前存在的局限性。首先,本研究未涵盖所有类型的LC和MS仪器,尤其是新出现的仪器,因而iDIA-QC需要进一步扩展以评估更多仪器的性能。其次,尽管独立验证集的AUC值均高于90%,但模型在更广泛数据集和不同条件下的性能仍需进一步验证。
西湖大学医学院博士生高欢欢为论文第一作者,西湖实验室研究员朱怡为共同第一和共同通讯作者,国家蛋白质科学中心(北京)副研究员王冬雪为共同第一作者,西湖欧米AI工程师聂宗祥及西湖大学科研助理王赫为共同第一作者。
课题受到了科技部重点研发计划、国家自然科学基金、浙江省 “尖兵领雁+X” 研发攻关计划、西湖大学未来产业研究中心和西湖教育基金会的资助和支持,项目得到了西湖大学高性能计算中心的支持和帮助。
西湖大学郭天南课题组 (guomics.com) 长期从事蛋白质组学相关研究,联合人工智能,解析生物过程的原理,助力疾病诊疗。