近期,厦门大学附属第一医院临床医学研究院宁万山副研究员联合郑州大学、南京大学、厦门市儿童医院、深圳第二人民医院等多家单位团队,在国际知名期刊《npj Digital Medicine》(中科院一区,IF=15.1)在线发表了题为“Development and validation of a machine learning-based diagnostic system for 22 pediatric respiratory pathogens: a large-scale multicenter study”的重要研究成果。该研究系统性地整合了来自中国和美国5个临床中心及数据库的电子健康数据,开发并验证了一个可解释的人工智能模型——Pathog-PDx,该系统能够早期识别22种儿科呼吸道病原体(包括细菌、病毒、真菌等),并预测重症监护室入院风险,为实现儿科呼吸道感染的精准、快速、广谱诊断提供了全新工具。
1. 大规模多中心数据驱动,构建高精度病原体识别模型
呼吸道感染是导致儿童发病和死亡的重要原因,病原体种类繁多、混合感染常见,且早期快速诊断面临巨大挑战。在病原结果出来之前,若模型可先给医生一个方向,可快速缩小要排查的病原范围。针对这一临床难题,研究团队收集了来自MIMIC-III(美国)、PIC(中国浙江)、厦门大学附属第一医院、厦门市儿童医院及深圳市第二人民医院共5个来源、超过八万五千名患儿的数据,用于模型开发与内部验证,另设两个独立外部验证队列以及一个前瞻性验证队列。
研究团队整合了42项易于获取的临床和实验室特征(包括血常规、血生化指标等),创新性地采用两层集成学习框架,将四种集成算法(GBDT、RF、LightGBM、XGBoost)进行软投票融合,构建了Pathog-PDx系统。该模型在内部验证中区分感染部位(上呼吸道、支气管、肺部感染)的AUC达到0.84-0.90,在外部验证队列中AUC为0.73-0.84,表现出优异的泛化能力。值得注意的是,即使在仅使用血常规或代谢指标的子集中,模型仍保持临床有价值的判别能力,验证了其在资源有限场景下的鲁棒性。

研究整体流程
2. 精准识别22种病原体亚型,AI模型驱动的高性能诊断
Pathog-PDx能够对22种常见儿科呼吸道病原体进行区分,包括细菌(如肺炎链球菌、流感嗜血杆菌、肺炎克雷伯菌等)、病毒(如流感病毒、呼吸道合胞病毒、腺病毒等)、真菌及其他原核病原体。在内部验证中,模型对细菌、病毒、真菌感染的AUC分别达到0.86、0.88和0.90。其中,对流感病毒的识别性能尤为突出(AUC=0.95,灵敏度0.88,特异度0.86)。值得一提的是,对流感病毒的识别性能尤为突出(AUC=0.95,灵敏度0.88,特异度0.86)。外部验证队列中,各病原体AUC保持在0.72~0.78之间,证实了模型的良好泛化能力。此外,值得关注的是,将预测的感染部位信息作为辅助特征融入病原体分类模型后,模型性能得到显著提升(DeLong检验,p<0.01),证实了感染部位对病原体鉴别诊断的重要价值。

Pathog-PDx对病毒、细菌及真菌亚型的识别性能
3. 突破混合感染识别难题,同步预测重症风险
团队进一步开发了PICU入住风险预测模型,内部验证AUC=0.903,外部验证AUC=0.818。儿童呼吸道感染中约三分之一的病例存在多种病原体混合感染,且混合感染常与更严重的疾病预后相关。Pathog-PDx能够有效区分单一与混合感染(AUC=0.80),并能进一步区分双重感染与多重感染(AUC=0.77)。更重要的是,该模型具备在混合感染背景下识别单个病原体的独特能力,在20种最常见的混合感染亚型中,其诊断性能显著优于传统Ridge模型。
研究发现,混合感染患儿入住儿科重症监护室的比例显著升高。因此研究团队基于Pathog-PDx模型输出的感染部位和混合感染状态,进一步开发了PICU风险预测模型,内部验证AUC达0.903,外部验证AUC为0.818。SHAP特征重要性分析显示,感染部位和混合感染类型是关键预测因子;电解质的酸碱平衡指标(CO₂结合力、氯离子)及肝肾功能指标(GGT、ALP、尿素)同样贡献显著。

混合感染与危重症预测
4. 前瞻性验证临床实用性,在线平台助力即时决策
为评估Pathog-PDx在真实临床场景中的表现,研究团队在深圳第二人民医院开展了前瞻性验证,纳入1,338例疑似呼吸道感染但入院时尚未获得病原学确诊的患儿。结果显示,。模型对感染部位的区分AUC达0.78,对常见病原体(如肺炎支原体AUC=0.81,流感病毒AUC=0.87)均表现良好。
典型病例显示,Pathog-PDx可比传统确诊方法提前3~5天给出可行动的治疗建议,助力临床医生及时调整抗生素或抗病毒治疗方案。研究团队已将模型部署为免费的在线决策支持平台(https://pathogpd.zzu.edu.cn),用户输入相关临床特征后,系统可在25秒内自动生成病原体风险预测和重症概率评估,并提供SHAP可解释性可视化图,帮助医生理解预测依据。

前瞻性验证与临床病例
5. 研究意义与未来展望
本研究通过大规模多中心电子健康档案数据,开发并前瞻性验证了一个可解释的机器学习诊断系统Pathog-PDx。该系统通过整合常规采集的临床和实验室数据,实现了22种儿科呼吸道病原体(包括单一及混合感染)及重症风险的早期预测。作为辅助工具,Pathog-PDx旨在扩大初始评估阶段的诊断视野,在等待确认性检测结果时提供早期治疗建议,尤其适用于医疗资源有限或检测延迟的场景。该系统有望减少经验性广谱抗生素的使用,降低抗生素耐药风险,并优化儿科呼吸道感染的个体化治疗策略。未来工作将聚焦于将其整合至医院电子病历系统,实现入院时的实时诊断提示。
本研究获得国家科技部重点研发计划、国家自然科学基金、福建省卫生科技项目、福建省科技计划引导性项目、厦门市医疗卫生指导性项目、河南自然科学基金、河南省高等院校重点研究项目以及福建厦门细胞治疗研究中心项目等多项项目的资助。厦门大学附属第一医院临床医学研究院宁万山、厦门大学附属第一医院呼吸与危重症医学科杨静静、郑州大学郭亚萍、厦门大学附属第一医院儿科杨运刚为本论文的共同通讯作者;厦门大学附属第一医院临床医学研究院苏笃斌、陈群、许睿智、陈奇洪、陈曦、马驰原为本论文的共同第一作者(单位包括厦门大学附属第一医院、南京大学、郑州大学、厦门市儿童医院、深圳第二人民医院等)。
通讯作者简介

宁万山,厦门大学附属第一医院临床医学研究院副研究员,福建省高层次C类人才,福建省优青,厦门市高层次C类人才和厦门市“青鹭英才”优培计划引进人才。厦门市免疫协会常务委员、Heart and Mind期刊青年编委。近年来,以通讯/第一作者(含共同)在Nature Biomedical Engineering、Immunity、National Science Review、Circulation Research等顶级期刊发表SCI研究论文30余篇,其中IF大于10的15篇;申请发明专利25项,已授权发明专利17项,获软件著作权2项。主持国家自然科学基金青年项目、中国博士后基金特别资助项目、中国博士后基金面上项目、福建省优青项目、福建省引导性项目和福建省卫生健康中青年骨干项目等基金;参与国家科技创新2030—“脑科学与类脑研究”重大项目、国家重点研发计划和国家自然科学基金重点项目等国家项目。

杨静静,医学硕士,厦门大学附属第一医院呼吸与危重症医学科主治医师,担任厦门市免疫学会青年委员,担任《Heart and Mind》杂志青年编委,以第一/通讯作者身份在《Nature Biomedical Engineering》、《Experimental & Molecular Medicine》和《iScience》等国际知名期刊发表 SCI 论文7篇,累计影响因子逾 100 分,相关研究成果被评选为2020年“中国生物信息学十大进展”之一,主持厦门市级科研项目一项,参与福建省级及厦门市级科研项目各2项,发明专利7项

杨运刚,医学博士,主任医师,硕士生导师,现任厦门大学附属第一医院儿科主任。担任国家卫健委儿科内镜诊疗技术项目专家组成员,中华医学会儿科学分会呼吸学组委员及支气管镜协作组副组长,中华中医药学会儿童健康协同创新平台委员会常委,中国医师协会内镜医师分会委员及儿童呼吸内镜专委会常委,中华预防医学会过敏病预防控制专业委员会委员及福建省副主任委员,中国优生优育协会儿童呼吸健康专业委员会执行主任,中国医师协会儿童重症医师分会介入肺科学专业委员会副主任委员,福建省预防医学会儿童罕见病专业委员会副主任委员,厦门市医师协会变态反应医师分会会长,厦门市儿科质控中心主任。兼任《Frontiers in Pediatrics》及《BMC Pulmonary Medicine》杂志审稿专家。发表SCI论文15篇,参与制定专家共识/指南14部,参与编写专著4部。
第一作者简介

陈群,博士,厦门大学附属第一医院副研究员、厦门市免疫学会青年委员。主要从事医工交叉研究,聚焦于多组学与人工智能融合的疾病精准医学。研究特色在于整合大规模人群队列与动物模型的多维数据,利用生成式Transformer、机器学习等算法,系统揭示疾病多病共存的核心分子驱动机制,构建“分子数字孪生”系统实现个体化干预窗口量化。主持福建省自然科学基金等项目1项,以共一或者通讯作者发表SCI期刊论文7篇,第一发明人专利授权1项,申请2项。

陈奇洪,儿科学硕士(儿科呼吸专业方向),厦门大学附属第一医院儿科主治医师。兼任福建省医学会呼吸病学专业委员会儿科学组委员。多次在国家级及省级儿科学术会议上进行大会发言,获评优秀论文奖及高质量论文奖。参与多项福建省自然科学基金课题,主持厦门市课题1项。以第一作者及共同第一作者发表SCI论文4篇(累计IF>20),在核心期刊发表论著3篇。