广东省人民医院李欣和中山大学吴贺俊团队构建了一种基于语言和运动的多模态深度学习模型对脑卒中进行早期识别
脑卒中是一种会导致脑部细胞受损的严重疾病,主要分为缺血性和出血性两类,都可能会引起严重的神经功能障碍,导致残疾或死亡,给家庭和社会带来极大负担[1]。脑卒中在症状出现后需要尽早尽快给予及时的治疗,迅速就医对于改善脑卒中预后至关重要。脑卒中诊断目前主要依赖于影像分析和临床症状检测,扩散加权成像是诊断急性缺血性脑卒中的金标准,但并非所有急诊室都具备进行核磁共振检查的条件。计算机断层扫描是一种更便利的选择,但其在脑卒中诊断方面的敏感性相对较低。急救医疗服务人员通常会使用一些简单的工具如辛辛那提院前脑卒中评估量表[2]和面部、手臂、言语、时间评估量表[3]来进行初步评估。然而,这些评估方法可能无法发现轻微的或不典型的运动或言语障碍症状,因此需要更为精确和敏感的脑卒中识别方法。
来自中国广东省人民医院李欣和中山大学吴贺俊团队在《中国神经再生研究(英文版)》(Neural Regeneration Research)杂志上发表了题为“Early identification of stroke through deep learning with multi-modal human speech and movement data”的研究。该研究利用了一种先进的多模态深度学习模型,结合了面部、肢体动作及语音特征分析,同时引入了动作特征对比学习,显著提升了对脑卒中早期识别的准确性和灵敏度。
多模态深度学习模型相对于传统方法具有显著的优势,能够更全面地反映脑卒中病征,为医生提供更可靠的诊断依据,为个体化治疗方案的制定提供重要参考。为了验证多模态深度学习在脑卒中辅助诊断上的有效性,李欣和吴贺俊等选择了I3D[4], SlowFast[5], X3D[6], TPN[7], TimeSformer[8], MViT[9]六种当前流行的动作特征分析网络作为基线,与此次课题建立的方法进行比较。图1展示了本研究方法与基线方法的脑卒中数据集上的接受者操作特征曲线(receiver operating characteristic curve, ROC),结果显示多模态脑卒中模型在脑卒中诊断预测的ROC曲线下面积(area under curve , AUC)要高于其他的基线方法。此外,多模态模型优于单模态模型,突显了利用患者的多种动作和言语信息特征的优势。同时,模型视频模块和音频模块均达到了约0.80的AUC水平,也表明利用患者的动作视频或言语音频预测脑卒中的有效性。
图1多模态深度学习模型(图源:Ou et al., Neural Regen Res, 2024)
通过对上述呈现的结果进行分析,以下几个关键因素促成了模型性能的提升。首先,模型利用对比学习方法进行动作特征学习,使其能够获得高度适合脑卒中诊断的运动特征。在图2中,通过梯度类激活热力图(grad-class activation map)对模型提取到的特征进行可视化[10],可见经过对比学习后的模型更加侧重于患者的肢体特征,这些特征包含了视频帧之间相关性,从而挖掘出更适合于脑卒中诊断的信息。其次,模型并没有仅仅依赖于视频数据,而是遵循面部、手臂、言语、时间评估量表和辛辛那提院前脑卒中评估量表,使用经过预训练的语音网络将患者的言语音频纳入其中,创建了一个多模态脑卒中诊断框架,这种方法使模型能够捕获更广泛、更全面的诊断信息,提高模型的准确性和可靠性。最后,采用非对称信息权重学习允许我们的模型有效地处理音频特征中的声音噪声,提高视频动作学习的权重。这一机制使模型能够充分利用动作和声音特征中包含的有价值的信息,同时防止声音噪声干扰其他特征,从而能更准确地诊断脑卒中。
图2梯度类激活热力图(图源:Ou et al., Neural Regen Res, 2024)
综上所述,李欣和吴贺俊等采用多模态深度学习模型结合面部和手臂运动分析,显著提升了脑卒中早期识别的准确性和灵敏度。与传统方法相比,该模型在诊断过程中展现出明显优势,为医生提供了更准确、全面的诊断依据。然而,该研究仍有一些局限性,如样本规模有待提高,需要进一步扩大以验证模型的稳健性。此外,模型的实际应用还需在更大范围内进行评估,以确保其在不同场景下的适用性。未来的研究方向包括进一步优化模型性能,加入更多数据模态以提升全面性,同时拓展样本范围以适用于更广泛的人群,探索多模态深度学习在医学领域的应用,为临床医疗带来更多创新。
原文链接:https://doi.org/10.4103/1673-5374.393103
参考文献
[1] Grysiewicz RA, Thomas K, Pandey DK. Epidemiology of ischemic and hemorrhagic stroke: incidence, prevalence, mortality, and risk factors. Neurol Clin. 2008;26(4):871-895, vii.
[2] Kothari RU, Pancioli A, Liu T, et al. Cincinnati prehospital stroke scale: reproducibility and validity. Ann Emerg Med. 1999;33(4):373-378.
[3] Harbison J, Hossain O, Jenkinson D, et al. Diagnostic accuracy of stroke referrals from primary care, emergency room physicians, and ambulance staff using the face arm speech test. Stroke. 2003;34(1):71-76.
[4] Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset. arXiv. 2017:1705.07750.
[5] Feichtenhofer C, Fan H, Malik J, et al. SlowFast networks for video recognition. in IEEE/CVF International Conference on Computer Vision. 2018: Seoul, Korea. 6201-6210.
[6] Feichtenhofer C. X3D: Expanding architectures for efficient video recognition. in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020.
[7] Yang C, Xu Y, Shi J, et al. Temporal pyramid network for action recognition. arXiv. 2020:2004.03548.
[8] Bertasius G, Wang H, Torresani L. Is space-time attention all you need for video understanding? arXiv. 2021:2102.05095.
[9] Fan H, Xiong B, Mangalam K, et al. Multiscale vision transformers. arXiv. 2021:2104.11227.
[10] Selvaraju RR, Cogswell M, Das A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization. arXiv:. 2016:1610.02391.
文章摘要:早期识别和治疗脑卒中可显著改善患者的预后和生活质量。由于院前检查中,急救人员常使用一些简单的工具如辛辛那提院前脑卒中评估量表和面部、手臂、言语、时间评估量表进行初步评估,但这些方法可能无法发现轻微的或不典型的运动或言语障碍症状,因此需要更为精确和敏感的脑卒中识别方法。此次试验中建立了一种先进的多模态深度学习模型,结合了面部、肢体动作及语音特征分析,同时引入了动作特征对比学习,以评估急救医疗服务中表现出四肢无力、面部轻瘫和言语障碍等症状的疑似脑卒中患者。试验收集了一个数据集,包括急诊室患者指定肢体运动、面部表情和语音测试的视频和音频记录。基于这个数据集,将构建的模型与选择了I3D, SlowFast, X3D, TPN, TimeSformer, MViT六种当前流行的动作特征分析网络进行比较,结果显示,此次实验构建的模型的预测有效性高于其他模型,且此外,多模态模型优于单模态模型,凸显了利用患者的多种动作和言语信息特征的优势。上述结果表明,采用多模态深度学习模型结合面部和手臂运动分析可显著提升脑卒中早期识别的准确性和灵敏度,这为脑卒中急救医疗服务提供了一种实用且有力的工具。
文章关键词:脑卒中;快速;深度学习;早期检测;人工智能;诊断;筛查
文章来源:Ou Z, Wang H, Zhang B, Liang H, Hu B, Ren L, Liu Y, Zhang Y, Dai C, Wu H, Li W, Li X (2025) Early identification of stroke through deep learning with multi-modal human speech and movement data. Neural Regen Res 20(1):234-241.返回搜狐,查看更多