文/YuanLiu,SEPeggyBui,PM,GoogleHealth
据估计,全球有19亿人口时刻在遭受皮肤病的困扰,由于缺少皮肤科医生,许多患者只能由全科医生诊治。单就美国而言,高达37%的就诊患者患有多种皮肤病,而其中半数以上不是由皮肤专科医生进行诊治的。研究表明,在诊断皮肤状况时,全科医生和皮肤科医生在准确率方面存在显著差异,全科医生的诊断准确率在24%至70%之间,而皮肤科医生的准确率为77%至96%。而这可能会导致错误转诊、护理延误以及诊断和治疗错误等问题。
现在,非皮肤科医生可通过参考书、在线资源以及咨询同事等方式提高诊断准确率。为此,研究人员还专门开发了各种机器学习工具。过去研究的重点是皮肤癌的早期筛查,尤其是确定病变是否为恶性,或者病变是否为黑色素瘤。然而,多达90%的皮肤问题都不是恶性疾病,解决这些常见的问题对改善全球皮肤病状况同样重要。
如“用于皮肤病鉴别诊断的深度学习系统(ADeepLearningSystemforDifferentialDiagnosisofSkinDiseases)”中所述,我们开发出一种深度学习系统(deeplearningsystem,DLS),用于处理基本护理中最常见的皮肤病。我们的结果表明,基于相同的患者病例信息(图像和元数据),DLS可准确诊断出26种皮肤病,堪比美国职业认定的皮肤科医生。显然,此研究展现出了DLS帮助未经额外专业培训的全科医生提高准确诊断皮肤病能力的潜力。
DLS设计
临床医生经常面临模棱两可的病例,并无法准确确定病因。例如,患者的皮疹是淤积性皮炎还是蜂窝组织炎,或者可能两者兼有?临床医生并非仅给出一个诊断结果,而是给出鉴别诊断表,列出所有可能的皮肤病。鉴别诊断表提供了疾病的大致范围,以便进行系统的检查(实验室检测、影像扫描、一般性检查流程、咨询)和治疗,直到最终确诊。同样地,深度学习系统(DLS)能够模仿临床医生的思维方式,根据皮肤症状排列出可能的皮肤病,从而对患者进行快速分诊、诊断和治疗。
为实现此预测,DLS会处理各种输入数据,包括一张或多张皮肤异常的临床图像以及多达45类元数据(病历中的自述内容,例如年龄、性别、症状等)。针对每种病例,该系统使用Inception-v4神经网络架构,结合经过特征转换的元数据(用于分类层)处理多张图像。研究期间,我们利用17,个身份不明的病例(主要来自初级医疗诊所提交至远程皮肤病服务机构)开发并评估DLS。训练数据取自年至年,而评估数据则是来自年至年。在模型训练期间,DLS利用了40多名皮肤科医生提供的多个鉴别诊断。
为评估DLS的准确率,我们将其与严格的参考标准(即获美国职业认证的皮肤科医生的诊断)进行比较。总体而言,皮肤科医生为个病例(“验证集A”)提供了鉴别诊断,这些诊断均通过投票过程进行汇总,目的是获得真实值标签。相较于皮肤科医生给出的鉴别诊断,DLS辨别列出的皮肤病分别获得71%的Top-1准确率和93%的Top-3准确率。
DLS以及如何通过三位美国职业认证的皮肤科医生针对验证集中各病例的投票得出参考标准(真实值)示意图
与专业评估的比较
在本研究中,我们还针对验证数据集A的子集(“验证集B”),分别比较了DLS和三类临床医生(数据皮肤科医生、初级护理医生(PCP)和执业护士(NP))的准确率。这些医护人员均经过随机选择,代表了不同经验、培训和诊断准确率。
由于临床医生提供的典型鉴别诊断表最多仅包含三项诊断,因此我们只将DLS排列的前三项预测与临床医生的诊断结果进行比较。DLS在验证数据集B上实现了90%的Top-3诊断准确率。相较于每组6位医生的准确率,此数据堪比皮肤科医生的75%,并远远高于初级护理医生(PCP)和执业护士(NP)的60%与55%。较高的Top-3准确率表明,DLS可协助临床医生(包括皮肤科医生)考虑原本不在其鉴别诊断表中的可能情况,从而提高诊断准确率并改善病情管理。
DLSTop-1鉴别诊断准确率远远高于PCP和NP,并且堪比皮肤科医生的准确率。DLS的Top-3准确率提升显著,这说明在大多数病例中,DLS鉴别诊断表中包含了正确的答案
评估人口统计表现
皮肤类型与皮肤病学息息相关,其中皮肤本身的视诊评估对诊断至关重要。为评估对皮肤类型的潜在偏见,我们基于Fitzpatrick皮肤类型测试了DLS的表现,此量表包含I型(“苍白色,总是灼伤,从不晒黑”)到VI型(“深棕色,从不灼伤”)六种皮肤类型。
为确保通过充足案例得出令人信服的结论,我们主要选取至少代表5%数据的皮肤类型—Fitzpatrick皮肤类型II至IV。针对这些类别,DLS的准确率较为相似(Top-1准确率的范围为69-72%,Top-3准确率的范围为91-94%)。令人欣喜的是,DLS在患者亚组中仍保持诊断的准确率,而根据其他自述的人口统计信息(年龄、性别和种族/民族),该群体在数据集中占据较大比例(至少5%)。在进一步的定性分析中,我们通过显著性(解释)技术评估得出结论:DLS确实是在“
当前时间: