世界癌症日:AI 对癌症治疗有什么帮助?
Google 的研究表明,现阶段最好的诊疗结果来自专业人类和技术的共同努力。
2 月 4 日是世界癌症日。据世界卫生组织,全球范围内,近六分之一的死亡由癌症造成,近 70% 的癌症死亡发生在低收入和中等收入国家。2015 年癌症造成 880 万例死亡,最为常见的癌症类型为肺癌、肝癌、结肠直肠癌、胃癌和乳腺癌。在中国,癌症负担也呈现逐年上升态势,2015 年,平均每天超过 1 万人被确诊为癌症,每分钟有 7.5 个人被确诊为癌症。
以乳腺癌为例,乳腺 X 线影像技术是筛查乳腺癌的「黄金标准」。即便如此,对于医学专家来说,阅读 X 线影像仍然是一项困难的任务,检查结果经常有假阳性(误诊)和假阴性(漏诊)的例子出现。这不仅为医生带来繁重的工作量,也会耽误病患的治疗,让病患承担不必要的压力。
现在,随着「AI 辅助医疗」,「AI 驱动医疗」的话题被频频提起,这也意味着从医疗产业和健康产业来看,技术正在承担愈加重要的角色,比如辅助医生突破原先医疗水平的天花板、代替医生承担重复的例行工作,或是改善地区医疗配置不均衡的现状等等。
对症下药
「过去几年里,Google 团队将 AI 应用于医疗保健领域——从通过分析和研究电子病历预测患者疾病到辅助检测肺癌等疾病,虽然我们仍然处于技术开发的早期阶段,但是结果是充满希望的。」Google CFO Ruth Porat 说道。
去年 5 月,Nature Medicine 刊登了 Google 对于肺癌检测的新进展——根据低剂量计算机断层扫描图像来预测肺癌。
放射科医生无法像计算机一样审查 3D 扫描,他们需要审查数百张 2D 图像才能发现问题。Google 创建了机器学习模型,分析高通量的 3D 图像,生成整体肿瘤预测,还可以识别细微的恶性组织。输入患者先前的 CT 图像,该模型便可分析和评估可疑肺结节的生长速度。
Google 团队利用 45856 例未经识别的 CT 图像进行训练,并且将结果与六位经认证的放射科专家进行了比较。在放射科医生无辅助的情况下,Google 模型检测到的假阴性减少 5%,假阳性减少 11%。
Google 在乳腺癌诊断方面所作的努力要开始于更早。一般来说,乳腺癌细胞的扩散方式通常会先转移到附近的淋巴结中,淋巴结转移会影响放射治疗、化疗和手术切除额外淋巴结的治疗决策。全球过去至少有 50 万人因患乳腺癌死亡,他们当中有 90% 都是转移性肿瘤。
针对从原发部位扩散转移到附近淋巴结的癌症的检测,是病理检查中重要且艰难的一步。大多数癌症都涉及到淋巴结转移的检测,这项检测则成为了被广泛采用的 TNM 癌症分期的基础诊断依据之一。
Google 曾经带着工具 LYNA(LYmph Node Assistant)参加 2016 ISBI Camelyon Challenge,该竞赛主要是对乳腺癌在淋巴结中的转移进行病理切片的分类和定位。
2018 年,Google 分别发表两篇论文阐述在乳腺癌方面的进展。在第一篇论文中,Google 将 LYNA 算法应用于识别 Camelyon Challenge 和独立数据集(由论文的共同作者提供)的病理切片。LYNA 被证明其在图像可变性和组学伪影上具有稳定的鲁棒性,并且在两个数据集上实现了相似的性能,而且无需额外更多的研发。
包含淋巴结的载波片有多个组学伪影右侧:LYNA 识别肿瘤区域在中央(呈红色),并正确地将周围充满伪影的区域分类为非肿瘤区域(呈蓝色)
两个数据集中,LYNA 能够以 99% 的正确率区分有转移性癌症和无转移性癌症的载玻片。此外,LYNA 可以确定每张载玻片内癌症和可疑癌症的位置,其中一些由于体积太小而无法被病理学家检测到。因此 Google 团队推测,LYNA 的一个重要用途就是突出这些「可疑」区域,辅助病理学家做出最终诊断。
在第二篇论文中,六名获认证的病理学家在 LYNA 协助下和没有 LYNA 协助下对转移性乳腺癌的淋巴结做了检查。得益于 LYNA,病理学家平均诊断时间减半,检查每张载玻片只需要一分钟,病理学家主观上认为有了 LYNA 的帮助,诊断「更加容易」。就诊断准确性而言,在 LYNA 的帮助下,病理学家将淋巴结微转移的遗漏率减少了一半。
左侧:含有微转移淋巴结的载波片的放大图右侧:相同视图,在 LYNA 辅助后用蓝色标注出肿瘤的位置
AI 诊断
这些进步听上去令人兴奋,但是更多处于科研试验阶段,有限的数据库,模拟的诊断工作流程,单独检查每个患者的单个淋巴结的病理载玻片而非实际临床病例中常见的检查多个淋巴结病理载玻片等,都让 LYNA 算法距离真正的临床实践还有很长的路要走。
可喜的是,2020 年伊始,Google 又在癌症诊断方面带来了好消息。1 月 1 日,Google Health 部门联手 DeepMind 在 Nature 学术期刊上发布乳腺癌人工智能检测系统。该模型是在一个具有代表性数据集上进行训练和调整的,数据集由 76000 多名英国女性和 15000 多名美国女性的未经识别的乳腺 X 线影像组成。然后在一个单独的未经识别的数据集上进行了评估(包括 25000 多名英国女性和 3000 多名美国女性)。评估结果显示,对比放射科医生,AI 模型的假阳性低了 5.7%(美国)和 1.2%(英国),假阴性低了 9.4%(美国)和 2.7%(英国)。另一项研究中,该系统的表现超越了六位放射科专家。
乳腺癌人工智能检测系统的检测表现
无论是 LYNA 算法还是这项乳腺癌检测系统,Google 的研究都表明,现阶段最好的诊疗结果来自专业人类和技术的共同努力。比如,英国的乳腺筛查流程由两位医生共同读片(Double Reading Process),针对这类情况,研究人员让系统和人类专家同时做第一个决定,意见一致便可不二次读片,意见不一致,将会启动二次读片。研究人员发现该人工智能系统保持了非劣效性能,相比传统的「双读」,AI 可以减少第二个读片者的 88% 工作量。
据 Google 介绍,这项人工智能检测系统未来对于临床医学有着深远的意义。为了验证该模型是否可以推广到其他人群和筛查方案。Google 团队仅仅用英国数据重新训练系统,在美国数据中评估。这项实验下,AI 模型表现仍然好于人类专家,假阳性减少了 3.5%,假阴性减少了 8.1%。尽管差距略有缩小,但是测试表明,在未来的临床部署中,该系统可能提供强大的基础能力,提高癌症筛查的准确性和效率,减少患者的等待时间和压力,通过对本地数据微调,模型的表现性能会更好。但是为了达到这一目标,研究人员仍然需要持续的研究,前瞻性的临床试验以及监管部门的批准。