宝锐
EN
新闻资讯
您当前的位置 : 首 页 > 新闻资讯 > 技术资讯

Nature子刊 | Dana-Farber癌症研究所开发基于大型癌症基因组数据集的NLP模型,适用多种癌症类型

2022-01-05 03:15:03

文章来源:测序中国

作者:小鹿-先森



肿瘤生物标志物在癌症早筛、诊断及治疗、预后中发挥着关键作用,为提高肿瘤生物标志物的应用效果,就需要对经过深度分子表征的大量肿瘤数据集进行系统性分析。由于缺乏可推广的用来收集患者临床数据及追踪患者临床结果的方法,肿瘤数据的应用也受到了限制。

在治疗性临床试验之外,通常不会以结构化格式记录临床结果和预后信息。因此,从电子病历中提取数据需要繁琐的人工病历审查,但不同研究中缺乏用于病历注释的标准化数据模型使得临床数据无法充分发挥更多效用。
此前,Dana-Farber癌症研究所研究团队开发了基于结构病理学、放射学影像、体征/症状、医学肿瘤学家评估和生物标记物(PRISSMM)的数据模型,以结构化和可重现的方式提取与基因组数据集关联的临床结果。PRISSMM可提供从单个影像报告和医学肿瘤学家手写病例中提取特定癌症结果的规则。同时,为单个电子健康记录(EHR)文档生成的PRISSMM注释也可以作为标签来训练机器学习模型以自动执行注释工作。
该研究还论证了训练自然语言处理(NLP)模型能够从非小细胞肺癌患者的影像报告和医学肿瘤学家提供病例中提取结果的可行性。但是这种方法对其他类型癌症的可推广性及其用于创建关联临床基因组数据集的应用在此前的研究中尚未涉及,其性能也有待进一步研究。
近日,该研究团队在Nature Communications在线发表了题为“Artificial intelligence-aided clinical annotation of a large multi-cancer genomic dataset”的文章。研究人员利用来自多种癌症患者的临床数据训练自然语言处理(NLP)模型,并证明了其对训练集中未见的癌症类型的普遍适用性,还进一步评估了NLP衍生的临床注释与患者总生存率之间的关联。研究团队将该技术应用于大规模的EHR数据,创建了一个大型的多癌症临床基因组数据集,并通过探索肿瘤突变负荷(TMB)与免疫检查点抑制剂治疗无进展生存率之间的关联,证明了该数据集的实用性。

image.png

主要研究内容

该研究共纳入了2013年至2021年参与Dana-Farber癌症研究所PROFILE项目的患者,涵盖13种常见恶性实体肿瘤类型,包括乳腺癌、大肠癌、子宫内膜癌、胃/食管癌等,这些患者均进行了肿瘤组织的多组学测序。此外,其他类型的数据包括来自13,130名患者的共计304,160份影像报告;肿瘤学家记录的232,575份报告(来自13,511名患者)。


image.png


NLP对每个文档的性能进行建模

评估发现,基于所有标记数据的训练成像报告中提取结果的NLP模型对预测任何一种癌症结局的AUROC为0.98,预测癌症进展/恶化的AUROC为0.95。同时,NLP模型还能准确预测特定转移部位的癌症,其中脑肿瘤的AUROC为0.99,骨癌为0.99,肾上腺癌为0.99,除尿路上皮癌的腹膜转移外,不同类型的肿瘤表现均一致较好。


image.png


随后,研究人员利用训练模型从所有标记的来自医学肿瘤学家提供病例中提取信息,如果不区分肿瘤类型,其对临床结果预测的AUROC为0.93,进展/恶化结局的预测AUROC为0.92,获得临床改善结局的预测AUROC为0.93。具体到每一种癌症类型,除胰腺癌外(0.72),对其他所有癌症类型的预测准确性均一致较好(>0.90)。


接受免疫治疗患者的TMB与PFS相关性

为了进一步展示NLP模型定义临床结果的临床基因组数据集的应用,研究团队计算了PFS和肿瘤突变负荷(TMB)之间的关系。此前,TMB被认为是接受免疫治疗患者预后的生物标志物。该研究共纳入1374名患者,其中包含接受免疫检查点抑制剂治疗的患者。数据显示,在Cox模型中,发现较高的TMB和较长的生存时间之间有显著关联。当TMB被分为高(大于等于20个突变/每百万碱基)或低(小于20个突变/每百万碱基)两个类别时,这种显著相关性仍然持续存在。


image.png


结 语

综上所述,该研究应用深度NLP人工智能神经网络方法来提取临床信息,包括癌症反应、进展和转移位点,并关联到实体肿瘤患者的基因组数据。虽然该模型是通过对整个队列中大约21%的患者信息进行了基于标签的手动审查来训练和验证,但模型仍能够推广到那些临床信息未被人工审查的患者,甚至可以推广到模型训练中包括的其他癌症类型。同时,该模型自动提取的临床信息显示了与总生存率的显著的相关性。通过检测TMB和不同癌症类型无进展生存期之间的关系,证明了这种方法对癌症基因组信息的实用性。

研究团队将人工临床注释与深度神经网络相结合,完成了多种癌症类型基因组队列的临床结果提取,由此产生的注释可以可靠地捕捉到准确的临床结果,对于没有用于训练的标记数据的癌症类型也适用。
参考文献:
1. Kehl, K.L., Xu, W., Gusev, A. et al. Artificial intelligence-aided clinical annotation of a large multi-cancer genomic dataset. Nat Commun 12, 7304 (2021).
2. Zehir, A. et al. Mutational landscape of metastatic cancer revealed from prospective clinical sequencing of 10,000 patients. Nat. Med 23, 703–713 (2017).
3. Kehl, K. L. et al. Assessment of deep natural language processing in ascertaining oncologic outcomes from radiology reports. JAMA Oncol. 02215, 1–8 (2019).


注:本栏目文章系转载文章,所有转载文章系出于传递更多信息之目的,转载内容不代表公司立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。



珠海宝锐生物科技有限公司成立于2012年,专注于核酸断试诊剂核心原料领域,是珠海市独角兽种子企业、广东省专精特新企业、国家高新技术企业。成功研制了多个系列的高品质分子诊断用酶和配套试剂,已得到众多国内知名企业和研究机构的认可,并广泛应用在诊断试剂的研发和生产中。同时,宝锐大力投入mRNA疫苗原料、NGS建库试剂、数字PCR扩增试剂、STR多重检测试剂等多项研究,相关新品陆续上市。

专注原料开发,提供优质服务!宝锐正以高速迈进产业发展新纪元,致力成为国内一流的核酸诊断解决方案供应商,以优质的产品和服务助力行业发展。



标签

近期浏览:

相关产品

相关新闻

联系我们

0756-8699969

地址:珠海市香洲区南屏科技工业园屏北一路333号

邮箱:marketing@biori.com

//cdn.myxypt.com/05aa6382/21/09/10989b1b98bfafd88117d10d6907f678cd1033c1.jpg 

微信公众号

 

产品咨询

 

加入我们

 

视频号

网站导航

关于宝锐         企业文化          发展历程

荣誉资质         产品中心          公司新闻

行业热点         员工风采          下载中心

联系我们       


网站地图 | 版权@2021 珠海宝锐生物科技有限公司 粤ICP备19103206号