基于机器学习预测或辅助预测结直肠癌装置和计算机可读存储介质

allin2025-03-19  39


本发明属于生物信息学领域,具体涉及基于机器学习预测或辅助预测结直肠癌装置和计算机可读存储介质。


背景技术:

1、结直肠癌尽管结肠镜仍然是诊断crc的金标准,但其侵入性和重复检查的挑战限制了其作为筛查方法的广泛应用。此外,癌胚抗原(cea)和糖类抗原19-9(ca19-9)是最常用的crc诊断生物标志物,但已被报道其敏感性不足,更适用于治疗期间动态监测crc患者。因此,开发非侵入性的早期crc诊断方法是一个迫切的目标。通过可靠的生物标志物对癌症进行早期诊断有助于提供及时和最佳的治疗,以改善患者的预后。

2、液体活检最近在癌症诊断和常规管理领域崭露头角,因其非侵入性、敏感性和动态特征而备受关注。外泌体(extracellular vesicles, evs)已被认为是一类潜在的非侵入性的用于疾病检测的标志物。evs作为液体活检中的新型生物标志物,携带关键的生物信息,如蛋白质和核酸,并在细胞间通讯中起关键的介导作用。然而,以往蛋白质组学技术的局限性限制了对evs携带的蛋白质的研究进展。因此,利用先进的蛋白质组学方法,如四维数据独立采集(four dimensional data independent acquisition,4d-dia)蛋白质组学(将4d蛋白质组学与数据非依赖采集(dia)相结合的蛋白质组学技术),揭示血液源性evs中的关键生物标志物对于crc的筛查具有重要意义。

3、ml(机器学习)作为人工智能的重要分支,近年来在肿瘤诊断和治疗管理方面越来越受到关注。与传统的诊断模型相比,ml方法更加灵活,更适合捕捉非线性关联和整合包括医学影像和多组学数据在内的大量医学数据。多种机器学习方法可以被用于从液体活检分析物中稳健地提取关键特征并建立诊断模型,从而实现对癌症诊断的优越特异性和敏感性。例如,基于随机森林(random forest, rf)算法的诊断模型通过利用组织和血液中的微生物,在二十多种癌症中展现出卓越的性能。因此,基于最优算法的ml模型可以通过对组织和血液样本进行特征分析,开辟准确诊断癌症的新途径。

4、pf4是一种主要由活化的血小板产生的趋化因子,参与许多生物学过程,包括促进宿主的炎症反应、造血和抑制血管生成。糖蛋白 aact 是一种丝氨酸蛋白酶抑制剂,主要在肝脏中合成并分泌到血液中。

5、在临床检验工作中,血液是最容易收集的体液标本。其中,血浆标本主要用来检测血常规,而血清标本采集量更多,应用也更广泛,可同时检测生化和免疫等多种指标。由于血浆能直接反映体内血液的状态,而经过促凝的血清被认为可能会影响外泌体的释放,因此在既往的外泌体研究中大多选择血浆作为研究对象,而忽略血清中外泌体的作用。然而最近研究表明,同一个受试者的血清外泌体亚群和血浆外泌体亚群存在显著差异,且血清中具有更高浓度的外泌体及其携带更多的生物学信息,有助于更准确地分析预测机体的状态。


技术实现思路

1、本发明所要解决的技术问题是如何鉴定或检测结直肠癌患者和/或如何制备鉴定或辅助鉴定结直肠癌患者的产品和/或如何制备诊断或辅助诊断结直肠癌患者的产品。

2、为了解决上述技术问题,本发明首先提供了装置,所述装置可为用于结直肠癌筛查或辅助筛查的装置、用于结直肠癌诊断或辅助诊断的装置、用于结直肠癌风险评估的装置、用于结直肠癌预后评估的装置或用于鉴别或辅助鉴别结直肠癌与良性结直肠疾病的装置。所述装置可包括如下模块:

3、m1、数据接收模块:用于接收供试者的外泌体中蛋白质浓度,所述蛋白质包括蛋白质1,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶,

4、m2、结果输出模块:用于基于所述蛋白质浓度从计算机输出与结果信息,所述结果信息为下述任一种:

5、m21、供试者是否患结直肠癌,

6、m22、供试者的结直肠癌患病风险,

7、m23、供试者的结直肠癌预后结果,

8、m24、供试者是患结直肠癌还是良性结直肠疾病。

9、上述装置中,所述蛋白质可为蛋白质1,所述蛋白质还可为蛋白质1和蛋白质2,所述蛋白质2为癌胚抗原(cea)和/或糖链抗原19-9(ca19-9)。

10、上述装置中,所述结果输出模块可包括模型构建子模块,所述模型构建子模块用于将结直肠癌患者和对照的外泌体中所述蛋白质浓度作为模型的输入数据,以所述结果信息作为输出数据,构建模型;所述对照可为健康人或/和良性结直肠疾病患者。

11、上述装置中,所述蛋白质还包括蛋白质2,所述蛋白质2为癌胚抗原(cea)和/或糖链抗原19-9(ca19-9)。

12、上述装置中,所述模型构建子模块可采用随机森林算法构建模型。

13、为了解决上述技术问题,本发明还提供了构建模型的方法,所述模型可为用于结直肠癌筛查或辅助筛查的模型、用于结直肠癌诊断或辅助诊断的模型、用于结直肠癌风险评估的模型、用于结直肠癌预后评估的模型或用于鉴别或辅助鉴别结直肠癌与良性结直肠疾病的模型。所述方法可包括接收结直肠癌患者和对照的外泌体中蛋白质浓度,将所述外泌体中所述蛋白质浓度作为模型输入数据,以结果信息作为输出数据,构建模型;所述蛋白质可包括蛋白质1,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶,所述对照为健康人或/和良性结直肠疾病患者,所述结果信息可为下述任一种:

14、m21、供试者是否患结直肠癌,

15、m22、供试者的结直肠癌患病风险,

16、m23、供试者的结直肠癌预后结果,

17、m24、供试者是患结直肠癌还是良性结直肠疾病。

18、上述方法中,所述蛋白质还可包括蛋白质2,所述蛋白质2为癌胚抗原(cea)和/或糖链抗原19-9(ca19-9)。

19、上文所述模型可采用随机森林算法构建。

20、为了解决上述技术问题,本发明还提供了方法,所述方法可为结直肠癌筛查或辅助筛查的方法、结直肠癌诊断或辅助诊断的方法、结直肠癌风险评估的方法、结直肠癌预后评估的方法或鉴别或辅助鉴别结直肠癌与良性结直肠疾病的方法。所述方法可包括接收供试者的外泌体中蛋白质浓度,得到供试者数据,基于所述供试者数据从计算机输出结果信息,所述结果信息可为下述任一种:

21、m21、供试者是否患结直肠癌,

22、m22、供试者的结直肠癌患病风险,

23、m23、供试者的结直肠癌预后结果,

24、m24、供试者是患结直肠癌还是良性结直肠疾病;

25、所述蛋白质可包括蛋白质1,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶。

26、上文所述方法可包括构建模型,所述构建模型可包括接收结直肠癌患者和对照的外泌体中蛋白质浓度,将所述外泌体中所述蛋白质浓度作为模型输入数据,以所述结果信息作为输出数据,构建模型;所述蛋白质可包括蛋白质1,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶;所述对照可为健康人或/和良性结直肠疾病患者。

27、上述方法中,所述蛋白质还可包括蛋白质2,所述蛋白质2为癌胚抗原(cea)和/或糖链抗原19-9(ca19-9)。

28、上文所述模型可采用随机森林算法构建。

29、为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质,所述计算机程序可使计算机执行上文中任一所述方法的步骤。

30、为了解决上述技术问题,本发明还提供了蛋白质和/或检测所述蛋白质的物质的下述任一种应用:

31、a1)在结直肠癌筛查或辅助筛查或制备用于结直肠癌筛查或辅助筛查的产品中的应用;

32、a2)在结直肠癌诊断或辅助诊断或制备用于结直肠癌诊断或辅助诊断的的产品中的应用;

33、a3)在结直肠癌风险评估的装置或制备用于结直肠癌风险评估的装置的产品中的应用;

34、a4)在结直肠癌预后评估的装置或制备用于结直肠癌预后评估的装置的产品中的应用;

35、a5)在用于鉴别或辅助鉴别结直肠癌与良性结直肠疾病或制备用于鉴别或辅助鉴别结直肠癌与良性结直肠疾病的产品中的应用;

36、所述蛋白质可为下述任一种:

37、p1、所述蛋白质包括蛋白质1,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶;

38、p2、所述蛋白质包括蛋白质1蛋白质2,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶;所述蛋白质2为癌胚抗原(cea)和/或糖链抗原19-9(ca19-9)。

39、上文所述蛋白质可为外泌体中的蛋白质。

40、所述外泌体可为血清外泌体或血浆外泌体。

41、上文所述物质可为试剂和/或仪器。

42、上述应用中,所述检测所述生物标志物的物质可包括通过酶联免疫吸附试验、免疫荧光法、流式细胞术、放射免疫测定法、免疫共沉淀法、免疫印迹法、高效液相色谱法、毛细管凝胶电泳法、近红外光谱法、质谱法、免疫化学发光法、胶体金免疫技术、荧光免疫层析技术、表面等离子共振技术、免疫-pcr技术或生物素-亲和素技术检测外泌体中血小板第4因子和α-1抗胰糜蛋白酶的物质。

43、上述应用或方法为非疾病诊断的应用或方法。上述应用或方法不以获得有生命的人体或动物体的疾病诊断结果或健康状况为直接目的。

44、上述应用或方法为非疾病治疗目的的应用或方法。上述应用或方法不以使有生命的人体或者动物体恢复或获得健康或减少痛苦为目的。

45、上文所述计算机程序产品可为主要通过计算机程序实现其解决方案的软件产品。

46、所述计算机可读存储介质是指存储数据的载体,可为磁带、磁盘、软盘、光盘、磁光盘、rom、prom、vcd、dvd、硬盘、闪存、u盘、cf卡、sd卡、mmc卡、sm卡、记忆棒(memory stick)或xd卡等。

47、本发明通过深入分析evs的4d-dia蛋白质组数据,并使用ml技术,鉴定了新的生物标志物pf4和aact。随后,基于pf4和aact构建了最佳的ml模型,并取得了优越的诊断性能。鉴定的evs-蛋白质组特征和发展的ml模型为提高crc的早期检测和管理提供了一个有希望的途径。

48、最近,ml在肿瘤学领域的应用越来越受到关注。通过从液体和组织活检的分析物中进行强大的特征选择,ml方法可以提高癌症诊断、治疗决策和预后预测的准确性和效率13, 18。在本发明中,采用了多种ml算法,包括支持向量机(svm)、k最近邻(knn)、决策树(rpart)、rf和逻辑回归,构建了诊断模型。与传统的线性逻辑回归分析相比,基于其他ml算法(如rf)的模型在auc方面有显著改善,从0.887提高到0.993(补充图2a)。因此,ml能够从evs中提取关键的蛋白质组特征,并与传统的线性回归模型相比,开发出更强大、可靠的模型。

49、本发明首次发现了crc患者血清evs中pf4的富集,可能是由于血清样本中血小板的激活,释放了携带crc上皮细胞或肿瘤相关的血小板(teps)来源的大量evs。本发明从血小板外泌体的角度为crc的诊断提供了新的视角(图3;图5)。

50、本发明的生物信息学分析结果表明,evs来源的pf4在调节脂质稳态和脂质定位中起到重要作用(图6中a-d)。进一步探索evs来源的pf4是否通过cd36调节脂质代谢稳态以重塑肿瘤微环境。此外,蛋白相互作用(ppi)网络显示,pf4可能与几种载脂蛋白相互作用,包括apoa1、apoa2和apoe,暗示了pf4参与脂质稳态和胆固醇外流的潜在机制(图6中d)。

51、本发明基于机器学习筛选并验证血清外泌体蛋白组学特征血小板因子4(platelet factor 4, pf4)和α-1抗胰糜蛋白酶(alpha-1-anti-chymotrypsin,aact)联合作为分子标记物在结直肠癌诊断中的应用。进一步通过结合传统标志物癌胚抗原(carcinoembryonic antigen,cea)以及糖类抗原19-9(carbohydrate antigen 19-9,ca19-9),构建性能优越的血清外泌体相关随机森林诊断模型,以作为crc的新型临床诊断工具。

52、本发明通过4d-dia蛋白质组学和elisa技术,证明了crc患者的evs中aact的显著升高,并且具有临床诊断价值(图2;图4)。本发明首次揭示了aact在evs中与肿瘤的关系,尽管evs来源的aact在crc的发生和发展中的确切功能还需要进一步研究。本发明的生物信息学结果还表明,evs来源的aact与急性炎症反应通路最相关,该通路可以激活nf-κb信号(图6中e-f)。此外,string数据库分析表明,aact可能通过重要的炎症调节因子tgf-β参与炎症和nf-κb信号通路(图6中h)。然而,aact也能够进入细胞核,并与染色质建立强大的联系,从而抑制肝癌细胞的增殖。尚不清楚evs中的aact是否也具有这些矛盾的效应。此外,aact与蛋白质降解通路呈负相关。aact在细胞骨架和蛋白质代谢通路中的潜在作用需要进一步研究(图6中e-h)。综上所述,aact可能作为crc的诊断和治疗靶点具有巨大潜力。

53、本发明通过深入的4d-dia (4d-data-independent acquisition)蛋白质组学和机器学习(ml,machine learning)分析流程,本发明在发现集的37例evs样本中确定了重要的蛋白质血小板因子4(pf4,platelet factor 4)和α-1-抗胰糜蛋白酶(aact,alpha-1-antichymotrypsin)用于crc的诊断。随后,通过elisa在包括666例患者的训练集和验证集中,验证了pf4和aact在crc患者中与健康对照组(hc, healthy controls)和良性结直肠疾病(bcd,benign colorectal diseases)患者相比的异常过表达。在基于最优随机森林(rf,random forest)算法的ml模型中,与cea和ca19-9相比,pf4和aact在曲线下面积(auc,areaunder the curve)和精确率-召回率曲线下面积(prauc,precision-recall area underthe curve)方面表现出更好的性能。此外,本发明开发了一个具有最高诊断效能的evs相关rf模型,在训练集中实现了0.960的auc和0.979的prauc,在验证集中实现了0.963的auc和0.975的prauc。值得注意的是,evs相关rf模型在早期crc的检测和crc与bcd的区分中也表现出可靠的诊断性能。总体而言,本发明的研究确定了evs中pf4和aact的新型蛋白质标志,并建立了一个有前景的evs相关ml模型用于crc的临床诊断。


技术特征:

1.装置,所述装置为用于结直肠癌筛查或辅助筛查的装置、用于结直肠癌诊断或辅助诊断的装置、用于结直肠癌风险评估的装置、用于结直肠癌预后评估的装置或用于鉴别或辅助鉴别结直肠癌与良性结直肠疾病的装置,其特征在于:所述装置包括如下模块:

2.根据权利要求1所述的装置,其特征在于:所述结果输出模块包括模型构建子模块,所述模型构建子模块用于将结直肠癌患者和对照的外泌体中所述蛋白质浓度作为模型的输入数据,以所述结果信息作为输出数据,构建模型;所述对照为健康人或/和良性结直肠疾病患者。

3.根据权利要求1或2所述的装置,其特征在于:所述蛋白质还包括蛋白质2,所述蛋白质2为癌胚抗原和/或糖链抗原19-9。

4.构建模型的方法,所述模型为用于结直肠癌筛查或辅助筛查的模型、用于结直肠癌诊断或辅助诊断的模型、用于结直肠癌风险评估的模型、用于结直肠癌预后评估的模型或用于鉴别或辅助鉴别结直肠癌与良性结直肠疾病的模型,其特征在于:所述方法包括接收结直肠癌患者和对照的外泌体中蛋白质浓度,将所述外泌体中所述蛋白质浓度作为模型输入数据,以结果信息作为输出数据,构建模型;所述蛋白质包括蛋白质1,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶,所述对照为健康人或/和良性结直肠疾病患者,所述结果信息为下述任一种:

5.根据权利要求4所述的方法,其特征在于:所述蛋白质还包括蛋白质2,所述蛋白质2为癌胚抗原和/或糖链抗原19-9。

6.方法,所述方法为结直肠癌筛查或辅助筛查的方法、结直肠癌诊断或辅助诊断的方法、结直肠癌风险评估的方法、结直肠癌预后评估的方法或鉴别或辅助鉴别结直肠癌与良性结直肠疾病的方法,其特征在于:所述方法包括接收供试者的外泌体中蛋白质浓度,得到供试者数据,基于所述供试者数据从计算机输出结果信息,所述结果信息为下述任一种:

7.根据权利要求6所述的方法,其特征在于:所述方法包括构建模型,所述构建模型包括接收结直肠癌患者和对照的外泌体中蛋白质浓度,将所述外泌体中所述蛋白质浓度作为模型输入数据,以所述结果信息作为输出数据,构建模型;所述蛋白质包括蛋白质1,所述蛋白质1为血小板第4因子和/或α-1抗胰糜蛋白酶;所述对照为健康人或/和良性结直肠疾病患者。

8.根据权利要求7所述的方法,其特征在于:所述蛋白质还包括蛋白质2,所述蛋白质2为癌胚抗原和/或糖链抗原19-9。

9.存储有计算机程序的计算机可读存储介质,其特征在于:所述计算机程序使计算机执行权利要求4-9中任一所述方法的步骤。

10.蛋白质和/或检测所述蛋白质的物质的下述任一种应用:


技术总结
本发明基于机器学习筛选并验证血清外泌体蛋白组学特征血小板因子4和α‑1抗胰糜蛋白酶联合作为分子标记物在结直肠癌诊断中的应用。进一步通过结合传统标志物癌胚抗原以及糖类抗原19‑9,构建性能优越的血清外泌体相关随机森林诊断模型,以作为CRC的新型临床诊断工具。实验结果显示EV来源的PF4和AACT在CRC诊断中优于CEA和CA19‑9作为生物标志物。EV相关CRC患者鉴定模型在CRC诊断中表现出卓越的诊断性能,包括早期诊断和与BCD患者的鉴别诊断,可应用于制备鉴定或辅助鉴定CRC患者的产品。

技术研发人员:黄智坚,尹浩帆,谢晋烨
受保护的技术使用者:中山大学附属第七医院(深圳)
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19363.html

最新回复(0)