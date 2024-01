Données démographiques de base des patients et manipulation des échantillons

Notre cohorte Molecular Twin Pilot (MT-Pilot) comprenait 74 patients au stade clinique I (n= 47) et II (n= 27) avec PDAC réséqué chirurgicalement entre mars 2015 et avril 2019. Des échantillons de tumeur ont été prélevés au moment de l’intervention chirurgicale et des échantillons de plasma ont été prélevés en préopératoire. Le DS a été enregistré et traité comme un critère d’évaluation binaire au moment de l’analyse au 21 octobre 2021. À ce moment-là, 45 (61 %) patients étaient décédés. Toutes les caractéristiques démographiques et cliniques (tableau supplémentaire 1) ont été incluses en tant que caractéristiques de l’analyte clinique dans notre analyse multi-omique. Les informations sur la pathologie chirurgicale ont été obtenues à partir d’une résection d’une tumeur du pancréas. Les caractéristiques individuelles des échantillons de tumeurs et de plasma ont été évaluées par profilage moléculaire, y compris le séquençage ciblé de l’ADN de nouvelle génération (NGS), le séquençage complet de l’ARN du transcriptome, la protéomique des tissus appariés (tumeur et normale du même patient), non appariés (tumeur des patients et normales). contrôles non liés) protéomique plasmatique, lipidomique et pathologie informatique. Le profilage des analytes a généré des fonctionnalités que nous avons utilisées pour valider des modèles simples et multiomiques pour prédire la DS ; une approche de validation croisée sans exception a été appliquée à la cohorte MT-Pilot, tandis que les quatre ensembles de données indépendants : TCGA, cohorte JHU 1, cohorte JHU 2 et MGH ont été utilisés pour valider nos modèles ML et nos panneaux de fonctionnalités développés sur la base du Données MT-Pilot (Fig. 1).

Fig. 1 : Aperçu de la méthodologie de classification des études. unEnsemble de données multi-omiques combiné de 6 363 caractéristiques traitées couvrant la pathologie clinique et chirurgicale, SNV, CNV, INDEL, ARN, fusion, protéines tissulaires, protéines plasmatiques, lipides et analytes de pathologie informatique. bConstruction de toutes les combinaisons possibles d’analytes (n = 1 024) via une approche d’importance par colonne déroulante pour simuler la disponibilité de diverses combinaisons d’analytes. cPour chaque combinaison d’analytes, sept modèles ML indépendants ont été formés pour l’évaluation du modèle, notamment SVM, analyse en composantes principales (ACP) + régression logistique, SVM normalisé L1, RF normalisé L1, réseau neuronal profond à cinq couches cachées, RFE. régression logistique et RFE RF. dCombinaisons d’analytes d’entrée (n = 1 024) avec sept stratégies de modélisation par combinaison d’analytes ont produit 7 168 analyses de grille résultantes qui ont ensuite été analysées pour le pouvoir prédictif, la composition des analytes et les contributions aux caractéristiques pour la prédiction DS. e, Chaque combinaison d’analytes unique et stratégie ML a été formée via une approche de validation croisée sans laisser un patient. Les modèles mono-omiques et multi-omiques pour la prédiction DS ont été validés à l’aide d’ensembles de tests de quatre cohortes distinctes, TCGA, la cohorte JHU 1, la cohorte JHU 2 et la cohorte MGH. Clin. & surg. chemin., pathologie clinique et chirurgicale; comp. chemin., pathologie informatique; prot., protéine. Données source

Les caractéristiques de la pathologie clinique et chirurgicale influencent les résultats

Les 331 caractéristiques cliniques, y compris les caractéristiques de pathologie chirurgicale et le traitement de chimiothérapie (Tableau supplémentaire 1), ainsi que les comorbidités (Tableau supplémentaire 2) ont été analysées à l’aide de plusieurs modèles ML. Lorsqu’elle est entraînée avec ces fonctionnalités, la forêt aléatoire (RF) était le modèle le plus performant pour déterminer le DS et a atteint une précision de 0,70 (intervalle de confiance (IC) à 95 % 0,60-0,81) et une valeur prédictive positive (VPP) de 0,71 (95 % IC 0,60–0,82) (Tableau 1 et données étendues, Fig. 1). Les principales caractéristiques prédictives des résultats comprenaient les comorbidités, telles que l’hyperlipidémie, la jaunisse et la pancréatite, ainsi que l’état de la marge chirurgicale (tableau supplémentaire 2), connus dans le domaine de la PDAC.15,16,17. Le modèle pour DS était principalement basé sur des conditions comorbides, qui représentaient 306 des 331 caractéristiques totales. Le modèle RF a également été formé à l’aide des 25 fonctionnalités restantes, qui comprenaient des prédicteurs PDAC connus tels que la chimiothérapie antérieure et l’état des marges. Ce modèle fonctionnait de manière similaire à ceux incluant toutes les caractéristiques cliniques (Tableau supplémentaire 2). Notamment, les dix principales caractéristiques de ce modèle comprenaient l’état de la marge chirurgicale, le grade de la tumeur et la chimiothérapie, qui sont connus pour influencer les résultats pour les patients.18,19.

Tableau 1 Principaux analytes mono-omiques et multi-omiques permettant de prédire la survie à la maladie dans la PDAC dans la cohorte MT-Pilot

L’analyse de l’ADN révèle des altérations d’importance pronostique

Les polymorphismes de mutations ponctuelles et d’insertion/délétion (INDEL) sont courants dans les oncogènes PDAC établis et les gènes suppresseurs de tumeurs20. Des échantillons de tissus ont été traités pour 611 variantes somatiques mononucléotidiques (SNV), 648 variations du nombre de copies (CNV) et 126 INDEL. Ces caractéristiques ont ensuite été utilisées dans les modèles de prédiction DS des patients (Tableau supplémentaire 3).

En utilisant les fonctionnalités SNV, le modèle le plus performant pour déterminer le DS était RF, avec une précision de 0,64 (IC à 95 % 0,53 à 0,75) et une VPP de 0,66 (IC à 95 % 0,55 à 0,77) (Tableau 1 et données étendues, Fig. 1). Dans les modèles évaluant les SNV, nous avons constaté que les modifications de RAD51, IL6R , FGF20 et SOX2les gènes étaient les principaux prédicteurs du DS (Tableau supplémentaire 3) et leurs voies de signalisation associées ont des implications pronostiques importantes dans la PDAC21,22,23. De plus, nous avons trouvé des gènes, tels que RIT1qui étaient les principaux marqueurs prédictifs de DS identifiés par notre modèle et non associés auparavant au pronostic PDAC ou aux voies ciblables.

En utilisant les fonctionnalités CNV, le modèle le plus performant pour déterminer DS était un modèle RF avec une précision de 0,65 (IC à 95 % 0,57-0,80) et une VPP de 0,68 (IC à 95 % 0,57-0,80) (Tableau 1 et données étendues, Fig. 1). . Les principales fonctionnalités CNV pour DS sont indiquées dans le tableau supplémentaire 3. Nous avons notamment constaté que FOXQ1 et KDM5D étaient les principaux prédicteurs associés au DS. Tous deux sont des marqueurs du pronostic PDAC et des cibles thérapeutiques potentielles24,25,26. Dans notre cohorte, les quatre gènes couramment mutés, KRAS , TP53 , CDKN2A et SMAD4 (réf. 27), ont été inclus parmi un total de 126 fonctionnalités spécifiques d’INDEL et ont été apprises par plusieurs types de modèles ML. Le meilleur modèle prédisant DS était RF avec une précision de 0,64 (IC à 95 % 0,53 à 0,75) et une VPP de 0,70 (IC à 95 % 0,58 à 0,82) (Tableau 1 et données étendues, Fig. 1). Les principales caractéristiques du modèle comprenaient des mutations de TP53, CDKN2Aet SMAD4(réf. 28,29), qui se sont avérés corrélés à un mauvais pronostic et à des phénotypes plus agressifs de PDAC.

Les signatures ARN de la résistance aux médicaments ont un impact sur le pronostic

Le séquençage du transcriptome entier a été effectué sur 72 des 74 échantillons de tissus tumoraux fixés au formol et inclus en paraffine (FFPE). Pour optimiser les fonctionnalités les plus prédictives, nous avons d’abord effectué une analyse d’expression différentielle entre des échantillons cancéreux et non cancéreux du Consortium GTex afin de sélectionner les transcrits de gènes d’ARN pour la modélisation en aval.30. Le modèle le plus performant pour déterminer le DS était le RF normalisé L1, qui donnait une précision de 0,68 (IC à 95 % 0,56-0,80) et une VPP de 0,70 (IC à 95 % 0,57-0,83) (Tableau 1 et données étendues, Fig. 1) . Dans notre modèle haut de gamme pour la prédiction DS, le NFE2L2et LRIG3les gènes étaient les deux principales caractéristiques (tableau supplémentaire 4). Des recherches récentes ont montré que la voie NRF2 via NFE2L2 régule la résistance aux médicaments et à l’immunothérapie.31,32. De plus, un total de 29 fusions d’ARN ont été analysées à l’aide de plusieurs types de modèles (tableau supplémentaire 4). Le modèle le plus performant comportant des fusions d’ARN pour déterminer la DS était la machine à vecteurs de support (SVM) avec une précision de 0,75 (IC à 95 % 0,64 à 0,87) et une VPP de 0,74 (IC à 95 % 0,62 à 0,87) (Tableau 1 et données étendues). . 1).

Les protéines plasmatiques sont des biomarqueurs essentiels dans la prédiction de la survie

L’analyse protéomique et lipidomique a initialement généré 3 777 caractéristiques protéomiques de tissu tumoral, 1 051 caractéristiques protéomiques plasmatiques et 939 caractéristiques lipidomiques (Tableau supplémentaire 5).

En utilisant les caractéristiques des protéines tissulaires, le modèle le plus performant pour prédire la DS était le modèle RF avec une précision de 0,73 (IC à 95 % 0,61 à 0,86) et une VPP de 0,76 (IC à 95 % 0,63 à 0,89) (Tableau 1 et données étendues, Fig. 1). Pour les caractéristiques des protéines plasmatiques, le modèle le plus performant pour DS était le modèle de réseau neuronal profond à cinq couches cachées avec une précision de 0,75 (IC à 95 % 0,63 à 0,86) et une VPP de 0,80 (IC à 95 % 0,68 à 0,90) ( Tableau 1 et données étendues Fig. 1). Parmi les protéines plasmatiques prédictives du DS, nous avons identifié ANXA1, qui est un acteur émergent important dans la carcinogenèse pancréatique et la résistance aux médicaments PDAC.33,34. Le modèle le plus performant utilisant les caractéristiques des lipides plasmatiques pour déterminer le DS était le modèle RF avec une précision de 0,71 (IC à 95 % 0,58 à 0,83) et une VPP de 0,74 (IC à 95 % 0,61 à 0,87) (Tableau 1 et données étendues, Fig. 1) . Les principales caractéristiques lipidomiques plasmatiques du DS étaient déterminées par les diacylglycérols et les esters de cholestérol (Tableau supplémentaire 5).

Comme indiqué ci-dessus, le CA 19-9 est couramment utilisé dans la pratique clinique lors du diagnostic PDAC, avant et après l’opération, pour évaluer la biologie de la maladie, la réponse au traitement et le pronostic. Les lectures CA 19-9 obtenues au moment du diagnostic, avant la chirurgie et après l’opération, ont été apprises par le modèle RF, mais la prédiction DS avait une faible précision (0,59-0,64, IC à 95 % 0,47-0,76) et une faible VPP (0,52-0,61, 95 % IC 0,40–73) à tous les moments (Tableau supplémentaire 6).

Morphologie nucléaire prédictive via la pathologie computationnelle

Les 71 images de lames entières de tissus PDAC colorées à l’hématoxyline et à l’éosine (H&E) ont été évaluées par un pipeline de pathologie informatique basé sur l’intelligence artificielle (IA) (Fig. 2). Le pipeline comprenait deux modèles de réseaux neuronaux convolutifs : un modèle pour masquer les cellules cancéreuses (Fig. 2a) et un modèle pour délimiter les noyaux (Fig. 2b). Lorsqu’il a été testé sur des images provenant d’un ensemble indépendant de 40 cas PDAC, le modèle de masquage du cancer a atteint une précision globale de 0,90, une intersection moyenne sur l’union (mIoU) de 0,784 et des scores F1 moyens de 0,83 et 0,77 pour identifier les pixels des tissus non tumoraux et tumoraux, respectivement. Ensuite, le pipeline a été exécuté sur 2 908 régions (~ 41 ± 11 régions par cas) sélectionnées au hasard parmi les 71 WSI de notre cohorte et a automatiquement isolé 345 038 noyaux de cellules tumorales (~ 4 860 noyaux par cas). La morphologie et la texture nucléaires ont été quantifiées par un panel de 63 caractéristiques. La distribution des caractéristiques dans chaque cas a été résumée par 13 statistiques d’ordre, donnant 819 caractéristiques par cas (Fig. 2c et tableau supplémentaire 7). Un collecteur uniforme…