Actualité santé | News 24

Une étude d’association multi-ascendante à l’échelle du génome sur les troubles liés à la consommation de cannabis donne un aperçu de la biologie de la maladie et des implications pour la santé publique

Déclaration d’inclusion et d’éthique

Nous avons inclus des chercheurs de la biobanque iPSYCH et du PGC, qui ont joué un rôle dans la conception de l’étude. Cette recherche n’a été ni restreinte ni interdite dans le cadre d’aucun des chercheurs inclus. Toutes les études ont été approuvées par les conseils de recherche institutionnels locaux et les comités d’examen éthique. MVP a été approuvé par le comité central de recherche institutionnelle des Anciens Combattants. Nous ne pensons pas que nos résultats entraîneront une stigmatisation, une incrimination, une discrimination ou un risque personnel pour les participants.

Cohortes

Nous avons utilisé la version 4 de la version de données du MVP. Les DSE liés et anonymisés ont été interrogés à l’aide de l’infrastructure informatique et informatique des Anciens Combattants pour identifier les personnes portant des codes de la Classification internationale des maladies (CIM) pour la dépendance au cannabis ou l’abus de cannabis (ensemble, CanUD) (Tableaux supplémentaires 2 et 3). La plage des dates de diagnostic s’étendait de mai 1992 à décembre 2019. Deux classifications ont été étudiées : (1) cas identifiés par au moins deux visites ambulatoires distinctes ou un nombre quelconque de visites de patients hospitalisés dans un centre médical du US Veterans Affairs (VA) pour CanUD et ( 2) cas identifiés par au moins une visite hospitalière ou ambulatoire pour CanUD. L’analyse de corrélation génétique a indiqué que ces traits étaient presque identiques d’un point de vue génétique (rg= 0,99) et l’héritabilité basée sur le SNP (h2) n’était pas statistiquement différent (définition 1, h2= 0,075, voir 0,0053, z = 14,1 ; définition 2, h2 = 0,087, voir 0,0062, z= 14,0 ; P.différence= 0,14), la définition de cas selon la deuxième classification a donc été retenue pour une analyse plus approfondie (c’est-à-dire au moins une visite hospitalière ou ambulatoire). Toutes les personnes diagnostiquées selon la première définition de la maladie ont également été diagnostiquées selon la deuxième définition plus inclusive. Les témoins ont été définis comme des individus sans aucun code VA EHR CIM pour la dépendance au cannabis, l’abus de cannabis ou la consommation de cannabis (codes de consommation de cannabis inclus dans la CIM-9 : 305.29 et inclus dans la CIM-10 : F12.90, F12.920, F12.921, F12.922, F12.929, F12.93, F12.950, F12.951, F12.959, F12.980, F12.988 et F12.99). La cohorte PGC était telle que décrite précédemment et était composée de 16 cohortes avec différentes définitions et vérifications de phénotype.dix. Une analyse sans exception a été réalisée pour supprimer l’échantillon iPSYCH1, laissant 18 370 cas et 304 838 contrôles pour les ascendances européennes et africaines dans les sumstats PGC/deCODE restants. Une cohorte iPSYCH2 élargie et mise à jour a ensuite été ajoutée via une méta-analyse (4 733 cas et 95 657 témoins, tous EUR). Nous avons également inclus des échantillons de la MGB Biobank (456 cas et 24 088 contrôles, tous EUR) et de nouvelles données de la cohorte Yale-Penn.46au-delà des individus déjà inclus dans l’étude PGC (310 cas et 1 471 contrôles supplémentaires pour EUR, et 271 cas et 666 contrôles pour AFR). Le tableau 1 donne les chiffres pour chaque cohorte.

Génotypage MVP, imputation, contrôle qualité, GWAS et méta-analyse

Le génotypage et l’imputation des participants MVP ont été décrits précédemment11. En bref, un Affymetrix Axiom Array personnalisé a été utilisé pour le génotypage. Les données de génotype MVP pour les SNP bialléliques ont été imputées à l’aide de Minimac4 et d’un panel de référence du panel African Genome Resources de l’Institut Sanger. Les indels et les variantes complexes ont été imputés indépendamment à l’aide du panel de phase 3 de 1 000 génomes (1 kg) et fusionnés selon une approche similaire à celle utilisée par la biobanque britannique. La désignation des ascendances larges était basée sur l’attribution génétique par rapport aux panels de référence de 1 kg.47 .

MVP GWAS a été réalisé à l’aide d’une régression logistique dans PLINK 2.0 en utilisant les dix premiers contrôles positifs, le sexe et l’âge comme covariables. Les variantes ont été exclues si le manque d’appels dans le génotype le plus probable dépassait 20 %. Les allèles avec MAF <0,1% ont été exclus en EUR, AFR et AMR. Les allèles avec MAF <1% ont été supprimés de l'EAS en raison de la taille plus petite de l'échantillon. Les données MVP représentaient la cohorte la plus grande et la plus diversifiée avec 22 260 cas et 423 587 contrôles (EUR), 14 946 cas et 97 580 contrôles (AFR), 2 774 cas et 35 515 contrôles (AMR) et 194 cas et 6 649 contrôles (EAS) (Tableau 1). . Les méta-analyses GWAS dans les ensembles de données PGC des échantillons deCODE et PGC ont été menées comme décrit précédemment, bien qu'une analyse sans intervention ait été menée pour supprimer les données d'iPSYCH1 afin qu'une plus grande cohorte puisse être analysée de manière indépendante.dix. Cette méta-analyse PGC sans intervention contenait 14 522 cas EUR et 298 941 contrôles et 3 848 cas AFR avec 5 897 contrôles. Cette étude inclut de nouveaux génotypes d’iPSYCH (appelés iPSYCH2) et toutes les données iPSYCH (iPSYCH1 + 2) ont été retraitées. Le contrôle de qualité et l’imputation avant imputation ont été effectués séparément sur les génotypes de l’ensemble complet d’individus génotypés pour iPSYCH1 et iPSYCH2, en utilisant des procédures standard pour les données GWAS. Les échantillons iPSYCH1 ont été génotypés au cours de 23 vagues de génotypage et des mesures supplémentaires ont donc été prises pour éliminer les effets potentiels de lots. Seuls les variants présents dans plus de 20 vagues et sans association significative avec le statut des vagues ont été retenus. L’imputation a été effectuée à l’aide de l’approche par étapes de pré-phase/imputation mise en œuvre dans EAGLE v2.3.5.48 et Minimac49 en utilisant le Consortium de référence des haplotypes50 panneau v1.0. GWAS de 4 733 cas EUR et 95 657 témoins et a été réalisée sur un ensemble fusionné de génotypes les plus probables avec un MAF de 0,01 et un score d’information d’imputation de 0,8 (dans iPSYCH1 et iPSYCH2) en utilisant une régression logistique avec des covariables appropriées (âge, sexe, diagnostics psychiatriques (attention trouble d’hyperactivité déficitaire, trouble du spectre autistique, SCZ, trouble bipolaire et TDM), dix premiers contrôles positifs et cohorte d’origine iPSYCH). Une nouvelle tranche Yale – Penn a été analysée à l’aide de PLINK 1.9 chez des individus non apparentés qui n’étaient auparavant inclus dans aucun autre GWAS ou méta-analyse. Cela a contribué à 310 cas et 1 471 contrôles (EUR) et 271 cas et 666 contrôles (AFR). Enfin, MGH Partners BioBank51 ont contribué à 456 cas et 24 088 contrôles (EUR).

Les cohortes EUR ont été combinées dans une méta-analyse GWAS (Tableau 1). Pour AFR, nous avons effectué une méta-analyse entre les cohortes MVP, PGC et Yale – Penn. Pour AMR et EAS, seul MVP incluait des données, donc aucune méta-analyse n’était possible au sein de ces ascendances. Les méta-analyses GWAS ont été réalisées en utilisant une pondération de variance inverse dans METAL52 pour l’EUR et l’AFR. Pour les méta-analyses intra-ascendantes, il y a eu 42 281 cas EUR avec 843 744 contrôles et 19 065 cas AFR avec 104 143 contrôles. La méta-analyse multi-ascendance53comprenait 1 044 620 participants au total d’ascendance EUR, AFR, AMR et EAS. Une analyse stratifiée selon le sexe a été réalisée dans la seule cohorte GWAS individuelle disponible pour l’analyse : le MVP (Figure 7 supplémentaire).

Héritabilité basée sur LDSC et SNP

LDSC a été utilisé pour calculer l’héritabilité basée sur le SNP sur l’échelle de responsabilité, en utilisant une prévalence de population à vie54 de 2 % et une prévalence d’échantillon de 5 % pour l’EUR, 13,2 % pour l’AFR et 7,2 % pour l’AMR au sein du MVP55 . Nous avons utilisé la prévalence de la population au cours de la vie rapportée dans l’article sur le cannabis PGC/deCODE/iPSYCH1.dix à des fins de comparabilité. En règle générale, le calcul de l’héritabilité basée sur le SNP dépend d’une ascendance de référence fiable pour tenir compte de la non-indépendance d’une certaine variance due au LD. Cela se fait facilement pour l’EUR, mais le mélange d’ascendances non européennes pose un défi statistique. Covariable LDSC12 utilise des covariables d’échantillon telles que celles dérivées de l’analyse en composantes principales (une technique de réduction de dimension qui produit des valeurs propres pour chaque variante) effectuées dans l’échantillon d’étude pour ajuster les scores LD afin de permettre le calcul de l’héritabilité du SNP dans chaque ascendance à l’aide des scores LD spécifiques à l’échantillon. LDSC tel que mis en œuvre par le laboratoire virtuel Complex Traits Genomics56a été utilisé pour estimer les corrélations génétiques57 pour identifier l’architecture génétique commune à l’ensemble des 1 335 caractères disponibles à des fins de comparaison. De plus, le LDSC a été utilisé pour comparer les corrélations génétiques entre CanUD et la consommation de cannabis (d’après une étude précédemment publiée).18).

Corrélation génétique croisée

POPCORN19a été utilisé pour générer des scores de covariance inter-ascendance à l’aide de panels de référence 1KG d’EUR et d’AFR. Cette méthode a été appliquée pour calculer les corrélations génétiques entre l’AFR CanUD généré dans cette étude et les traits de la figure 2 qui avaient des fréquences alléliques disponibles et n compter.

Randomisation mendélienne

Plusieurs traits présentant une corrélation génétique significative avec CanUD et une grande importance pour la santé publique ont été sélectionnés pour une analyse IRM de suivi dans les ensembles de données d’ascendance EUR (« type d’activité physique au cours des quatre dernières semaines = aucune », douleur chronique multisite, maladie d’Alzheimer, SCZ et cancer du poumon). Ces caractères ont d’abord été testés pour déterminer leur chevauchement polygénique avec CanUD ; un trait n’a pas survécu à cette étape (la maladie d’Alzheimer) et les trois traits restants ont été soumis à l’analyse IRM. La RM a été réalisée à l’aide du package TwoSampleMR dans R Studio58. Nous avons effectué une analyse MR Egger pour tester l’effet de la pléiotropie horizontale.

Analyse conditionnelle

mtCOJO a été réalisé pour étudier une éventuelle confusion entre le tabagisme et le CanUD. Les statistiques récapitulatives GWAS sur l’initiation au tabagisme et le nombre de cigarettes par jour provenant de l’étude de phase 2 de GWAS et du Sequencing Consortium of Alcohol and Nicotine use sur l’ascendance EUR ont été utilisées pour le tabagisme.20 . Les données GWAS CanUD (trait cible) ont été conditionnées sur l’initiation au tabagisme et le nombre de cigarettes par jour (traits covariables) individuellement à l’aide de l’utilitaire mtCOJO d’analyse des traits complexes à l’échelle du génome.59 . Les statistiques récapitulatives de sortie du CanUD conditionné ont ensuite été utilisées pour tester à nouveau la relation MR entre CanUD et le cancer du poumon.

Étude d’association à l’échelle du transcriptome

Études d’association à l’échelle du transcriptome (TWAS) et FUSION60 des logiciels ont été utilisés pour utiliser des associations d’expression variant-gène afin d’enrichir les découvertes de variants GWAS pour les gènes impliqués dans CanUD. Les modèles TWAS ont été formés à l’aide de preuves publiées antérieurement sur l’expression génique du cortex cérébral adulte.33(1 695 échantillons ; 14 750 modèles) et cortex frontal cérébral fœtal34(201 échantillons ; 3 784 gènes), chaque gène ayant une valeur estimée positive cis-héritabilité au nominal P.< 0,01 et le modèle prédictif correspondant réalisant une validation croisée quintuplée R.20,01 à une valeur nominale P.< 0,01. Utilisation d'un test de charge pondéré60nous avons généré un type Wald Zscore pour chaque association gène-trait, avec une signification à l’échelle du transcriptome définie à P.< 2,5 × 106, le niveau de signification corrigé par Bonferroni sur 20 000 tests. Pour garantir un bon alignement sur l’ascendance génétique des cohortes eQTL et GWAS, nous utilisons un panel de référence composé d’individus EUR en 1KG.61. Les échantillons TWAS n’incluaient aucune vérification de CanUD…