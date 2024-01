Modèle de données au niveau individuel

Laisser oui être le phénotype quantitatif, supposé standardisé, d’un individu. Nous supposons que oui dépend des expressions génétiques imputées et des variantes de génotypes de l’individu. Nous désignons X j l’expression du gène j, \(\tildeX_j\)comme c’est cis-composante génétique, et g m le génotype de la variante m. Nous supposons que \(\tildeX_j\) est donné, imputé à partir d’un modèle de prédiction d’expression pré-entraîné, et les erreurs/incertitudes d’imputation seraient ignorées. Nous avons le modèle de régression suivant :

$$y=\mathop\sum\limits_j\beta _j\tildeX_j+\mathop\sum\limits_m\theta _mG_m+\epsilon ,$$ (1)

où β j et θ m sont les tailles d’effet de l’expression des gènes j et la variante mrespectivement. ϵ est un terme d’erreur normalement distribué, c’est-à-dire ϵ ∼ N(0, σ2), et est supposée indépendante d’un individu à l’autre. En pratique, nous standardisons les deux \(\tildeX_j\) et g m pour rendre la variance égale à 1 pour tous les gènes et variantes.

Pour obtenir les expressions imputées, nous utilisons des modèles de prédiction d’expression existants. Plus précisément, l’expression imputée d’un gène j est défini comme ∑ je w jje g je où g je est le génotype de la variante jeet w jje est le poids du jeème variante du gène jLe modèle de prédiction d’expression de . Nous supposons que ces poids sont donnés à l’échelle standardisée, c’est-à-dire qu’ils ont été dérivés à l’aide de génotypes variantes standardisés. C’est le cas des modèles d’expression FUSION (http://gusevlab.org/projects/fusion/). Lorsque les poids fournis ne figurent pas sur l’échelle standardisée, par exemple à partir de PredictDB (https://predictdb.org/), ces poids doivent être mis à l’échelle. Cela peut être fait en multipliant les poids par les variances du génotype par rapport à la référence LD.

Nous spécifions différentes distributions a priori des effets des gènes β j ‘s et effets variables θ m ‘s. Pour décrire ces a priori, nous notons que notre modèle est un cas particulier d’un modèle de régression plus général, dans lequel les variables explicatives proviennent de plusieurs groupes avec différentes distributions de tailles d’effet.

On écrit le modèle général avec K groupes de variables explicatives comme

$$y=\mathop\sum \limits_k=1^K\,\mathop\sum\limits_j\in M_k\beta _j X_j+\epsilon ,$$ (2)

où X j est jla variable explicative et j ∈ M. k indique qu’il appartient au groupe k. Dans notre cas, le modèle comporte deux groupes de variables : les expressions génétiques imputées et les variantes génétiques. Pour simplifier la notation, nous utiliserons ce modèle général dans nos discussions suivantes. Nous attribuons une distribution a priori en pointes et en dalles pour l’effet de la variable j, avec des paramètres antérieurs spécifiques au groupe. Plus précisément, lorsque j ∈ M. k nous désignons y j un indicateur indiquant si X j a un effet non nul

$$\beginarrayrcl\gamma _j& \sim &\,\mboxBernoulli\,(\pi _k)\\ \beta _j| \gamma _j=1& \sim &N(0,\sigma _k^2)\\ \beta _j| \gamma _j=0& \sim &\delta _0.\endarray$$ (3)

Ici δ 0 est la fonction delta de Dirac,π k = P.( y j = 1∣j ∈ M. k ) est la probabilité a priori du jème variable du groupe k être occasionnel au trait (effet non nul) et \(\sigma _k^2\) est la variance a priori de la taille de l’effet des variables causales dans le groupe k.

Inférence du modèle au niveau individuel

L’inférence comporte deux étapes principales. Dans un premier temps, nous estimons les paramètres a priori \(\bf\theta =\\pi _k,\sigma _k^2,k\in \1,2\\\) pour les deux groupes, effets génétiques et effets variantes. Dans la deuxième étape, nous utilisons l’estimation θet calculons le PIP de chaque variable, défini comme la probabilité a posteriori dey j = 1 compte tenu de toutes les données et paramètres.

L’estimation des paramètres se fait par maximum de vraisemblance. Laisser oui n×1 être les données de la variable de réponse, où n est la taille de l’échantillon. Laisser X n× p =[X 1 X 2 …X p ]être les données de tous lesp variables explicatives. La vraisemblance de notre modèle est donnée par

$$L(\bf\theta ;\bfX,\bfy,\sigma )=P(\bfy| \bfX,\bf\theta ,\sigma )=\mathop\sum\limits_\bf\GammaP(\bfy| \bfX,\bf\Gamma,\theta,\sigma )P(\ bf\Gamma | \bf\theta ),$$ (4)

où Γ=[γ 1 , γ 2 , …, γ p ]représente la « configuration » du statut causal (effet non nul) de toutes les variables. On remarque que σ est l’écart type de la variance phénotypique et est supposé donné (voir ci-dessous). Pour maximiser la vraisemblance, nous utilisons l’algorithme de maximisation des attentes (EM). Dans l’étape E, nous obtenons l’espérance de log-vraisemblance sur Γ, \(\mathbbE_\bf\Gamma \log P(\bfX,\bfy ,{{\bf\Gamma }}| \bf\theta ^{

(5)