Nous avons noté la probabilité du modèle en utilisant des tests expérimentaux de la fonction protéique. Nous avons constaté que si une paire de bases a une grande probabilité sous EVO, alors cette paire de bases est susceptible de préserver ou d’améliorer la fonction de la protéine. Mais si cette paire de bases a une faible probabilité, alors mettre cette paire de bases dans une séquence de protéines détruira probablement la fonction.
Nous avons également comparé les résultats du modèle à ceux des modèles de langage protéique de pointe. Nous avons constaté qu’EVO correspondait aux performances des modèles de protéines, bien qu’il n’ait jamais vu de séquence de protéines. Ce fut la première indication que, OK, peut-être que nous étions sur quelque chose.
Qu’avez-vous demandé d’autre à faire?
Nous l’avons utilisé pour générer des séquences d’ADN, tout comme Chatgpt peut générer du texte. Un de mes étudiants, Brian Kang, m’a aidé à affiner le modèle EVO sur l’ADN qui a codé pour une protéine ainsi qu’au moins une molécule d’ARN; Ils se connectent ensemble pour créer un complexe appelé CRISPR-CAS. CRISPR-CAS brise l’ADN dans des endroits spécifiques, ce qui aide les bactéries à se défendre contre les virus. Les scientifiques les utilisent pour l’édition du génome.
Après avoir entraîné EVO sur plus de 70 000 séquences naturelles d’ADN pour le complexe CRISPR-CAS, nous lui avons demandé de générer le système complet dans le code ADN. Pour 11 de ses suggestions, nous avons commandé les séquences d’ADN à une entreprise et les avons utilisées pour créer les complexes CRISPR-CAS dans le laboratoire et tester leur fonction.
L’un d’eux a fonctionné. Nous considérons cela un pilote très réussi. Avec des workflows de conception de protéines typiques, vous aurez la chance de trouver une protéine de travail pour les 100 séquences testées.
Dans quelle mesure la séquence réussie a-t-elle fonctionné?
Il fait ainsi que le système CAS de pointe. Si vous plissez un peu, peut-être qu’il a un peu plus rapide [cutting of the DNA strand].
Cela a-t-il déjà été fait auparavant?
C’est une tâche très compliquée. L’enzyme CAS est trop longue pour que les modèles de langage protéique actuels soient traités. De plus, un modèle protéique n’a pas pu générer l’ARN.
Quelle est la séquence d’ADN la plus longue que l’EVO a générée?
Le modèle a généré un million de jetons librement à partir de zéro – essentiellement, un génome bactérien entier. Si vous demandiez à Chatgpt de générer un million de jetons de texte, à un moment donné, il sortirait des rails. Il y aurait une structure grammaticale, mais elle ne produirait pas Wuthering Heights.
Le génome d’Evo avait également une structure. Il avait une densité similaire de gènes aux génomes naturels et des protéines qui se sont pliées comme des protéines naturelles. Mais cela n’a pas réussi à conduire un organisme car il manquait de nombreux gènes que nous savons être essentiels à la survie d’un organisme. Pour générer un génome cohérent, le modèle a besoin de la capacité de modifier son produit – pour corriger les erreurs, tout comme un écrivain humain le ferait pour un passage plus long de texte.
Quelles sont les autres limites d’Evo?
Ce n’est que le début. EVO est formé uniquement sur les génomes des organismes les plus simples, les procaryotes. Nous voulons l’étendre à des eucaryotes – des organismes tels que les animaux, les plantes et les champignons dont les cellules ont un noyau. Leurs génomes sont beaucoup plus compliqués.
EVO ne lit également que le langage de l’ADN, et l’ADN n’est qu’une partie de ce qui détermine les caractéristiques d’un organisme, son phénotype. L’environnement joue également un rôle. Ainsi, en plus d’avoir un bon modèle de génotype, nous aimerions construire un très bon modèle de l’environnement et sa connexion avec le phénotype.
J’ai trouvé que les chatbots LLM étaient sujets aux erreurs. Evo est-il plus exact?
Avec Chatgpt, vous voulez que cela obtienne les faits corrects. En biologie, ces hallucinations peuvent presque être une fonctionnalité et non un bug. Si une nouvelle séquence folle fonctionne dans la cellule, les biologistes pensent que c’est nouveau.
Mais Evo fait des erreurs. Il peut, par exemple, prédire une structure protéique d’une séquence qui se révèle erronée lorsque nous fabriquons la protéine en laboratoire. Pourtant, un humain serait presque sans valeur sur une tâche comme celle-ci. Aucun humain ne pouvait écrire, à partir de zéro, une séquence d’ADN qui se replierait dans un complexe CRISPR-Cas.
Où voyez-vous cette technologie mener en cinq ou 10 ans?
Nous allons repousser les limites de la conception biologique bien au-delà des molécules de protéines individuelles à des systèmes plus complexes impliquant de nombreuses protéines ou à des protéines liées à l’ARN ou à l’ADN. C’est le message de l’Evo Paper. Nous pourrions concevoir une voie synthétique qui produit un médicament à petite molécule avec une valeur thérapeutique ou qui dégrade en plastique ou en huile à partir de déversements.
Je m’attends également à ce que les modèles facilitent la découverte biologique. Lorsque vous séquencez un nouvel organisme de la nature, vous obtenez simplement l’ADN. Il est très difficile d’identifier quelles parties du génome correspondent à différentes fonctions. Si les modèles peuvent apprendre le concept, disons, un système de défense de phage ou une voie de biosynthèse, ils nous aideront à annoter et à découvrir de nouveaux systèmes biologiques dans les données de séquençage. L’algorithme parle couramment la langue, alors que les humains ne le sont pas.
Un modèle comme EVO présente-t-il des dangers?
Si le modèle était utilisé pour concevoir des virus, peut-être que ces virus pourraient être utilisés à des fins néfastes. Nous devrions avoir un moyen de veiller à ce que ces modèles soient utilisés pour de bon. Mais le niveau de biotechnologie est déjà suffisant pour créer des choses dangereuses. Ce que la biotechnologie ne peut pas encore faire, c’est nous protéger des choses dangereuses.
La nature crée des virus mortels tout le temps. Je pense que si nous élevons notre niveau de capacité technologique, cela aura un impact plus important sur notre capacité à nous défendre contre les menaces biologiques que sur la création de nouveaux.