L’IA découvre 161 000 nouveaux virus
Résumé: Une nouvelle étude utilisant l’IA a découvert 161 979 nouveaux virus à ARN, élargissant considérablement notre compréhension de la diversité virale de la Terre. Ces découvertes ont été réalisées en analysant des données génétiques à l’aide d’un modèle d’apprentissage automatique, qui a permis d’identifier des virus jusqu’alors méconnus cachés dans des bases de données publiques.
Les résultats révèlent une vaste gamme de virus dans des environnements extrêmes à travers le monde, démontrant la résilience et l’adaptabilité des virus à ARN. Cette recherche ouvre la voie à une exploration plus approfondie de la diversité virale et microbienne, remodelant potentiellement la manière dont les scientifiques étudient les écosystèmes terrestres.
Faits clés
- L’IA a identifié plus de 161 000 nouvelles espèces de virus à ARN à partir de données génétiques.
- Des virus ont été trouvés dans des environnements extrêmes, soulignant leur adaptabilité.
- Cette étude constitue la plus grande découverte virale à ce jour, élargissant considérablement les connaissances sur la diversité virale.
Source: Université de Sydney
L’intelligence artificielle (IA) a été utilisée pour révéler les détails d’une branche diversifiée et fondamentale de la vie vivant juste sous nos pieds et aux quatre coins du globe.
161 979 nouvelles espèces de virus à ARN ont été découvertes à l’aide d’un outil d’apprentissage automatique qui, selon les chercheurs, améliorera considérablement la cartographie de la vie sur Terre et pourrait aider à l’identification de plusieurs millions de virus supplémentaires encore à caractériser.
Publié dans Cellule et menée par une équipe internationale de chercheurs, l’étude est le plus grand article sur la découverte d’espèces virales jamais publié.
« On nous a offert une fenêtre sur une partie autrement cachée de la vie sur Terre, révélant une biodiversité remarquable », a déclaré le professeur Edwards Holmes, auteur principal, de l’École des sciences médicales de la Faculté de médecine et de santé de l’Université de Sydney.
« Il s’agit du plus grand nombre de nouvelles espèces de virus découvertes dans une seule étude, ce qui élargit considérablement nos connaissances sur les virus qui vivent parmi nous », a déclaré le professeur Holmes.
« Trouver autant de nouveaux virus d’un seul coup est époustouflant, et cela ne fait qu’effleurer la surface, ouvrant un monde de découvertes. Il y en a des millions d’autres à découvrir, et nous pouvons appliquer cette même approche pour identifier les bactéries et les parasites.
Bien que les virus à ARN soient généralement associés aux maladies humaines, on les trouve également dans des environnements extrêmes partout dans le monde et ils pourraient même jouer un rôle clé dans les écosystèmes mondiaux. Dans cette étude, ils vivaient dans l’atmosphère, les sources chaudes et les sources hydrothermales.
« Le fait que les environnements extrêmes abritent autant de types de virus n’est qu’un autre exemple de leur diversité phénoménale et de leur ténacité à vivre dans les environnements les plus difficiles, ce qui pourrait nous donner des indices sur la façon dont les virus et autres formes de vie élémentaires sont apparus », a déclaré le professeur Holmes.
COMMENT FONCTIONNE L’OUTIL D’IA
Les chercheurs ont construit un algorithme d’apprentissage profond, LucaProt, pour calculer de vastes quantités de données sur les séquences génétiques, y compris de longs génomes de virus comprenant jusqu’à 47 250 nucléotides et des informations génomiquement complexes pour découvrir plus de 160 000 virus.
« La grande majorité de ces virus avaient déjà été séquencés et se trouvaient dans des bases de données publiques, mais ils étaient si divergents que personne ne savait de quoi il s’agissait », a déclaré le professeur Holmes.
«Ils comprenaient ce que l’on appelle souvent la séquence de «matière noire». Notre méthode d’IA a pu organiser et catégoriser toutes ces informations disparates, mettant pour la première fois en lumière la signification de cette matière noire.
L’outil d’IA a été formé pour calculer la matière noire et identifier les virus sur la base de séquences et de structures secondaires de la protéine que tous les virus à ARN utilisent pour la réplication.
Il a pu accélérer considérablement la découverte de virus, ce qui, si l’on utilisait des méthodes traditionnelles, prendrait beaucoup de temps.
Co-auteur de l’Université Sun Yat-sen, responsable institutionnel de l’étude, le professeur Mang Shi a déclaré : « Nous avions l’habitude de nous appuyer sur des pipelines bioinformatiques fastidieux pour la découverte de virus, ce qui limitait la diversité que nous pouvions explorer.
« Nous disposons désormais d’un modèle basé sur l’IA beaucoup plus efficace, qui offre une sensibilité et une spécificité exceptionnelles, tout en nous permettant d’approfondir beaucoup plus la diversité virale. Nous prévoyons d’appliquer ce modèle à diverses applications.
Le co-auteur, le Dr Zhao-Rong Li, qui effectue des recherches au laboratoire Apsara d’Alibaba Cloud Intelligence, a déclaré : « LucaProt représente une intégration significative de la technologie de pointe de l’IA et de la virologie, démontrant que l’IA peut accomplir efficacement des tâches d’exploration biologique.
« Cette intégration fournit des informations précieuses et un encouragement pour un décodage plus approfondi des séquences biologiques et la déconstruction des systèmes biologiques dans une nouvelle perspective. Nous poursuivrons également nos recherches dans le domaine de l’IA pour la virologie.
Le professeur Holmes a déclaré : « La prochaine étape évidente consiste à entraîner notre méthode pour trouver encore plus de cette incroyable diversité, et qui sait quelles surprises supplémentaires nous réservent. »
Financement: Les chercheurs ne déclarent aucun intérêt concurrent. La recherche a été soutenue par la Fondation nationale des sciences naturelles de Chine, le programme scientifique et technologique de Shenzhen, la Fondation des sciences naturelles de la province du Guangdong, le projet d’équipe d’innovation et d’entrepreneuriat « Pearl River Talent Plan » de la province du Guangdong, le Fonds d’innovation et de technologie de Hong Kong. (ITF) et le Fonds pour la santé et la recherche médicale. Le professeur Holmes est financé par une subvention de chercheur du Conseil national de la santé et de la recherche médicale d’Australie et par AIR@InnoHK administré par la Commission de l’innovation et de la technologie, région administrative spéciale de Hong Kong, Chine.
À propos de cette actualité de la recherche en intelligence artificielle et génétique
Auteur: Luisa Faible
Source: Université de Sydney
Contact: Luisa Low – Université de Sydney
Image: L’image est créditée à Neuroscience News
Recherche originale : Accès libre.
« Utiliser l’intelligence artificielle pour documenter la virosphère cachée» par Edwards Holmes et coll. Cellule
Abstrait
Utiliser l’intelligence artificielle pour documenter la virosphère cachée
Les outils métagénomiques actuels peuvent échouer à identifier des virus à ARN très divergents. Nous avons développé un algorithme d’apprentissage en profondeur, appelé LucaProt, pour découvrir des séquences d’ARN polymérase (RdRP) ARN-dépendantes très divergentes dans 10 487 métatranscriptomes générés à partir de divers écosystèmes mondiaux.
LucaProt intègre à la fois des informations de séquence et des informations structurelles prédites, permettant la détection précise des séquences RdRP.
Grâce à cette approche, nous avons identifié 161 979 espèces potentielles de virus à ARN et 180 supergroupes de virus à ARN, dont de nombreux groupes auparavant peu étudiés, ainsi que des génomes de virus à ARN d’une longueur exceptionnelle (jusqu’à 47 250 nucléotides) et d’une complexité génomique. Un sous-ensemble de ces nouveaux virus à ARN a été confirmé par RT-PCR et séquençage ARN/ADN.
Les virus à ARN récemment découverts étaient présents dans divers environnements, notamment l’air, les sources chaudes et les sources hydrothermales, la diversité et l’abondance des virus variant considérablement selon les écosystèmes.
Cette étude fait progresser la découverte des virus, met en évidence l’échelle de la virosphère et fournit des outils informatiques pour mieux documenter le virome global de l’ARN.