Nvidia présente un modèle d’IA capable de modifier les voix et de générer de nouveaux sons
Par Stephen Nellis
(Reuters) – Nvidia a présenté lundi un nouveau modèle d’intelligence artificielle permettant de générer de la musique et de l’audio, capable de modifier les voix et de générer de nouveaux sons – une technologie destinée aux producteurs de musique, de films et de jeux vidéo.
Nvidia, le plus grand fournisseur mondial de puces et de logiciels utilisés pour créer des systèmes d’IA, a déclaré qu’il n’envisageait pas dans l’immédiat de rendre publique cette technologie, qu’il appelle Fugatto, abréviation de Foundational Generative Audio Transformer Opus 1.
Il rejoint d’autres technologies présentées par des startups telles que Runway et des acteurs plus importants tels que les méta-plateformes qui peuvent générer de l’audio ou de la vidéo à partir d’une invite de texte.
La version de Nvidia, basée à Santa Clara, en Californie, génère des effets sonores et de la musique à partir d’une description textuelle, y compris de nouveaux sons tels que l’aboiement d’une trompette comme un chien.
Ce qui la différencie des autres technologies d’IA est sa capacité à intégrer et à modifier l’audio existant, par exemple en prenant une ligne jouée sur un piano et en la transformant en une ligne chantée par une voix humaine, ou en prenant un enregistrement de parole et en la modifiant. l’accent utilisé et l’humeur exprimée.
« Si nous pensons à l’audio synthétique au cours des 50 dernières années, la musique sonne différemment aujourd’hui à cause des ordinateurs et des synthétiseurs », a déclaré Bryan Catanzaro, vice-président de la recherche appliquée sur l’apprentissage profond chez Nvidia. « Je pense que l’IA générative va apporter de nouvelles capacités à la musique, aux jeux vidéo et aux gens ordinaires qui veulent créer des choses. »
Alors que des sociétés telles qu’OpenAI négocient avec les studios hollywoodiens pour savoir si et comment l’IA pourrait être utilisée dans l’industrie du divertissement, la relation entre la technologie et Hollywood est devenue tendue, en particulier après que la star hollywoodienne Scarlett Johansson a accusé OpenAI d’imiter sa voix.
Le nouveau modèle de Nvidia a été formé sur des données open source, et la société a déclaré qu’elle débattait toujours de l’opportunité et de la manière de le rendre public.
« Toute technologie générative comporte toujours certains risques, car les gens peuvent l’utiliser pour générer des choses que nous préférerions qu’ils ne fassent pas », a déclaré Catanzaro. « Nous devons être prudents à ce sujet, c’est pourquoi nous n’avons pas l’intention de publier cela dans l’immédiat. »
Les créateurs de modèles d’IA générative doivent encore déterminer comment empêcher les abus de la technologie, par exemple lorsqu’un utilisateur génère de la désinformation ou viole des droits d’auteur en générant des caractères protégés par le droit d’auteur.
De même, OpenAI et Meta n’ont pas précisé quand ils envisageaient de rendre publics leurs modèles générant de l’audio ou de la vidéo.
(Reportage de Stephen Nellis à San Francisco ; édité par Will Dunham)