À l’heure actuelle, quiconque suit des recherches sur l’IA connaît depuis longtemps les modèles génératifs capables de synthétiser la parole ou la musique mélodique à partir de simples invites textuelles. de Nvidia modèle « Fugatto » récemment révélé cherche à aller plus loin, en utilisant de nouvelles méthodes d’entraînement synthétiques et des techniques de combinaison au niveau de l’inférence pour « transformer n’importe quel mélange de musique, de voix et de sons », y compris la synthèse de sons qui n’ont jamais existé.
Bien que Fugatto ne soit pas encore disponible pour les tests publics, un site Web rempli d’échantillons montre comment Fugatto peut être utilisé pour composer un certain nombre de caractéristiques et de descriptions audio distinctes vers le haut ou vers le bas, ce qui donne lieu à tout, du son des saxophones qui aboient aux personnes parlant sous l’eau en passant par les sirènes d’ambulance chantant dans une sorte de chorale. Bien que les résultats affichés puissent être un peu aléatoires, la vaste gamme de capacités exposées ici contribue à soutenir la description de Fugatto par Nvidia comme « un couteau suisse pour le son ».
Votre valeur dépend de vos données
Dans un document de recherche explicatifplus d’une douzaine de chercheurs de Nvidia expliquent la difficulté de créer un ensemble de données de formation capable de « révéler des relations significatives entre l’audio et le langage ». Alors que les modèles de langage standard peuvent souvent déduire comment gérer diverses instructions à partir des données textuelles elles-mêmes, il peut être difficile de généraliser les descriptions et les caractéristiques de l’audio sans des conseils plus explicites.
À cette fin, les chercheurs commencent par utiliser un LLM pour générer un script Python capable de créer un grand nombre d’instructions basées sur des modèles et de forme libre décrivant différents « personnages » audio (par exemple, « standard, jeune public, trentenaires). , professionnel »). Ils génèrent ensuite un ensemble d’instructions à la fois absolues (par exemple « synthétiser une voix joyeuse ») et relatives (par exemple « augmenter le bonheur de cette voix ») qui peuvent être appliquées à ces personnages.
Le large éventail d’ensembles de données audio open source utilisés comme base pour Fugatto ne contiennent généralement pas ce type de mesures de traits intégrées par défaut. Mais les chercheurs utilisent des modèles de compréhension audio existants pour créer des « sous-titres synthétiques » pour leurs clips de formation en fonction de leurs invites, créant ainsi des descriptions en langage naturel capables de quantifier automatiquement des caractéristiques telles que le sexe, l’émotion et la qualité de la parole. Des outils de traitement audio sont également utilisés pour décrire et quantifier des clips d’entraînement à un niveau plus acoustique (par exemple « variance de fréquence fondamentale » ou « réverbération »).