Il existe environ 7 000 langues dans le monde, mais les modèles de reconnaissance vocale existants n’en couvrent qu’environ 100 de manière exhaustive. En effet, ces types de modèles ont tendance à nécessiter d’énormes quantités de données de formation étiquetées, qui ne sont disponibles que pour un petit nombre de langues, dont l’anglais, l’espagnol et le chinois.

Les méta-chercheurs ont contourné ce problème en recyclant un modèle d’IA existant développé par la société en 2020, capable d’apprendre des modèles de parole à partir de l’audio sans nécessiter de grandes quantités de données étiquetées, telles que des transcriptions.

Ils l’ont formé sur deux nouveaux ensembles de données : l’un contenant des enregistrements audio de la Bible du Nouveau Testament et son texte correspondant extrait d’Internet en 1 107 langues, et un autre contenant des enregistrements audio non étiquetés du Nouveau Testament en 3 809 langues. L’équipe a traité l’audio de la parole et les données textuelles pour améliorer sa qualité avant d’exécuter un algorithme conçu pour aligner les enregistrements audio avec le texte d’accompagnement. Ils ont ensuite répété ce processus avec un deuxième algorithme formé sur les données nouvellement alignées. Avec cette méthode, les chercheurs ont pu enseigner l’algorithme pour apprendre plus facilement une nouvelle langue, même sans le texte d’accompagnement.

« Nous pouvons utiliser ce que ce modèle a appris pour construire rapidement des systèmes vocaux avec très, très peu de données », explique Michael Auli, chercheur à Meta qui a travaillé sur le projet.

« Pour l’anglais, nous avons beaucoup, beaucoup de bons ensembles de données, et nous l’avons pour quelques langues supplémentaires, mais nous n’avons tout simplement pas cela pour les langues parlées par, disons, 1 000 personnes. »

Les chercheurs affirment que leurs modèles peuvent converser dans plus de 1 000 langues mais en reconnaissent plus de 4 000.

Ils ont comparé les modèles avec ceux d’entreprises concurrentes, dont OpenAI Whisper, et affirment que le leur avait un taux d’erreur deux fois moins élevé, bien qu’il couvre 11 fois plus de langues.

Cependant, l’équipe avertit que le modèle risque toujours de mal transcrire certains mots ou phrases, ce qui pourrait entraîner des étiquettes inexactes ou potentiellement offensantes. Ils reconnaissent également que leurs modèles de reconnaissance vocale ont produit plus de mots biaisés que les autres modèles, mais seulement 0,7 % de plus.

Bien que la portée de la recherche soit impressionnante, l’utilisation de textes religieux pour former des modèles d’IA peut être controversée, explique Chris Emezue, chercheur à Masakhane, une organisation travaillant sur le traitement du langage naturel pour les langues africaines, qui n’était pas impliquée dans le projet. .

« La Bible contient beaucoup de préjugés et de fausses déclarations », dit-il.