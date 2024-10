Présenté dans un article récent, Spirit LM permet la création de pipelines mêlant texte parlé et écrit intégrer la parole et le texte dans un même modèle multimodal. Selon Meta, leur nouvelle approche, basée sur l’entrelacement de texte et de jetons vocaux, permet de contourner les limitations inhérentes aux solutions antérieures qui utilisent des pipelines distincts pour la parole et le texte.

Le nouveau modèle de Meta est basé sur un modèle de langage texte uniquement pré-entraîné 7B (Llama 2) étendu pour inclure la parole. Dans ce but, le modèle est continuellement entraîné sur les unités textuelles et vocales.

Les séquences de parole et de texte sont concaténées en un seul flux de jetons et entraînées avec une méthode d’entrelacement au niveau des mots à l’aide d’un petit corpus parallèle parole-texte organisé automatiquement.

Selon Meta, Spirit LM réunit les capacités sémantiques que vous attendez des LLM textuels et les capacités expressives des modèles vocaux. Cependant, comme nous l’expliquerons plus tard, les performances de Spirit LM en mode texte uniquement sont actuellement légèrement inférieures à celles de Llama 2.

L’approche habituelle pour étendre les LLM afin de prendre en charge l’entrée et la sortie vocales, expliquent les chercheurs de Meta, consiste à construire un pipeline dans lequel la parole est transcrite en utilisant la reconnaissance automatique de la parole (ASR) en texte, qui est ensuite introduit dans un LLM, dont la sortie est finalement convertie en texte. discours. C’est l’approche adoptée par GPT-4o et EVI 2 de Hume, qui prétendent également pouvoir générer une voix émotionnellement infléchie. Cependant, disent les chercheurs de Meta :

Avec de tels pipelines, la modélisation et la génération de discours expressifs sont contraintes en dehors du modèle linguistique, conduisant à une génération médiocre d’un point de vue expressif.

Spirit LM est plutôt formé sur un mélange de séquences de texte uniquement, de séquences vocales uniquement et de séquences entrelacées. La parole est convertie en jetons qui représentent les unités phonétiques (HuBERT) ainsi que les unités de hauteur et de style. Cela permet de créer des séquences de formation entrelacées en passant de manière aléatoire de la modalité texte à la modalité vocale aux limites des mots.

L’une des principales découvertes de la recherche de Meta est que Spirit LM peut apprendre de nouvelles tâches, de la même manière que les LLM textuels, et est capable de préserver le sentiment des invites textuelles et vocales. Cette dernière affirmation est basée sur une nouvelle référence introduite par les chercheurs Meta, baptisée Speech-Text Sentiment Preservation, qui consiste à générer une séquence vocale ou textuelle de jetons et à vérifier si elle préserve le sentiment de l’invite, pré-classée comme affichant un positif, sentiment négatif ou neutre.

Comme mentionné, selon les chercheurs eux-mêmes, Spirit LM ne fonctionne pas aussi bien que le modèle de base Llama 2 pour les invites textuelles, ce qui est une limitation qu’ils espèrent résoudre en affinant la formation. Un autre front d’évolution pour Spirit LM consiste à adopter un modèle plus grand comme base, ce qui pourrait conduire à une nouvelle amélioration des performances.

Pour conclure, Spirit LM est un modèle fondamental et n’inclut donc aucune disposition pour le protéger contre les utilisations abusives, telles que la génération de fausses nouvelles, de spam ou l’usurpation d’identité d’intervenants spécifiques. De même, Spirit LM est uniquement formé pour l’anglais et n’inclut pas une variété d’accents et de dialectes pour les groupes sous-représentés.

Spirit LM est disponible en deux versions. Le base La version utilise uniquement des unités phonétiques vocales (HuBERT) tandis que la expressif la version utilise également des unités de hauteur et de style. Le modèle est disponible sur GitHub avec son poidsmais c’est la licence autorise uniquement une utilisation non commerciale.