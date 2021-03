Dans un pays comme l’Inde, où les connexions Internet ne sont pas les plus puissantes partout, la culture du travail / étude à distance a entraîné un problème d’appels vidéo de mauvaise qualité vers de nombreuses personnes dans le pays. Étant donné que les entreprises de technologie sont conscientes de ce problème non seulement en Inde, mais dans d’autres régions du monde, des entreprises comme Google utilisent des techniques de compression pour offrir la meilleure qualité vidéo et audio possible pendant les appels vidéo. Google teste actuellement un nouveau codec qui vise à améliorer considérablement la qualité audio sur des connexions réseau faibles.

L’équipe Google AI a détaillé son nouveau codec vocal de haute qualité à faible débit qu’elle a nommé «Lyra». Comme d’autres codecs paramétriques comme celui-ci, l’architecture de base de Lyra implique également l’extraction d’attributs vocaux (également appelés «caractéristiques») sous la forme de spectogrammes log mel qui sont ensuite compressés, transmis sur le réseau, puis recréés à l’autre extrémité à l’aide d’un générateur. maquette. Cependant, contrairement à d’autres codecs plus traditionnels, Lyra utilise un nouveau modèle de génération audio de haute qualité qui non seulement extrait les paramètres verbaux, mais est également capable de reconstruire la parole en utilisant un minimum de données.

Le nouveau modèle, selon un article de blog Google, est construit sur les travaux antérieurs de Google sur WaveNetEQ, le système de dissimulation de perte de paquets basé sur un modèle actuellement utilisé dans Google Duo. La société affirme que la nouvelle approche a rendu Lyra à égalité avec les codecs de forme d’onde de pointe dans de nombreuses plates-formes de diffusion et de communication d’aujourd’hui. L’avantage de Lyra par rapport à ces codecs de forme d’onde est que Lyra n’envoie pas le signal échantillon par échantillon, ce qui nécessite un débit binaire plus élevé. Il utilise à la place un «modèle génératif récurrent moins cher» qui fonctionne «à une fréquence inférieure» mais génère plusieurs signaux à différentes plages de fréquences en parallèle qui sont ensuite combinés «en un seul signal de sortie à la fréquence d’échantillonnage souhaitée». Google affirme que l’exécution du modèle régénératif sur un appareil de milieu de gamme en temps réel produit une latence de traitement de 90 ms, ce qui, selon Google, est conforme à d’autres codes vocaux traditionnels.

Google affirme avoir formé Lyra avec des milliers d’heures d’audio avec des haut-parleurs dans plus de 70 langues à l’aide de bibliothèques audio open source, puis en vérifiant la qualité audio avec des auditeurs experts et crowdsourcing. Ceci, s’il est associé au codec AV1 pour la vidéo, peut permettre des chats vidéo même avec un modem commuté 56 kbps. En effet, Lyra est conçu pour fonctionner sur des environnements à faible bande passante comme 3 kbps.