Équipé d’un cerveau qui surpasse les ordinateurs : renforcer la coopération avec pour processeur

Dans ce deuxième épisode de la série, Samsung Newsroom s’est entretenu avec deux chefs de projet chez Samsung Electronics pour mieux comprendre le rôle du CPU et du NPU dans les appareils mobiles. L’unité centrale de traitement (CPU) d’un ordinateur est souvent comparée au cerveau humain, la plus grande partie de votre cerveau qui gère de nombreuses responsabilités. De même, le CPU est l’unité la plus importante qui gère les quatre fonctions principales d’un ordinateur, à savoir la mémoire, le décodage, le fonctionnement et le contrôle. Le processeur est le facteur qui détermine les performances globales d’un PC. De même, un processeur mobile exécute tous les logiciels sur un système d’exploitation (OS) et contrôle d’autres périphériques matériels, aidant un smartphone à fonctionner à son niveau optimal.

Les performances du processeur sont déterminées par divers facteurs, notamment la vitesse d’horloge,1 CIB2 et le nombre de cœurs.3 Les téléphones du passé étaient alimentés par un CPI monocœur avec une structure de pipeline simple. Par conséquent, il y avait des limites à la gestion du traitement parallèle et la fréquence maximale ne s’élevait qu’à quelques centaines de MHz. Cependant, le processeur des smartphones a aujourd’hui un superscalaire4 structure, lui permettant d’exécuter un traitement parallèle pour diverses commandes ou instructions. De plus, il peut fonctionner à une vitesse de 3 GHz, soit 3 milliards de cycles par seconde, et avoir huit structures multicœurs ou plus. Les processeurs mobiles ont désormais une microarchitecture qui pousse les performances au-delà des processeurs de bureau.

Le processeur d’Exynos est passé d’un gros noyau à un gros-petit puis à une grande-moyenne-petite structure pour garder sa taille petite et sa consommation d’énergie faible. La structure Big-Little est un concept d’architecture de traitement qui bascule dynamiquement entre deux types de cœurs — un grand et un petit — pour optimiser les performances ou maximiser l’efficacité énergétique, en fonction de la tâche. Par exemple, les performances du processeur nécessaires pour envoyer des SMS par rapport à jouer à un jeu 3D sont différentes. Par conséquent, lors de l’envoi d’un texte, le processus utilise un cœur plus petit et économe en énergie au lieu d’un cœur hautes performances.

« Le CPU détermine la compétitivité de tous les systèmes, y compris le SoC. C’est un domaine influent et la priorité absolue lorsqu’il s’agit de développer une technologie de semi-conducteur avancée », a déclaré Wookyeong Jeong, chef de projet de l’équipe de conception SoC 2, qui est en charge de toutes les tâches liées au processeur d’Exynos. Jeong a travaillé dans le domaine des CPU pendant plus de 20 ans depuis qu’il a rejoint Samsung.

« Atteindre des performances élevées avec un budget de puissance limité est essentiel », a déclaré Jeong. “Il est important d’utiliser différents types de cœurs de processeur, y compris gros, moyens et petits dans des combinaisons appropriées pour obtenir une efficacité maximale dans diverses situations.” Le processeur d’Exynos optimise une combinaison de cœurs activés pour offrir aux utilisateurs la meilleure expérience dans des situations nécessitant des performances élevées, telles que jouer à un jeu ou utiliser une caméra sur des appareils mobiles.

Basé sur l’IP de la société de conception de semi-conducteurs Arm, Samsung Electronics fait monter d’un cran les performances des processeurs. Lorsque Jeong a été interrogé sur les tâches spécifiques des développeurs de l’équipe, il a expliqué le rôle et les responsabilités de l’équipe.

“Nous décidons de l’objectif de performance pour le processeur d’un produit, acquérons l’adresse IP du processeur, prévoyons et examinons les performances, validons et effectuons le débogage5 avant la production en série et les étapes suivantes. Nous nous occupons du travail de développement global pour améliorer les performances du processeur », a expliqué Jeong. “Le System LSI Business est responsable de la conception du processeur RTL d’Arm pour créer une puce semi-conductrice optimale”, a déclaré Jeong. “L’équipe est également responsable de la conception et de la création du circuit périphérique du processeur, tel qu’un sous-système de mémoire approprié, pour maximiser les performances du processeur.”

«Avec l’adoption du processeur Arm, nous avons pour vision de devenir le meilleur fabricant de processeurs de l’industrie mobile en optimisant les logiciels non seulement au niveau de la puce, mais également au niveau de l’appareil. Notre objectif est de devenir un E2E6 fournisseur de solutions complètes », a déclaré Jeong lorsqu’il a été interrogé sur l’orientation future du développement de l’entreprise. “Pour atteindre cet objectif, les développeurs de processeurs ont travaillé en étroite collaboration avec Arm, les fabricants d’appareils, Samsung Foundry et d’autres en une seule équipe depuis les premières étapes du développement. En outre, ils recherchent diverses façons d’améliorer les performances, telles que la technologie d’emballage avancée qui améliore encore les performances », a expliqué Jeong.

«Avec l’émergence de la RA et du métaverse, l’utilisation appropriée de tous les processeurs, tels que le CPU, le GPU et le NPU pour un traitement complet de l’apprentissage automatique au niveau du SoC nous donnerait un avantage concurrentiel important. Nous allons nous concentrer sur l’augmentation de notre compétitivité en renforçant également les performances du processeur dans le traitement de l’apprentissage automatique », a ajouté Jeong.

Technologie réelle et imaginative : l’avancement du NPU basé sur Propriétaire La technologie à travers six générations

Un NPU est un processeur optimisé pour le deep learningsept arithmétique des algorithmes. Il peut traiter une grande quantité de données aussi rapidement et efficacement que le réseau neuronal humain. Pour cette raison, il est principalement utilisé pour l’arithmétique et le calcul de l’IA. Bien que cela puisse sembler compliqué, il est déjà couramment utilisé dans les appareils. Par exemple, grâce à NPU, la caméra d’un smartphone peut reconnaître et faire la mise au point en fonction des objets, de l’environnement et des personnes dans le cadre. Il peut activer automatiquement le mode de filtre alimentaire pour la photographie alimentaire ou même supprimer les sujets indésirables de l’image.

Dans le passé, lorsque le NPU n’existait pas, le GPU effectuait principalement des calculs d’IA. Cependant, l’efficacité du calcul8 était faible en raison des différences structurelles du matériel. De nos jours, le NPU est principalement en charge du calcul de l’IA, et il peut également traiter les données plus efficacement dans les appareils mobiles. Il est optimisé pour le traitement parallèle des données afin que les applications basées sur l’IA puissent s’exécuter plus rapidement à faible consommation d’énergie.

Le développement du NPU d’Exynos a commencé en 2016. Le premier SoC équipé du NPU était Exynos 9820, qui était intégré au Galaxy S10 sorti en 2019. « Lorsque le premier groupe de travail a été formé il y a six ans, nous n’avions qu’une vingtaine de personnes. , mais maintenant notre équipe a décuplé si nous incluons les membres de nos instituts de recherche à l’étranger », a déclaré le chef de projet Suknam Kwon. Kwon avait l’habitude de concevoir le matériel du SoC et travaille sur le NPU depuis sa deuxième génération. “Le NPU est un domaine de grand intérêt ces jours-ci, mais à l’époque, il était si inconnu et nouveau que nous avons dû apprendre des vidéos et des conférences universitaires à l’étranger.”

Dans le passé, il y avait peu d’applications pour le NPU, y compris la détection d’objets basée sur des images. Cependant, à l’ère de l’IA, la demande du marché pour une IP haute performance nécessitant une grande quantité de calculs augmente. Cela peut être utilisé pour effectuer des tâches telles que l’amélioration de la qualité de l’image de la caméra, des services vocaux et plus encore. De plus, étant donné que la taille et la consommation d’énergie augmentent à mesure que les performances IP sont améliorées, il est essentiel de déterminer l’architecture la plus efficace.

Au fur et à mesure que NPU devient plus puissant, il offre des améliorations dans la vitesse de reconnaissance des objets ou l’amélioration des photos. Les performances du NPU équipé dans le dernier Exynos sont deux fois plus améliorées par rapport à la génération précédente. En développant indépendamment le NPU pour six générations de produits, l’expertise et le savoir-faire de l’équipe SoC Design en matière de technologie NPU sont inégalés. “Avec des avantages en termes de référence tels que le ML Per, l’efficacité énergétique, la taille, etc., le NPU d’Exynos est une solution IP hautement compétitive”, a déclaré Kwon. “Grâce à l’optimisation de l’architecture pour les performances et à l’amélioration de l’efficacité énergétique, le NPU ajoute une valeur concurrentielle au processeur Exynos”, a-t-il déclaré.

À l’avenir, les technologies qui utilisent NPU continueront d’évoluer. “Je pense que l’IA sur l’appareil, qui effectue des calculs d’IA dans son smartphone plutôt que de passer par un serveur, deviendra plus largement utilisée car il y a moins de risque de fuite d’informations personnelles sensibles”, a déclaré Kwon. « Pour cette raison, les performances des NPU mobiles doivent être encore plus améliorées. De nos jours, un NPU est utilisé pour de nombreux calculs, mais je prédis qu’il y aura plus de demandes pour faire fonctionner des algorithmes d’IA spécialisés pour chaque programme d’application. Ainsi, développer une NPU spécialisée pour chaque domaine sera également important », a-t-il ajouté.

Interrogé sur la conduite autonome, Kwon a évoqué le rôle que NPU jouera dans l’industrie. “Dans un avenir proche, le système avancé d’assistance à la conduite (ADAS) deviendra une réalité”, a déclaré Kwon. “Cela nécessite du matériel capable d’exécuter des algorithmes de conduite autonome en utilisant une quantité massive de données en temps réel. Pour ce faire, un NPU plus performant est nécessaire, et Samsung prépare un NPU doté de puissantes capacités pour les appareils de conduite autonome qui répondent aux exigences du marché.

À la fin de l’interview, Kwon a expliqué le moment le plus significatif qui s’est produit pendant le développement. “Chaque année, Exynos est livré avec un NPU plus performant qui est de plus en plus amélioré, ce qui est très significatif”, a-t-il déclaré. « Il continuera à devenir une propriété intellectuelle clé pour les marchés futurs. Je suis très fier du fait que le développement de NPU a conduit à la croissance de moi-même et de l’entreprise — et contribue même à la compétitivité globale du pays », a-t-il déclaré. “C’est le meilleur domaine où il réalise les choses dans son imagination.”

* Toutes les images présentées sont fournies à titre indicatif uniquement et peuvent ne pas être une représentation exacte du produit ou des images capturées avec le produit. Toutes les images sont éditées, modifiées ou améliorées numériquement.

1 Horloge : Génère en continu une oscillation électrique de 0 ou 1 pour le calcul. Il est exprimé en Hz, et un chiffre d’horloge plus élevé signifie une vitesse de traitement plus rapide.

2 IPC (Instructions par Cycle) : Instructions traitées par horloge. Il mesure l’horloge nécessaire pour traiter une commande ou une instruction. L’IPC est l’unité qui évalue l’efficacité du fonctionnement d’un processeur.

3 Noyau : élément clé du circuit de traitement physique au sein du CPU. Plus il y a de cœurs, plus il est facile d’effectuer plusieurs actions en même temps. Un seul cœur signifie qu’il y a un cœur, double cœur signifie qu’il y en a deux, quatre cœurs signifie qu’il y en a quatre et ainsi de suite.

4 Superscalaire : une architecture qui combine les avantages du traitement en pipeline et en parallèle et permet de traiter en parallèle les instructions de plusieurs pipelines. La vitesse de traitement est rapide car plusieurs instructions peuvent être exécutées en même temps sans avoir à passer par le statut d’attente au préalable.

5 Débogage : processus consistant à vérifier si le programme conçu est exact, à identifier les erreurs du programme et à les corriger.

6 De bout en bout

sept Apprentissage profond : technologie qui permet à une machine d’apprendre, de déduire et de raisonner comme des êtres humains en utilisant des données.

8 Dans le SoC mobile, l’efficacité signifie qu’il utilise moins d’énergie ou a des vitesses plus rapides.