Analyse Peu de temps après le lancement des processeurs Epyc de première génération d’AMD, nommés Naples en 2017, Intel a plaisanté en disant que son concurrent avait été réduit à coller un tas de matrices de bureau ensemble pour rester pertinent.

Malheureusement pour Intel, cela commentaire n’a pas vraiment bien vieilli puisque quelques années plus tard, le géant x86 cherchait lui-même la colle.

Les processeurs Intel Xeon 6, dont le déploiement a commencé par étapes cette année, représentent sa troisième génération de Xeons multi-die et ses premières puces de centre de données à adopter une architecture de chipsets hétérogènes semblable à celle d’AMD.

Bien qu’Intel ait finalement compris la sagesse de la stratégie des puces d’AMD, ses approches ne pourraient pas être plus différentes.

Surmonter la limite du réticule

Pour rappeler rapidement pourquoi tant de conceptions de processeurs s’éloignent des architectures monolithiques, cela se résume en grande partie à deux facteurs : les limites du réticule et les rendements.

D’une manière générale, à moins d’améliorations majeures dans la technologie des processus, plus de cœurs signifie inévitablement plus de silicium. Cependant, il existe des limites pratiques à la taille réelle des matrices – nous appelons cela la limite du réticule – qui est d’environ 800 mm.2. Une fois que vous avez atteint la limite, la seule façon de continuer à faire évoluer le calcul est d’utiliser davantage de matrices.

Nous avons maintenant vu cela se réaliser avec un certain nombre de produits – pas seulement des processeurs – qui regroupent deux grandes puces dans un seul boîtier. Gaudi 3, Blackwell de Nvidia et Emerald Rapids Xeons d’Intel ne sont que quelques exemples.

Le problème avec les puces multiples est que le pont entre elles constitue souvent un goulot d’étranglement en termes de bande passante et peut potentiellement introduire une latence supplémentaire. Ce n’est généralement pas aussi grave que de diviser une charge de travail sur plusieurs sockets, mais c’est l’une des raisons pour lesquelles certains concepteurs de puces ont privilégié l’utilisation d’un plus petit nombre de puces plus grandes pour faire évoluer le calcul.

Les matrices plus grandes sont cependant très coûteuses à fabriquer, car les taux de défauts sont amplifiés à mesure que la matrice est grande. Cela rend l’utilisation de nombreuses puces plus petites une proposition attrayante et explique pourquoi la conception d’AMD en utilise autant – jusqu’à 17 dans le dernier Epycs.

Ceci étant dit, examinons les différentes philosophies de conception des derniers processeurs Xeons et Epyc d’Intel et d’AMD.

Un vieux chapeau pour AMD

Nous allons commencer avec les processeurs Epyc Turin de 5e génération d’AMD. Plus précisément, nous examinons la variante Zen 5 à 128 cœurs de la puce, qui comprend 16 puces complexes de 4 nm (CCD) qui entourent une seule puce d’E/S (IOD) fabriquée sur la technologie de processus 6 nm de TSMC.

Les derniers Epycs d’AMD contiennent jusqu’à 16 matrices de calcul. – Cliquez pour agrandir

Si cela vous semble familier, c’est parce qu’AMD a utilisé la même formule de base pour ses processeurs Epyc de deuxième génération. Pour référence, Epyc de première génération ne disposait pas d’une puce d’E/S distincte.

Comme nous l’avons mentionné précédemment, l’utilisation de nombreuses puces de calcul plus petites signifie qu’AMD peut obtenir des rendements beaucoup plus élevés, mais cela signifie également qu’ils peuvent partager le silicium entre les processeurs Ryzen et Epyc.

Si ces chipsets vous semblent familiers, c’est parce que les processeurs Epyc et Ryzen d’AMD partagent en fait les mêmes matrices de calcul. – Cliquez pour agrandir

De plus, l’utilisation de huit ou 16 cœurs CCD, chacun avec 32 Mo de cache L3, donne à AMD une flexibilité supplémentaire en matière de mise à l’échelle du nombre de cœurs proportionnellement au cache et à la mémoire.

Par exemple, si vous souhaitez un Epyc avec 16 cœurs, un SKU courant pour les charges de travail HPC en raison des limitations de licence, le moyen le plus évident d’y parvenir serait d’utiliser deux CCD à huit cœurs avec 64 Mo de cache L3 entre les deux. Cependant, vous pouvez également utiliser 16 CCD, chacun avec un seul cœur actif mais 512 Mo de cache intégré. Cela peut paraître fou, mais ces deux puces existent réellement.

Les Epycs de 5e génération d’AMD suivent un modèle familier avec 16 puces de calcul entourant une puce d’E/S centrale. – Cliquez pour agrandir

La puce d’E/S, quant à elle, est responsable de presque tout sauf du calcul, y compris la mémoire, la sécurité, PCIe, CXL et d’autres E/S comme SATA, et sert également d’épine dorsale pour les communications entre les CCD des puces. et autres prises.

Voici un aperçu plus approfondi de la matrice d’E/S AMD Epyc Turin. – Cliquez pour agrandir

Placer les contrôleurs de mémoire sur la puce d’E/S présente des avantages et des inconvénients. Du côté positif, cela signifie que la bande passante mémoire, pour l’essentiel, évolue indépendamment du nombre de cœurs. L’inconvénient réside dans des latences d’accès à la mémoire et au cache potentiellement plus élevées pour certaines charges de travail. Nous insistons sur « potentiellement » car ce genre de chose dépend fortement de la charge de travail.

Le voyage chiplet de Xeon

En ce qui concerne Intel, l’approche du fabricant de puces en matière de silicium multi-puces diffère considérablement de celle d’AMD. Alors que les processeurs Xeon modernes utilisent une architecture hétérogène avec des matrices de calcul et d’E/S distinctes, cela n’a pas toujours été le cas.

Le premier Xeon multi-puces d’Intel, nom de code Sapphire Rapids, utilisait soit une puce monolithique à nombre de cœurs moyen, soit quatre puces à nombre de cœurs extrême, chacune ayant son propre contrôleur de mémoire et ses propres E/S à bord. Emerald Rapids a suivi un modèle similaire, mais a opté pour deux matrices plus grandes pour les SKU à nombre de cœurs plus élevé de la puce.

Comme vous pouvez le voir, entre Sapphire et Emerald Rapids, Intel est passé de quatre matrices de taille moyenne à une paire de matrices limitées presque retiques. – Cliquez pour agrandir

Tout cela a changé avec Xeon 6, qui a vu Intel déplacer les E/S, les liaisons UPI et les accélérateurs vers une paire de puces fabriquées sur le nœud de processus Intel 7, flanqué d’une à trois puces de calcul au centre construites sur Intel 3.

Pour les raisons que nous aborderons dans un instant, nous allons nous concentrer principalement sur les processeurs Intel Granite Rapids Xeon 6 les plus courants plutôt que sur ses composants Sierra Forest à plusieurs cœurs.

En jetant un coup d’œil aux puces de calcul d’Intel, nous voyons la première différence majeure par rapport à AMD. Chaque tuile de calcul comporte au moins 43 cœurs intégrés, qui peuvent être fusionnés ou désactivés en fonction du SKU. Cela signifie qu’Intel a besoin de beaucoup moins de puces pour atteindre 128 cœurs qu’AMD, mais cela présente un potentiel de taux de rendement inférieurs en raison de sa plus grande surface.

En fonction du SKU, Granite Rapids utilise entre une et trois matrices de calcul prises en sandwich entre une paire de matrices d’E/S. – Cliquez pour agrandir

Outre davantage de cœurs, Intel a choisi de placer le contrôleur de mémoire de ces puces sur les matrices de calcul elles-mêmes, avec quatre canaux pris en charge par matrice. En théorie, cela devrait permettre de réduire les latences d’accès, mais cela signifie également que les trois matrices doivent être remplies si vous voulez les 12 canaux mémoire.

Pour les pièces de la série 6900P que nous avons examinées le mois dernier, ce n’est pas quelque chose dont vous devez vous inquiéter car chaque SKU intègre trois matrices de calcul. Cela signifie cependant que la version à 72 cœurs n’utilise qu’une fraction du silicium du boîtier. Là encore, la même chose pourrait être dite de cet Epyc centré HPC à 16 cœurs dont nous avons parlé plus tôt.

En revanche, les composants de la série 6700P d’Intel, attendus au début de l’année prochaine, seront livrés avec une ou deux puces de calcul en fonction de la bande passante mémoire souhaitée et du nombre de cœurs, ce qui signifie que la mémoire sera limitée à 8 canaux haut de gamme et potentiellement seulement quatre sur les configurations avec une seule puce de calcul à bord. Nous ne savons pas encore grand chose sur la configuration de la mémoire sur les matrices HCC et LCC, il est donc possible qu’Intel ait renforcé les contrôleurs de mémoire sur ces pièces.

Tout comme l’Epyc d’AMD, le Xeon d’Intel utilise désormais une architecture de chipsets hétérogènes avec des puces de calcul et d’E/S. – Cliquez pour agrandir

Les matrices d’E/S d’Intel sont également un peu plus fines et hébergent une combinaison de liaisons PCIe, CXL et UPI pour les communications avec le stockage, les périphériques et autres sockets. À côté de ceux-ci, nous trouvons également une multitude d’accélérateurs pour le flux direct (DSA), l’analyse en mémoire (IAA), le chiffrement/déchiffrement (QAT) et l’équilibrage de charge.

On nous dit que le placement des accélérateurs sur la puce d’E/S a été fait en partie pour les rapprocher des données lors de leur flux entrant et sortant de la puce.

Où allons-nous à partir d’ici ?

En apparence, la nouvelle génération de processeurs multicœurs d’Intel, nom de code Clearwater Forest, qui devraient sortir au premier semestre de l’année prochaine, apparaît dans un moule similaire à celui de Granite Rapids, avec deux matrices d’E/S et un trio de processeurs de calcul. carrelage.

Cela pourrait ressembler à un Granite Rapids rétréci, mais apparemment, ce n’est que du silicium structurel cachant encore plus de chiplets en dessous. – Cliquez pour agrandir

Toutefois, les apparences peuvent être trompeuses. D’après ce que nous comprenons, ces trois puces de calcul ne sont en réalité que du silicium structurel cachant un certain nombre de puces de calcul plus petites, elles-mêmes nichées au sommet d’un interposeur de silicium actif.

En sortant du rendus Intel l’a montré plus tôt cette année, Clearwater Forest pouvait utiliser jusqu’à 12 puces de calcul par package. L’utilisation d’interposeurs en silicium n’est en aucun cas nouvelle et offre un certain nombre d’avantages, notamment une bande passante de puce à puce plus élevée et des latences inférieures à celles que l’on voit généralement dans un substrat organique. C’est tout à fait différent de la paire de puces de calcul à 144 cœurs trouvées sur les pièces Sierra Forest avec le nombre de cœurs le plus élevé d’Intel.

Si ce rendu dévoilé par Intel plus tôt cette année est quelque chose d’intéressant, Clearwater Forest cache beaucoup plus de chiplets que Granite Rapids – Cliquez pour agrandir

Bien sûr, un rendu discutant des technologies qui seront utilisées dans la forêt de Clearwater ne signifie pas que c’est exactement ce que nous obtiendrons lorsqu’il arrivera l’année prochaine.

La plus grande question est peut-être de savoir où AMD amènera ensuite son architecture de chipsets. En regardant les processeurs Turin à 128 cœurs d’AMD, il ne reste plus beaucoup de place sur le boîtier pour plus de silicium, mais la Maison Zen a encore quelques options parmi lesquelles choisir.

Premièrement, AMD pourrait simplement opter pour un package plus gros pour faire de la place à des chipsets supplémentaires. Alternativement, le fabricant de puces pourrait également intégrer davantage de cœurs sur une puce plus petite. Cependant, nous pensons que les Epycs de sixième génération d’AMD pourraient en fait ressembler beaucoup plus à ses accélérateurs Instinct MI300.

Le MI300A regroupe 24 cœurs Zen 4, six puces GPU CDNA 3 et 128 Go de mémoire HBM3 dans un seul package destiné aux charges de travail HPC – Cliquez pour agrandir

Comme vous vous en souvenez peut-être, un APU lancé aux côtés du GPU MI300X a remplacé deux des tuiles CDNA3 de la puce par un trio de CCD avec 24 cœurs Zen 4 entre eux. Ces tuiles de calcul sont empilées sur quatre matrices d’E/S et sont connectées à une banque de huit modules HBM3.

Encore une fois, ce ne sont que des spéculations, mais il n’est pas difficile d’imaginer AMD faire quelque chose de similaire, en remplaçant toute cette mémoire et ces processeurs graphiques par des CCD supplémentaires. Une telle conception bénéficierait également d’une bande passante plus élevée et de latences plus faibles pour les communications die-to-die.

Seul le temps nous le dira si cela se produira réellement. Nous ne nous attendons pas à ce que les Epycs de 6e génération d’AMD arrivent avant fin 2026. ®