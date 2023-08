Dans un immeuble de bureaux banalisé à Austin, au Texas, deux petites pièces contiennent une poignée de Amazone employés concevant deux types de puces pour la formation et l’accélération de l’IA générative. Ces puces personnalisées, Inferentia et Trainium, offrent aux clients AWS une alternative à la formation de leurs grands modèles de langage sur Nvidia Les GPU, qui ont été de plus en plus difficile et cher procurer. « Le monde entier aimerait plus de puces pour faire de l’IA générative, qu’il s’agisse de GPU ou des propres puces d’Amazon que nous concevons », a déclaré Adam Selipsky, PDG d’Amazon Web Services, à CNBC dans une interview en juin. « Je pense que nous sommes mieux placés que n’importe qui d’autre sur Terre pour fournir la capacité que nos clients voudront collectivement. » Pourtant, d’autres ont agi plus rapidement et investi davantage pour tirer profit du boom de l’IA générative. Lorsque OpenAI a lancé ChatGPT en novembre, Microsoft a attiré l’attention généralisée pour avoir hébergé le chatbot viral et investi 13 milliards de dollars dans OpenAI. Il n’a pas tardé à ajouter les modèles d’IA générative à ses propres produits, en les incorporant à Bing en février. Ce même mois, Google a lancé son propre grand modèle de langage, Bard, suivi d’un investissement de 300 millions de dollars dans le rival d’OpenAI, Anthropic. Ce n’est qu’en avril qu’Amazon a annoncé sa propre famille de grands modèles de langage, appelée Titan, ainsi qu’un service appelé Bedrock pour aider les développeurs à améliorer les logiciels à l’aide de l’IA générative. « Amazon n’a pas l’habitude de chasser les marchés. Amazon a l’habitude de créer des marchés. Et je pense que pour la première fois depuis longtemps, ils se retrouvent en retrait et ils travaillent pour rattraper leur retard », a déclaré Chirag Dekate, Vice-président analyste chez Gartner. Méta a également récemment publié son propre LLM, Lama 2. Le rival open-source ChatGPT est désormais disponible pour les personnes à tester sur le cloud public Azure de Microsoft.

Les puces comme « véritable différenciation »

À long terme, a déclaré Dekate, le silicium personnalisé d’Amazon pourrait lui donner un avantage en matière d’IA générative. « Je pense que la véritable différenciation réside dans les capacités techniques qu’ils apportent », a-t-il déclaré. « Parce que devinez quoi? Microsoft n’a pas Trainium ou Inferentia », a-t-il déclaré. AWS a tranquillement commencé la production de silicium personnalisé en 2013 avec un matériel spécialisé appelé Nitro. C’est maintenant la puce AWS la plus volumineuse. Amazon a déclaré à CNBC qu’il y en avait au moins un sur chaque serveur AWS, avec un total de plus de 20 millions en cours d’utilisation.

AWS a commencé la production de silicium personnalisé en 2013 avec ce matériel spécialisé appelé Nitro. Amazon a déclaré à CNBC en août que Nitro est désormais la puce AWS la plus volumineuse, avec au moins une sur chaque serveur AWS et un total de plus de 20 millions d’unités utilisées. Avec l’aimable autorisation d’Amazon

En 2015, Amazon a acheté la startup israélienne de puces Annapurna Labs. Puis en 2018, Amazon a lancé son Puce de serveur basée sur Arm, Graviton, un rival des processeurs x86 de géants comme DMLA et Intel . « Arm, et une bonne partie d’entre eux seront probablement Amazon. Du côté du processeur, ils ont plutôt bien réussi », a déclaré Stacy Rasgon, analyste senior chez Recherche Bernstein. Toujours en 2018, Amazon a lancé ses puces axées sur l’IA. Cela s’est produit deux ans après que Google a annoncé son premier Tensor Processor Unit, ou TPU. Microsoft n’a pas encore annoncé la puce Athena AI sur laquelle il travaille, apparemment en partenariat avec AMD. CNBC a visité les coulisses du laboratoire de puces d’Amazon à Austin, au Texas, où Trainium et Inferentia sont développés et testés. Le vice-président du produit, Matt Wood, a expliqué à quoi servent les deux puces. « L’apprentissage automatique se décompose en ces deux étapes différentes. Ainsi, vous formez les modèles d’apprentissage automatique, puis vous exécutez l’inférence sur ces modèles formés », a déclaré Wood. « Trainium offre une amélioration d’environ 50 % en termes de performances tarifaires par rapport à tout autre moyen de formation de modèles d’apprentissage automatique sur AWS. » Trainium est arrivé sur le marché en 2021, après la sortie en 2019 d’Inferentia, qui en est maintenant à sa deuxième génération. Trainum permet aux clients « de fournir une inférence d’apprentissage automatique à très, très faible coût, à haut débit et à faible latence, c’est-à-dire toutes les prédictions du moment où vous tapez une invite dans votre modèle d’IA générative, c’est là que tout cela est traité pour vous donner la réponse », a déclaré Wood. Pour l’instant, cependant, les GPU de Nvidia sont toujours rois lorsqu’il s’agit de modèles de formation. En juillet, AWS lancé nouveau matériel d’accélération AI alimenté par Nvidia H100s. « Les puces Nvidia ont un énorme écosystème logiciel qui s’est construit autour d’elles au cours des 15 dernières années que personne d’autre n’a », a déclaré Rasgon. « Le grand gagnant de l’IA en ce moment est Nvidia. »

Les puces personnalisées d’Amazon, de gauche à droite, Inferentia, Trainium et Graviton sont présentées au siège d’Amazon à Seattle le 13 juillet 2023. Joseph Huerta

Tirer parti de la domination du cloud

La domination du cloud d’AWS, cependant, est un grand différenciateur pour Amazon. « Amazon n’a pas besoin de faire la une des journaux. Amazon dispose déjà d’une base d’installation cloud très solide. Tout ce qu’ils ont à faire est de trouver comment permettre à leurs clients existants de se développer dans des mouvements de création de valeur en utilisant l’IA générative », a déclaré Dekate. Lors du choix entre Amazon, Google et Microsoft pour l’IA générative, des millions de clients AWS peuvent être attirés par Amazon parce qu’ils le connaissent déjà, exécutant d’autres applications et y stockant leurs données. « C’est une question de rapidité. La rapidité avec laquelle ces entreprises peuvent développer ces applications d’IA génératives dépend du fait qu’elles commencent d’abord par les données dont elles disposent dans AWS et qu’elles utilisent les outils de calcul et d’apprentissage automatique que nous fournissons », a expliqué Mai-Lan Tomsen Bukovec, Vice-président de la technologie chez AWS. AWS est le plus grand fournisseur de cloud computing au monde, avec 40 % de part de marché en 2022, selon un chercheur de l’industrie technologique Gartner. Bien que le bénéfice d’exploitation ait diminué d’une année sur l’autre pendant trois trimestres consécutifs, AWS représentait toujours 70 % du bénéfice d’exploitation global de 7,7 milliards de dollars d’Amazon au deuxième trimestre. Les marges d’exploitation d’AWS ont toujours été bien plus importantes que celles de Google Cloud. AWS a également une croissance portefeuille d’outils de développement axé sur l’IA générative. « Remontons le temps avant même ChatGPT. Ce n’est pas comme après que cela se soit produit, tout à coup nous nous sommes dépêchés et avons élaboré un plan parce que vous ne pouvez pas concevoir une puce en si peu de temps, et encore moins vous ne pouvez pas créer un service Bedrock dans une question de 2 à 3 mois », a déclaré Swami Sivasubramanian, vice-président de la base de données, de l’analyse et de l’apprentissage automatique chez AWS. Bedrock permet aux clients d’AWS d’accéder à de grands modèles de langage créés par Anthropic, Stability AI, AI21 Labs et Titan d’Amazon. « Nous ne croyons pas qu’un modèle va gouverner le monde, et nous voulons que nos clients disposent des modèles de pointe de plusieurs fournisseurs, car ils vont choisir le bon outil pour le bon travail », dit Sivasubramanian.

Un employé d’Amazon travaille sur des puces IA personnalisées, dans une veste portant la marque de la puce Inferentia d’AWS, au laboratoire de puces AWS à Austin, Texas, le 25 juillet 2023. Katie Tarassov