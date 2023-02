Années 1980 à 1990 : réseaux de neurones récurrents

ChatGPT est une version de GPT-3, un grand modèle de langage également développé par OpenAI. Les modèles de langage sont un type de réseau de neurones qui a été formé sur de très nombreux textes. (Les réseaux de neurones sont des logiciels inspirés par la façon dont les neurones du cerveau des animaux se signalent les uns les autres.) Étant donné que le texte est composé de séquences de lettres et de mots de longueurs variables, les modèles de langage nécessitent un type de réseau de neurones capable de donner un sens à ce type de données. . Les réseaux de neurones récurrents, inventés dans les années 1980, peuvent gérer des séquences de mots, mais ils sont lents à s’entraîner et peuvent oublier les mots précédents dans une séquence.

En 1997, les informaticiens Sepp Hochreiter et Jürgen Schmidhuber ont résolu ce problème en inventant LTSM (mémoire longue à court terme) réseaux, réseaux de neurones récurrents avec des composants spéciaux qui permettaient de conserver plus longtemps les données passées dans une séquence d’entrée. Les LTSM pouvaient gérer des chaînes de texte de plusieurs centaines de mots, mais leurs compétences linguistiques étaient limitées.

2017 : Transformateurs

La percée derrière la génération actuelle de grands modèles de langage est survenue lorsqu’une équipe de chercheurs de Google a inventé les transformateurs, une sorte de réseau neuronal capable de suivre l’endroit où chaque mot ou expression apparaît dans une séquence. Le sens des mots dépend souvent du sens des autres mots qui viennent avant ou après. En suivant ces informations contextuelles, les transformateurs peuvent gérer des chaînes de texte plus longues et capturer la signification des mots avec plus de précision. Par exemple, « hot dog » signifie des choses très différentes dans les phrases « Les hot-dogs doivent être abondamment arrosés » et « Les hot-dogs doivent être mangés avec de la moutarde ».

2018-2019 : GPT et GPT-2

Les deux premiers grands modèles de langage d’OpenAI sont arrivés à quelques mois d’intervalle. La société souhaite développer une IA polyvalente et polyvalente et estime que les grands modèles de langage sont une étape clé vers cet objectif. GPT (abréviation de Generative Pre-trained Transformer) a planté un drapeau, battant les références de pointe pour le traitement du langage naturel à l’époque.

GPT a combiné les transformateurs avec l’apprentissage non supervisé, un moyen de former des modèles d’apprentissage automatique sur des données (dans ce cas, beaucoup, beaucoup de texte) qui n’ont pas été annotées au préalable. Cela permet au logiciel de découvrir par lui-même des modèles dans les données, sans avoir à dire ce qu’il regarde. De nombreux succès antérieurs en matière d’apprentissage automatique reposaient sur l’apprentissage supervisé et les données annotées, mais l’étiquetage manuel des données est un travail lent et limite ainsi la taille des ensembles de données disponibles pour la formation.

Mais c’est GPT-2 qui a créé le plus gros buzz. OpenAI a affirmé être tellement préoccupé que les gens utiliseraient GPT-2 “pour générer un langage trompeur, biaisé ou abusif” qu’il ne publierait pas le modèle complet. Comment les temps changent.

2020 : GPT-3

GPT-2 était impressionnant, mais le suivi d’OpenAI, GPT-3, a fait tomber les mâchoires. Sa capacité à générer du texte de type humain a été un grand pas en avant. GPT-3 peut répondre aux questions, résumer des documents, générer des histoires dans différents styles, traduire entre l’anglais, le français, l’espagnol et le japonais, et plus encore. Son mimétisme est étrange.

L’un des enseignements les plus remarquables est que les gains du GPT-3 proviennent du surdimensionnement des techniques existantes plutôt que d’en inventer de nouvelles. GPT-3 a 175 milliards de paramètres (les valeurs d’un réseau qui sont ajustées pendant la formation), contre 1,5 milliard pour GPT-2. Il a également été formé sur beaucoup plus de données.