Tech

Une technique populaire pour rendre l’IA plus efficace présente des inconvénients

L’une des techniques les plus largement utilisées pour rendre les modèles d’IA plus efficaces, la quantification, a des limites – et l’industrie pourrait s’en approcher rapidement.

Dans le contexte de l’IA, la quantification fait référence à la réduction du nombre de bits – les plus petites unités qu’un ordinateur peut traiter – nécessaires pour représenter l’information. Considérez cette analogie : lorsque quelqu’un vous demande l’heure, vous diriez probablement « midi » – et non « oh douze cents, une seconde et quatre millisecondes ». C’est de la quantification ; les deux réponses sont correctes, mais l’une est légèrement plus précise. Le degré de précision dont vous avez réellement besoin dépend du contexte.

Les modèles d’IA se composent de plusieurs composants qui peuvent être quantifiés, en particulier les paramètres, les variables internes que les modèles utilisent pour faire des prédictions ou des décisions. C’est pratique, étant donné que les modèles effectuent des millions de calculs lors de leur exécution. Les modèles quantifiés avec moins de bits représentant leurs paramètres sont moins exigeants mathématiquement, et donc informatiquement. (Pour être clair, il s’agit d’un processus différent de la « distillation », qui est un ajustement plus complexe et sélectif des paramètres.)

Mais la quantification peut comporter plus de compromis qu’on ne le pensait auparavant.

Le modèle qui rétrécit toujours

Selon un étude Selon des chercheurs de Harvard, Stanford, MIT, Databricks et Carnegie Mellon, les modèles quantifiés fonctionnent moins bien si la version originale non quantifiée du modèle a été entraînée sur une longue période avec de nombreuses données. En d’autres termes, à un moment donné, il peut être préférable de simplement former un modèle plus petit plutôt que d’en préparer un plus gros.

Cela pourrait être une mauvaise nouvelle pour les entreprises d’IA qui forment des modèles extrêmement volumineux (connus pour améliorer la qualité des réponses), puis les quantifient dans le but de les rendre moins coûteux à exploiter.

Les effets se manifestent déjà. Il y a quelques mois, développeurs et universitaires ont rapporté que la quantification du modèle Llama 3 de Meta avait tendance à être « plus nocive » que d’autres modèles, potentiellement en raison de la manière dont il a été entraîné.

« À mon avis, le coût numéro un pour tout le monde dans l’IA est et continuera d’être l’inférence, et notre travail montre qu’un moyen important de le réduire ne fonctionnera pas éternellement », Tanishq Kumar, étudiant en mathématiques à Harvard et premier auteur de l’étude. papier, a déclaré à TechCrunch.

Contrairement à la croyance populaire, l’inférence de modèle d’IA (exécuter un modèle, comme lorsque ChatGPT répond à une question) est souvent plus coûteuse dans l’ensemble que la formation de modèle. Considérons, par exemple, que Google a dépensé estimé 191 millions de dollars pour former l’un de ses modèles phares Gemini – certainement une somme princière. Mais si l’entreprise devait utiliser un modèle pour générer seulement 50 mots de réponses à la moitié de toutes les requêtes de recherche Google, elle dépenserait à peu près 6 milliards de dollars par an.

Les principaux laboratoires d’IA ont adopté des modèles de formation sur des ensembles de données massifs, en supposant que la « mise à l’échelle » – l’augmentation de la quantité de données et de calculs utilisés dans la formation – conduirait à une IA de plus en plus performante.

Par exemple, Meta a formé Llama 3 sur un ensemble de 15 000 milliards de jetons. (Les jetons représentent des morceaux de données brutes ; 1 million de jetons équivaut à environ 750 000 mots.) La génération précédente, Llama 2, a été formée sur « seulement » 2 000 milliards de jetons.

Les faits suggèrent que l’intensification finit par produire des rendements décroissants ; Anthropique et Google aurait a récemment formé d’énormes modèles qui ne répondaient pas aux attentes des références internes. Mais rien n’indique que l’industrie soit prête à s’éloigner de manière significative de ces approches de mise à l’échelle bien ancrées.

Quelle précision, exactement ?

Ainsi, si les laboratoires hésitent à former des modèles sur des ensembles de données plus petits, existe-t-il un moyen de rendre les modèles moins susceptibles à la dégradation ? Peut-être. Kumar dit que lui et ses co-auteurs ont découvert que la formation des modèles en « basse précision » pouvait les rendre plus robustes. Restez avec nous un instant pendant que nous plongeons un peu.

« Précision » fait ici référence au nombre de chiffres qu’un type de données numériques peut représenter avec précision. Les types de données sont des collections de valeurs de données, généralement spécifiées par un ensemble de valeurs possibles et d’opérations autorisées ; le type de données FP8, par exemple, n’utilise que 8 bits pour représenter un nombre à virgule flottante.

Aujourd’hui, la plupart des modèles sont entraînés à 16 bits ou « demi-précision » et « quantifiés post-entraînement » à une précision de 8 bits. Certains composants du modèle (par exemple ses paramètres) sont convertis dans un format de précision inférieure au prix d’une certaine précision. Pensez-y comme si vous faisiez le calcul avec quelques décimales, puis en arrondissant au dixième le plus proche, vous offrant souvent le meilleur des deux mondes.

Les fournisseurs de matériel comme Nvidia font pression pour une précision moindre pour l’inférence de modèle quantifié. La nouvelle puce Blackwell de la société prend en charge une précision de 4 bits, en particulier un type de données appelé FP4 ; Nvidia a présenté cela comme une aubaine pour les centres de données limités en mémoire et en énergie.

Mais une précision de quantification extrêmement faible n’est peut-être pas souhaitable. Selon Kumar, à moins que le modèle original ne soit incroyablement volumineux en termes de nombre de paramètres, les précisions inférieures à 7 ou 8 bits peuvent entraîner une baisse notable de la qualité.

Si tout cela semble un peu technique, ne vous inquiétez pas, c’est le cas. Mais ce qu’il faut retenir, c’est simplement que les modèles d’IA ne sont pas entièrement compris et que les raccourcis connus qui fonctionnent dans de nombreux types de calcul ne fonctionnent pas ici. Vous ne diriez pas « midi » si quelqu’un vous demandait quand il a commencé un 100 mètres, n’est-ce pas ? Ce n’est pas si évident, bien sûr, mais l’idée est la même :

« Le point clé de notre travail est qu’il existe des limites que vous ne pouvez pas contourner naïvement », a conclu Kumar. « Nous espérons que notre travail ajoutera des nuances à la discussion qui recherche souvent des valeurs par défaut de plus en plus faibles pour la formation et l’inférence. »

Kumar reconnaît que son étude et celle de ses collègues étaient à une échelle relativement petite : ils prévoient de la tester avec davantage de modèles à l’avenir. Mais il estime qu’au moins une idée est valable : il n’y a pas de repas gratuit lorsqu’il s’agit de réduire les coûts d’inférence.

« La précision des bits est importante, et ce n’est pas gratuit », a-t-il déclaré. « On ne peut pas le réduire éternellement sans que les modèles en souffrent. Les modèles ont une capacité limitée, donc plutôt que d’essayer d’intégrer un quadrillion de jetons dans un petit modèle, à mon avis, beaucoup plus d’efforts seront consacrés à la conservation et au filtrage méticuleux des données, afin que seules les données de la plus haute qualité soient placées dans des modèles plus petits. Je suis optimiste que les nouvelles architectures qui visent délibérément à rendre stable l’entraînement de faible précision seront importantes à l’avenir.

Source link