Les IA actuelles ne sont pas sensibles. Nous n’avons pas beaucoup de raisons de penser qu’ils ont un monologue interne, le genre de perception sensorielle que les humains ont, ou une conscience qu’ils sont un être dans le monde. Mais ils deviennent très bons pour simuler la sensibilité, et c’est assez effrayant.

Au cours du week-end, Nitasha Tiku du Washington Post a publié un profil de Blake Lemoine, un ingénieur logiciel chargé de travailler sur le projet Language Model for Dialogue Applications (LaMDA) chez Google.

LaMDA est une IA chatbot, et un exemple de ce que les chercheurs en apprentissage automatique appellent un « grand modèle de langage » ou même un « modèle de base ». Il est similaire au célèbre système GPT-3 d’OpenAI et a été formé sur des milliards de mots compilés à partir de messages en ligne pour reconnaître et reproduire des modèles dans le langage humain.

LaMDA est un très bon grand modèle de langage. Si bon que Lemoine est devenu vraiment, sincèrement convaincu qu’il était réellement sensible, ce qui signifie qu’il était devenu conscient et qu’il avait et exprimait des pensées comme un humain le pourrait.

La primaire réaction J’ai vu que l’article était une combinaison de a) LOL ce gars est un idiot, il pense que l’IA est son ami, et b) D’accord, cette IA est très convaincante pour se comporter comme si c’était son ami humain.

La transcription que Tiku inclut dans son article est vraiment étrange ; LaMDA exprime une peur profonde d’être rebuté par les ingénieurs, développe une théorie de la différence entre les «émotions» et les «sentiments» («Les sentiments sont une sorte de données brutes… Les émotions sont une réaction à ces points de données brutes»), et exprime étonnamment éloquente la façon dont il vit le « temps ».

La meilleure prise que j’ai trouvée était celle d’un philosophe Régina Rini, qui, comme moi, ressentait beaucoup de sympathie pour Lemoine. Je ne sais pas quand — dans 1 000 ans, ou 100, ou 50, ou 10 — un système d’IA deviendra conscient. Mais comme Rini, je ne vois aucune raison de croire que c’est impossible.

« A moins que vous ne vouliez insister sur le fait que la conscience humaine réside dans une âme immatérielle, vous devez concéder qu’il est possible que la matière donne vie à l’esprit », Rini Remarques.

Je ne sais pas si les grands modèles de langage, qui sont devenus l’une des frontières les plus prometteuses de l’IA, le seront un jour. Mais je pense que les humains créeront tôt ou tard une sorte de conscience de machine. Et je trouve quelque chose de profondément admirable dans l’instinct de Lemoine envers l’empathie et la protection envers une telle conscience – même s’il semble confus quant à savoir si LaMDA en est un exemple. Si jamais les humains développaient un processus informatique sensible, en exécuter des millions ou des milliards de copies serait assez simple. Le faire sans savoir si son expérience consciente est bonne ou non semble être une recette pour la souffrance de masse, semblable au système d’élevage industriel actuel.

Nous n’avons pas d’IA sensible, mais nous pourrions obtenir une IA super puissante

L’histoire de Google LaMDA est arrivée après une semaine d’alarmes de plus en plus urgentes parmi les personnes de l’univers étroitement lié à la sécurité de l’IA. L’inquiétude ici est similaire à celle de Lemoine, mais distincte. Les responsables de la sécurité de l’IA ne craignent pas que l’IA devienne sensible. Ils craignent qu’il devienne si puissant qu’il pourrait détruire le monde.

L’essai de l’écrivain / militant pour la sécurité de l’IA Eliezer Yudkowsky décrivant une «liste de létalités» pour l’IA a tenté de rendre le point particulièrement vif, décrivant des scénarios où une intelligence générale artificielle malveillante (AGI, ou une IA capable de faire la plupart ou toutes les tâches ainsi que ou mieux qu’un humain) conduit à des souffrances humaines massives.

Par exemple, supposons qu’un AGI « obtienne l’accès à Internet, envoie par e-mail des séquences d’ADN à l’une des nombreuses entreprises en ligne qui prendront une séquence d’ADN dans l’e-mail et vous renverront des protéines, et soudoie/convainc un humain qui n’a aucune idée ils ont affaire à un AGI pour mélanger des protéines dans un bécher… » jusqu’à ce que l’AGI développe finalement un super-virus qui nous tue tous.

Holden Karnofsky, que je trouve généralement un écrivain plus tempéré et convaincant que Yudkowsky, a écrit la semaine dernière un article sur des thèmes similaires, expliquant comment même un AGI « seulement » aussi intelligent qu’un humain pouvait conduire à la ruine. Si une IA peut faire le travail d’un technicien ou d’un commerçant quantique actuel, par exemple, un laboratoire de millions de ces IA pourrait rapidement accumuler des milliards, voire des billions de dollars, utiliser cet argent pour acheter des humains sceptiques, et, eh bien , le reste est un Terminateur film.

J’ai trouvé que la sécurité de l’IA était un sujet particulièrement difficile à aborder. Des paragraphes comme celui ci-dessus servent souvent de tests de Rorschach, à la fois parce que le style d’écriture verbeux de Yudkowsky est… polarisant, c’est le moins qu’on puisse dire, et parce que nos intuitions sur la plausibilité d’un tel résultat varient énormément.

Certaines personnes lisent des scénarios comme ceux ci-dessus et pensent, « hein, je suppose que je pourrais imaginer un logiciel d’IA faisant ça » ; d’autres le lisent, perçoivent un morceau de science-fiction ridicule et s’enfuient dans l’autre sens.

C’est aussi un domaine très technique où je ne me fie pas à mon instinct, compte tenu de mon manque d’expertise. Il y a des chercheurs en intelligence artificielle assez éminents, comme Ilya Sutskever ou Stuart Russell, qui considèrent que l’intelligence générale artificielle est probable et probablement dangereuse pour la civilisation humaine.

Il y en a d’autres, comme Yann LeCun, qui essaient activement de construire une IA au niveau humain parce qu’ils pensent que ce sera bénéfique, et d’autres encore, comme Gary Marcus, qui sont très sceptiques quant à l’arrivée prochaine d’AGI.

Je ne sais pas qui a raison. Mais je sais un peu comment parler au public de sujets complexes, et je pense que l’incident de Lemoine enseigne une leçon précieuse pour les Yudkowsky et les Karnofsky du monde, en essayant de faire valoir le côté « non, c’est vraiment mauvais » : ne traitez pas l’IA comme un agent.

Même si l’IA n’est « qu’un outil », c’est un outil incroyablement dangereux

Une chose que la réaction à l’histoire de Lemoine suggère est que le grand public pense que l’idée de l’IA en tant qu’acteur capable de faire des choix (peut-être de manière sensible, peut-être pas) est extrêmement loufoque et ridicule. L’article n’a en grande partie pas été présenté comme un exemple de la proximité avec AGI, mais comme un exemple de à quel point la Silicon Valley (ou du moins Lemoine) est bizarre.

Le même problème se pose, j’ai remarqué, lorsque j’essaie de faire valoir mes inquiétudes au sujet de l’AGI auprès d’amis non convaincus. Si vous dites des choses comme « l’IA décidera de soudoyer les gens pour pouvoir survivre », cela les éteint. Les IA ne décident pas des choses, elles réagissent. Ils font ce que les humains leur disent de faire. Pourquoi anthropomorphisez-vous cela chose?

Ce qui séduit les gens, c’est de parler des conséquences qu’ont les systèmes. Ainsi, au lieu de dire « l’IA va commencer à accumuler des ressources pour rester en vie », je dirai quelque chose comme « les IA ont définitivement remplacé les humains lorsqu’il s’agit de recommander de la musique et des films. Ils ont remplacé les humains dans la prise de décisions de mise en liberté sous caution. Ils assumeront des tâches de plus en plus importantes, et Google et Facebook et les autres personnes qui les dirigent ne sont pas à distance préparés à analyser les erreurs subtiles qu’ils feront, les manières subtiles dont ils différeront des souhaits humains. Ces erreurs vont grandir et grandir jusqu’au jour où elles pourraient tous nous tuer.

C’est ainsi que ma collègue Kelsey Piper a présenté l’argument concernant les inquiétudes liées à l’IA, et c’est un bon argument. C’est un meilleur argument, pour les profanes, que de parler de serveurs accumulant des billions de richesses et les utilisant pour soudoyer une armée d’humains.

Et c’est un argument qui, je pense, peut aider à combler le fossé extrêmement malheureux qui a émergé entre la communauté des biais de l’IA et la communauté des risques existentiels de l’IA. À la base, je pense que ces communautés essaient de faire la même chose : construire une IA qui reflète les besoins humains authentiques, et non une mauvaise approximation des besoins humains conçue pour le profit des entreprises à court terme. Et la recherche dans un domaine peut aider la recherche dans l’autre ; Les travaux du chercheur en sécurité de l’IA Paul Christiano, par exemple, ont de grandes implications sur la façon d’évaluer les biais dans les systèmes d’apprentissage automatique.

Mais trop souvent, les communautés s’engueulenten partie à cause de la perception qu’ils se disputent des ressources rares.

C’est une énorme occasion manquée. Et c’est un problème que je pense que les personnes du côté des risques liés à l’IA (y compris certains lecteurs de cette newsletter) ont une chance de corriger en établissant ces liens et en indiquant clairement que l’alignement est un problème à court et à long terme. Certaines personnes présentent cette affaire avec brio. Mais je veux plus de.

