Dans un Reddit AMASam Altman, PDG d’OpenAI, a admis que le manque de capacité de calcul est l’un des principaux facteurs empêchant l’entreprise d’expédier des produits aussi souvent qu’elle le souhaiterait.

« Tous ces modèles sont devenus assez complexes », a-t-il écrit en réponse à une question sur la raison pour laquelle les prochains modèles d’IA d’OpenAI prenaient autant de temps. « Nous sommes également confrontés à de nombreuses limitations et à des décisions difficiles concernant [how] nous avons consacré notre calcul à de nombreuses idées géniales.

Beaucoup rapports suggèrent qu’OpenAI a eu du mal à sécuriser suffisamment d’infrastructure de calcul pour exécuter et former ses modèles génératifs. Cette semaine encore, Reuters, citant des sources, a déclaré qu’OpenAI travaillait depuis des mois avec Broadcom pour créer une puce d’IA pour faire fonctionner des modèles, qui pourrait arriver dès 2026.

En partie à cause de la capacité limitée, a déclaré Altman, la fonctionnalité conversationnelle réaliste d’OpenAI pour ChatGPT, Advanced Voice Mode, ne bénéficiera pas de sitôt des capacités de vision dévoilées pour la première fois en avril. Lors de sa conférence de presse d’avril, OpenAI a montré l’application ChatGPT fonctionnant sur un smartphone et répondant à des signaux visuels, tels que les vêtements que portait une personne, à la vue de la caméra du téléphone.

Rapports de Fortune a révélé plus tard que la démo avait été précipitée pour détourner l’attention de la conférence des développeurs d’E/S de Google, qui avait lieu la même semaine. Beaucoup au sein d’OpenAI ne pensaient pas que GPT-4o était prêt à être révélé. Fait révélateur, la version vocale uniquement du mode vocal avancé a été retardée de plusieurs mois.

Dans l’AMA, Altman a indiqué que la prochaine version majeure du générateur d’images d’OpenAI, DALL-E, n’a pas de calendrier de lancement. (« Nous n’avons pas encore de plan de sortie », a-t-il déclaré.) Pendant ce temps, Sora, l’outil de génération vidéo d’OpenAI, a été freiné par la « nécessité de perfectionner le modèle, d’assurer la sécurité/l’usurpation d’identité/autres choses, et calcul à grande échelle », a écrit Kevin Weil, directeur des produits d’OpenAI, qui a également participé à l’AMA.

Sora aurait souffert de revers techniques qui le positionnent mal par rapport aux systèmes concurrents de Luma, Runway et autres. Par The Information, le système original révélé en février, a nécessité plus de 10 minutes de traitement pour réaliser un clip vidéo d’une minute.

En octobre, l’un des co-responsables de Sora, Tim Brooks, est parti pour Google.

Plus tard dans l’AMA, Altman a déclaré qu’OpenAI envisageait toujours d’autoriser le contenu « NSFW » dans ChatGPT « un jour » (« nous croyons totalement au traitement des utilisateurs adultes comme des adultes », a-t-il écrit), et que la priorité absolue de l’entreprise est d’améliorer sa série o1 de modèles de « raisonnement » et leurs successeurs. OpenAI prévisualisé un certain nombre de fonctionnalités seront présentées à o1 lors de sa conférence DevDay à Londres cette semaine, notamment la compréhension des images.

« Nous avons de très bonnes sorties à venir plus tard cette année », a écrit Altman. « Mais rien de ce que nous allons appeler GPT-5. »