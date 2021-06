La perturbation de mardi de nombreux sites Web populaires utilisant les services de la société américaine de cloud computing Fastly a été attribuée à un bogue logiciel, qui s’est faufilé dans une mise à jour récente et a été déclenché par un utilisateur.

Les sites Web de plusieurs organes de presse, du gouvernement britannique et de services comme Amazon et Spotify ont été parmi ceux touchés par la panne d’une heure mardi. Fastly, dont les serveurs étaient à l’origine du problème, a déclaré que le problème était lié à un bogue logiciel spécifique, que ses ingénieurs de contrôle qualité n’avaient pas réussi à identifier et à corriger avant une mise à jour de mai.





Le bug a été déclenché par un client, qui n’a pas été identifié. L’utilisateur a fait un « valide » changement de configuration mardi, déclenchant une réaction en chaîne qui « a provoqué le retour d’erreurs de 85 % de notre réseau », a déclaré le vice-président de Fastly, Nick Rockwell, dans un article de blog.

« Même s’il y avait des conditions spécifiques qui ont déclenché cette panne, nous aurions dû l’anticiper. Nous fournissons des services essentiels à la mission, et nous traitons toute action pouvant causer des problèmes de service avec la plus grande sensibilité et priorité,», a déclaré l’exécutif.

Nous nous excusons auprès de nos clients et de ceux qui comptent sur eux pour la panne et remercions sincèrement la communauté pour son soutien.

Fastly a déclaré avoir remarqué le problème une minute après son apparition et avoir réussi à restaurer 95% de son réseau en 49 minutes. Un correctif logiciel permanent résolvant le problème était prêt à être déployé environ cinq heures plus tard. Rockwell a promis de procéder à une analyse complète de la situation et de déterminer « pourquoi nous n’avons pas détecté le bogue lors de nos processus d’assurance qualité et de test des logiciels ».





La panne causée par le problème Fastly était l’un des nombreux incidents à grande échelle qui se sont produits au cours des dernières années. En février 2017, une erreur humaine commise par un employé d’Amazon lors d’un processus de débogage a entraîné un arrêt en cascade du serveur et a perturbé ses services AWS pendant des heures. En juillet 2020, une grande partie des services Cloudflare est tombé en panne pendant environ 30 minutes en raison d’une erreur de configuration dans un segment du réseau fédérateur reliant Newark et Chicago.

