Excellent article officiel sur la spectaculaire panne de #CloudFlare (voir notamment leur beau graphique au début de l’article) qui a coupé l’accès à tant de sites Web aujourd’hui.
▻http://blog.cloudflare.com/todays-outage-post-mortem-82515
J’en tire plusieurs leçons :
1) La dépendance de tant de sites vis-à-vis d’un seul fournisseur n’est pas une bonne chose. Point déjà signalé en ▻http://www.sebsauvage.net/rhaa/index.php?2012/01/23/13/42/15-cloudflare-le-syndrome-akismet
2) Les outils permettant de gérer simplement N machines sont à la fois indispensables et dangereux. (L’équivalent de #Flowspec que cite l’article, pour une machine Unix, serait #Chef, #Puppet ou #Ansible, avec lesquels des catastrophes équivalentes sont possibles) Lorsque ces outils déconnent, ils transforment une panne locale en un problème mondial. Gérer à la main 1 000 routeurs n’est évidemment pas réaliste. Les gérer tous « comme un seul routeur » expose à des pannes comme celle d’aujourd’hui. Sur la liste FRnog, Frédéric Dhieux a formulé une idée intéressante : avoir N (avec N >= 2) groupes de routeurs gérés de manière différente par des équipes différentes.
Un article moins technique : ▻http://techcrunch.com/2013/03/03/cloudflare-is-down-due-to-dns-outage-taking-down-785000-websites-includi
Et un exposé sur l’utilisation de Flowspec à CloudFlare. Il doit être très lu aujourd’hui :-) ▻http://www.slideshare.net/junipernetworks/flowspec-bay-area-juniper-user-group-bajug
Une présentation de FlowSpec en français : ▻http://media.frnog.org/FRnOG_18/FRnOG_18-6.pdf