Det började som en skakning på nedre däck … nej inte riktigt. Det tog snarare tvärstopp, mitt i natten och vare sig jag eller vår leverantör vaknade av larmet som förkunnade att samtliga webbplatser nu inte var tillgängliga, inte möjliga att nå.
Tidigt på morgonen, några timmar senare däremot visade en överfull mailkorg att något var fel. “Vi har ett megafel” förklarade vår leverantör och det räckte med det för att förstå att den stora komockan just träffat fläkten, någon hade gjort något i det blå skåpet – ni vet.
Nu var det en inte en människa inblandad i detta utan teknisk utrustning som inte ska rasa på detta sätt men som ändå bestämde sig för att göra det, rasa.
17 maj
Nåväl medan jag firade 17 maj i grannlandet slet vår eminenta leverantör Sherpas i Skellefteå med att försöka att få igång allting igen. Något som utifrån kan te sig enkelt men den som gjort ett besök i deras serverhall (som släppts in – vilket långt ifrån alla gör) inser direkt att det är allt annat än enkelt. Här står ett stort antal stora servrar som i sin tur består av virtuella servrar, bland alla dem, våra servrar. En bit in på eftermiddagen så var det dags att börja att koppla på trafiken igen och det var nu komocka nummer två prickade fläkten,
Uppdateringar
Webbplatserna kom upp igen – bara för att direkt sättas i underhållsläge och alltså inte vara tillgängliga – igen. Under natten hade WordPress distribuerat ut en säkerhetsuppdatering och sådana installerar vi direkt och automatiskt så när alla webbplatserna kom upp igen, kunde nps ugen så började de att installera uppdateringen.
Servern, som inte är dimensionerad för att sopa in uppdateringar för drygt hundratalet webbplatsen samtidigt, knäade igen, betänkligt. Databasfel och andra problem stötte till medan servern slet med uppdateringarna. I normala fall är uppdateringarna inget problem. De rullar in över tid, vartefter webbplatserna uppdateras. I de fall där vi installerar uppdateringar manuellt så kör vi 10-20 webbplatser i taget. Lösningen blev att snabbt kasta sig in och stänga ned runt hälften av alla webbplatser, låta uppdateringarna installeras och sedan slå på resten av webbplatserna igen.
Det i sin tur gjorde att det dröjde innan alla webbplatser var uppdaterade och allt rullade som normalt igen. En olycka kommer sällan ensam.