Ett omfattande avbrott hos Amazon Web Services slog nyligen ut dussintals populära nätplattformar över stora delar av världen, bland dem Amazon, Alexa, Ring, Snapchat, Reddit, Fortnite, ChatGPT och Epic Games Store. Störningen pågick i flera timmar innan AWS lyckades återställa driften efter en serie så kallade kaskadeffekter.
Enligt Amazon inleddes avbrottet den 19 oktober klockan 23.48, stillahavstid, när användare började rapportera omfattande fel och fördröjningar i regionen US-EAST-1 i norra Virginia. Företaget bekräftade att störningen orsakades av problem med DNS-upplösningen för DynamoDB:s API-ändpunkt. Ingenjörerna lyckades mildra felet efter cirka elva timmar, men den fullständiga återställningen av alla drabbade tjänster tog omkring sexton timmar och påverkade användare i flera tidszoner under hela dagen.
Programvarubugg
Enligt Ars Technica hade avbrottet sitt ursprung i en programvarubugg i en komponent för DNS-hantering som används av DynamoDB, en av AWS:s centrala databastjänster. En så kallad race condition, ett tidsfel mellan två överlappande processer, gjorde att en äldre DNS-plan skrev över en nyare och raderade alla IP-adresser för en viktig regional nod.
Det enskilda misstaget slog ut DynamoDB och spred sig vidare till tjänster som var beroende av den för autentisering, datatillgång eller intern dirigering. Tjänster som Lambda, Fargate och Redshift kunde varken skapa eller ändra nya instanser förrän nätverkets tillstånd hunnit uppdateras, vilket förlängde konsekvenserna långt in på följande dag.
Statistik från Ooklas Downdetector visar omfattningen. Plattformen registrerade mer än 17 miljoner användarrapporter från 60 länder, varav över sex miljoner kom från USA. Snapchat, Roblox, Reddit och Amazons egna tjänster för e-handel och Ring toppade listan över drabbade plattformar. Även myndighetswebbplatser, banker och utbildningsverktyg påverkades av samma regionala fel.
Ryggraden
Regionen US-EAST-1, som är Amazons äldsta och mest använda datacentrum, betraktas sedan länge som ryggraden i AWS molninfrastruktur. Enligt Ookla är det vanligt att även globala applikationer förlitar sig på just den regionen för centrala funktioner som identitetshantering, datatillstånd och metadataflöden. När den regionen drabbas av fel sprider sig effekten över hela världen. Eftersom många appar kedjar flera AWS-tjänster till varandra fick DNS-felet konsekvenser långt utanför Amazons egen kontroll och påverkade användare som inte ens visste att deras favoritplattformar använde företagets tjänster.
Källa: Ars Technica
Läs mer
Miljarder i förluster efter AWS-krasch – största driftstoppet på flera år
Molnjättarnas makt gör internet farligt sårbart – nätet kommer att krascha igen
