Tydzień temu pisaliśmy o awarii usług Azure, którą spowodowało uderzenie pioruna w system chłodzenia centrum danych Microsoftu w San Antonio. Pisaliśmy również, że centra danych są zasadniczo dobrze chronione, ale nie są niezniszczalne. Warto dodać, że chodzi o sprzęt, a nie o dane. Nawet jeśli część sprzętu została uszkodzona i wymieniona, wszystkie dane pozostały nienaruszone. Microsoft ujawnia kulisy tej awarii i tego, jak przywrócił działanie Azure.
Burza, która w zeszłym tygodniu przeszła nad obszarem San Antonio, nie tylko spowodowała zakłócenia w dostawie energii do tamtejszego centrum danych Microsoftu, ale też spowodowała wyłączenie systemów chłodzenia. W rezultacie znacząca ilość sprzętu uległa uszkodzeniu. W regionie południowo-centralnym w USA (uściślając - chodzi o region Azure) przez blisko dobę nie działały usługi, a Microsoft co kilka godzin raportował o sytuacji. Awaria dotknęła wszystkich, których środowiska działały fizycznie w tamtejszym centrum danych, a także użytkowników Active Directory i Visual Studio Team Services (teraz pod nową nazwą Azure DevOps). Burze, przechodzące nad regionem, to nic nowego, ale ta była wyjątkowa - przemieszczała się powoli i zanotowano rekordowe sumy opadów rzędu 4-9 cali.
W środku nocy czasu lokalnego piorun spowodował aktywność elektryczną systemu zasilania - twierdzi Microsoft. Spowodowało to skok napięcia, który zmusił fragment centrum danych do przejścia na zasilanie z generatora awaryjnego, ale również wyłączył systemy chłodzące, które po serwerach są drugą najważniejszą rzeczą w centrach danych. Tysiące serwerów generują ogromne ilości ciepła, które muszą być odprowadzane, by nie doszło do spalenia. Jak opowiada Microsoft, temperatura wzrosła tak szybko, że część sprzętu została zniszczona nim mogła zostać wyłączona. Uszkodzeniu uległa znaczna liczba serwerów do przechowywania danych i niewielka liczba urządzeń sieciowych oraz jednostek zasilających. Inżynierowie zdecydowali, że priorytetem będzie zachowanie danych klientów, a nie przenoszenie klientów do innego centrum danych, co mogło doprowadzić do utraty danych z powodu asynchronicznej natury georeplikacji.
Microsoft dość szczegółowo wyjaśnił klientom sytuację i takie podejście należy chwalić. Nie do końca wiadomo tylko, dlaczego system chłodzenia, który według firmy posiadał ochronę przeciwprzepięciową, został pokonany przez skok napięcia. Być może dzięki temu incydentowi Microsoft będzie mógł zastosować lepsze środki zapobiegawcze, bowiem podobny scenariusz jak najbardziej może powtórzyć się w przyszłości.