Analiz: Microsoft, ekiplerin, Office ve Co.’nun başarısızlığına ilişkin ilk ayrıntıları sağlar.

celeron

Global Mod
Global Mod


  1. Analiz: Microsoft, ekiplerin, Office ve Co.’nun başarısızlığına ilişkin ilk ayrıntıları sağlar.

Microsoft, bulut tabanlı hizmetlerinin başarısızlığının nedenleri hakkında bilgiler yayınladı. Microsoft’un Azure Cloud’unda yaşanan bir kesinti nedeniyle 25 Ocak Çarşamba sabahı çok sayıda kullanıcı bu platformda barındırılan uygulama ve hizmetlere erişemedi. Bunlar, yaygın işbirliği aracı Teams’i içeriyordu, ancak Outlook, Word, Excel gibi diğer Microsoft 365 uygulamaları da bulut tabanlı varyantlarında çalışmadı.


Ne oldu?


Çarşamba günü 08:05 ile 13:43 GMT arasında müşteriler, Azure bulut kaynaklarına erişirken yüksek gecikme, paket kaybı ve zaman aşımlarına neden olan bağlantı sorunları yaşadı. Kesinti gününde Microsoft, kesintinin nedeni olarak başlangıçta yalnızca bir ağ değişikliğini adlandırdı. Bunu düzeltmek için geri alındı. Microsoft’tan bir ön olay sonrası raporu artık daha fazla ayrıntı sağlıyor.

Bunun nedeni, bir WAN yönlendiricisinde planlanmış bir değişiklikti. Redmond’dan üreticiden gelen bilgilere göre, yönlendirici üzerindeki bir IP adresinin değiştirilmesi gerekiyor. Bunun için yönlendiriciye gönderilen komut, WAN’daki tüm yönlendiricilere mesaj gönderilmesine yol açtı. Bu, kontrol düzleminde yönlendirme bilgilerinin (bitişiklik ve yönlendirme tabloları) yeniden hesaplanmasına yol açtı. Microsoft, bunların normal BGP güncellemeleri olup olmadığından bahsetmez. Bu yeniden hesaplama sırasında yönlendiriciler, içinden geçen paketleri doğru bir şekilde iletemedi. Ön rapor, yalnızca bir yük sorunu mu yoksa yanlış yönlendirme mi olduğunu henüz ortaya koymuyor.

Kalite kontrol eksikliğinden kaynaklanan hata, örnek yanıt


Soruna neden olan komutun kökü, farklı yönlendiricilerde farklı davranır. Çalıştığı yönlendirici platformunda tam yeterlilik sürecinden geçmemişti, bu, ağ otomasyonu kalite kontrolünün klasik bir hatasıydı. Ancak, yalnızca istemciler ve Azure arasındaki kuzey/güney trafiği değil, aynı zamanda Azure bölgeleri ve ExpressRoute aracılığıyla bağlantılar arasındaki bağlantı da etkilendi.

Ancak, şirketin yanıtı örnek oldu. Microsoft, arızadan sadece yedi dakika sonra DNS ve WAN hatalarını fark etti ve daha önce yapılan değişiklikleri gözden geçirdi. Başlatmadan yaklaşık bir saat sonra ağda otomatik bir kurtarma işlemi başladı. Son ağ bileşeni sabah 10:35’te yeniden çalışmaya başladı. Ancak, WAN arızası nedeniyle, düzgün çalışmayan ağ bileşenlerinin izlenmesi ve otomatik olarak devre dışı bırakılması için otomasyon sistemleri de hizmet dışı kaldı. Sonuç olarak, paketler 13:43’e kadar kayboldu Birçok yönlendirici, “Önyükleme iyi hissettiriyor” sloganına sadık kalarak hâlâ manuel olarak yeniden başlatmaya ihtiyaç duyuyordu.


Sonuç: takip eylemi


Hatalar olabilir. Ama bundan ders çıkarmalısın. Microsoft şimdi başlangıçta büyük etkisi olan komutları engelledi ve tüm yürütmeleri “güvenli değişiklik yönergelerine” tabi tuttu. Olayın nihai incelemesi, olaydan sonraki on dört gün içinde yayınlanacaktır.



iX Magazine'den daha fazlası



iX Magazine'den daha fazlası




(jvo)



Haberin Sonu