AIOps ve Kestirimci Bakım: Sensör Verilerinden Otonom BT ve Operasyonel İyileştirmeye

#cloud

Reaktif operasyonların (break-fix) kurumsal yapılara maliyeti artık sürdürülebilir sınırların ötesine geçti. Modern BT ve OT (Operasyonel Teknoloji) altyapıları, saniyede milyonlarca log ve telemetri verisi üretiyor. İster binlerce kullanıcılı karmaşık bir VDI (Sanal Masaüstü Altyapısı) ortamı olsun, isterse havacılık sektöründeki kritik uçak motoru sensörleri olsun; insan kapasitesi bu "gürültü" içindeki anomaliyi tespit etmekte yetersiz kalıyor.

Bir Senior Sistem Mimarı olarak son dönemde endüstriyel mimarilerde ve BT operasyonlarında gözlemlediğim en kritik paradigma değişimi, AIOps (Artificial Intelligence for IT Operations) ve Kestirimci Bakım (Predictive Maintenance) metotlarının ITSM süreçleriyle tam entegre hale gelmesidir.

Bu makalede, kestirimci bakım konseptinin AIOps mimarisine nasıl entegre edildiğini, problemleri sistemler çökmeden önce nasıl yakaladığımızı ve mimarinin teknik temellerini inceleyeceğiz.

Problem: Veri Bataklığı ve Yüksek MTTR

Geleneksel izleme (monitoring) araçları "statik eşik değerlerine" dayanır. Örneğin, "CPU kullanımı %90'ı geçerse alarm ver". Ancak modern sistemlerde (örneğin VMware Horizon tabanlı bir VDI havuzunda veya uç uçbirimlerinde) donanım ivmelendirme sorunları veya GPU sürücü uyumsuzlukları, klasik eşik değerlerini tetiklemeden mikro-kesintilere neden olabilir. Sonuç: Bitmek bilmeyen alarm yorgunluğu (alert fatigue) ve yüksek Ortalama Çözüm Süresi (MTTR).

Mimari Çözüm: AIOps Tabanlı Kestirimci Bakım

Kestirimci bakım mimarisi temelde 4 katmandan oluşur: Veri Yutma (Ingestion), Makine Öğrenmesi ile İşleme, Karar/Uyarı (Inference) ve Otomatize Aksiyon (ITSM).

Aşağıdaki diyagram, OT sensör verilerinden BT metriklerine kadar geniş bir yelpazenin nasıl işlendiğini gösterir:

Kod snippet'i
graph TD
A[Telemetry / Sensor Data] -->|Kafka / Kinesis| B(Data Normalization Pipeline)
B --> C{AIOps Command Center}
C -->|Multivariate Analysis| D[Anomaly Detection]
C -->|Regression/LSTM| E[Remaining Useful Life - RUL]
D --> F[ITSM Platform Integration]
E --> F
F -->|API Webhook| G[Automated Remediation / Ticketing]
G --> H((Proactive Action))

Bu mimari sayesinde, örneğin bir sunucu kümesinde sıcaklık, disk I/O ve RAM kullanım kalıpları eşzamanlı olarak analiz edilir (Multivariate Anomaly Detection). Tek başına normal görünen metrikler birleştiğinde bir sistem arızasının habercisi olabilir.

Kestirimci Bakımın Kalbi: RUL (Remaining Useful Life) Tahmini

Kestirimci bakımın matematiksel temeli genellikle RUL (Kalan Faydalı Ömür) tahminine dayanır. Özellikle havacılık bakımında kullanılan ünlü C-MAPSS (Commercial Modular Aero-Propulsion System Simulation) veri seti gibi endüstriyel senaryolarda sensör degradasyonu (bozulması) zaman serisi analizi ile izlenir.

RUL tahmini için genellikle Uzun Kısa Vadeli Bellek (LSTM) ağları veya Transformer tabanlı mimariler kullanılır. Ağın hedefi, verilen t anındaki X
t

sensör/log verisine bakarak sistemin çökmesine kalan zamanı tahmin etmektir.

Bir LSTM modeli için kayıp fonksiyonu (Loss Function), genellikle Ortalama Kare Hatası (MSE) üzerinden hesaplanır ve modelin tahmin ettiği RUL değeri ile gerçek RUL arasındaki farkı minimize etmeyi amaçlar:

L(θ)=
N
1

i=1
∑
N

(RUL
i

−
RUL
i

)
2

Burada ağırlıkların (θ) güncellenmesi için geri yayılım (backpropagation) kullanılarak parçalı türevler alınır:

θ
yeni

=θ
eski

−η
∂θ
∂L

Teknik Entegrasyon ve Kod Örneği

Sistem mimarisinde, uçlardan toplanan verilerin sürekli olarak bir RUL değerlendirmesinden geçmesi gerekir. Aşağıda, PyTorch kullanan basit bir AIOps çıkarım (inference) pseudo-kodunu bulabilirsiniz:

Python
import torch
import torch.nn as nn

class PredictiveMaintenanceLSTM(nn.Module):
def init(self, input_size, hidden_layer_size, output_size=1):
super().init()
self.hidden_layer_size = hidden_layer_size
self.lstm = nn.LSTM(input_size, hidden_layer_size, batch_first=True)
self.linear = nn.Linear(hidden_layer_size, output_size)

def forward(self, input_seq):
    # input_seq: VDI telemetrisi, GPU yükü veya C-MAPSS sensör verileri
    lstm_out, _ = self.lstm(input_seq)
    predictions = self.linear(lstm_out[:, -1, :]) # Son zaman adımını al
    return predictions

Modelin yüklenmesi ve anlık veri tahmini

model = PredictiveMaintenanceLSTM(input_size=21, hidden_layer_size=50)
model.eval()

Gerçek zamanlı telemetri verisi (Örn: 50 zaman adımlı 21 sensör/metrik)

current_telemetry = torch.randn(1, 50, 21)

with torch.no_grad():
predicted_rul = model(current_telemetry)

if predicted_rul.item() < 24.0: # Kalan ömür 24 saatin altındaysa
    trigger_itsm_incident(priority="High", predicted_rul=predicted_rul.item())

Sonuç

AIOps platformları, makine öğrenimi modellerini (MLOps pratikleriyle) BT operasyonlarına yedirerek, reaktif ekipleri proaktif "Sistem Kurtarıcılarına" dönüştürür. Log verilerini, ITSM platformlarını ve makine öğrenmesi modellerini tek bir Command Center (Komuta Merkezi) etrafında birleştiren kurumlar, hem operasyonel verimliliklerini artırır hem de kesintileri tarihe gömer.