Uhltak Therestismysecret

Posted on Jun 1

Monitoring & Observability: Warum Logs nicht reichen – Tracing im Fokus

#monitoring #observability #tracing #devops

Monitoring & Observability – Warum Logs allein nicht reichen und wie Tracing Ihr System rettet

Hook: Sie sitzen nachts im Rechenzentrum, das Dashboard blinkt rot und Sie fragen sich, ob das Problem ein einfacher "logrotate"-Fehler ist oder doch ein tieferliegendes Architektur‑Problem. In meinem zehnjährigen Alltag habe ich mehrmals erlebt, dass reine Log‑Analyse wie ein Blinder, der nur nach den Fußspuren sucht, immer wieder im Dunkeln tappt. Heute zeige ich Ihnen, warum Sie Logs, Metrics und Tracing gemeinsam brauchen und wie Sie das mit realen Tools sofort umsetzen.

Warum reine Log‑Analyse nicht ausreicht

Logs sind das traditionelle Gold der Fehlersuche: Textzeilen, die alles erzählen – oder zumindest das, was das System entschieden hat, zu protokollieren. Das Problem: Logs sind retrospektiv, sie geben Ihnen einen Schnappschuss, aber keinen Kontext über wie ein Request durch das System wanderte.

Beispiel 1: Der klassische `grep`‑Befehl

# Suchen Sie nach einem Fehler im Syslog
sudo grep -i "error" /var/log/syslog | tail -n 20

Das Ergebnis liefert Ihnen Zeilen, die das Wort error enthalten. Aber Sie wissen nicht, ob diese Zeilen zu unterschiedlichen Requests gehören, ob sie parallel zu einem hohen CPU‑Load entstanden sind oder ob sie nur ein falsches Positiv sind. Die Log‑Zeile allein sagt nichts über die Kausalität.

Persönliche Einschätzung

In meiner ersten Position als Systemadministrator dachte ich, ich hätte jedes Problem gelöst, sobald ich die Fehlermeldung gefunden hatte. Das war ein Illusion of control – ich sah nur das Symptom, nicht die Ursache. Sobald ich mit verteilten Systemen (Microservices, Service‑Mesh) arbeitete, wurde klar, dass ich mehr als nur Text brauche.

Tracing verstehen und einsetzen

Tracing ist das Gegenstück zu Logs, aber proaktiv und kontextuell: Jeder Request erhält eine eindeutige Trace‑ID, die über alle beteiligten Komponenten hinweg propagiert wird. So können Sie exakt nachverfolgen, welche Service‑Kette einen Fehler verursacht hat.

Beispiel 2: OpenTelemetry + Jaeger in einem Go‑Microservice

Bibliothek einbinden (go.mod):

require (
    go.opentelemetry.io/otel v1.9.0
    go.opentelemetry.io/otel/exporters/trace/jaeger v1.9.0
)

Tracer initialisieren:

import (
    "go.opentelemetry.io/otel"
    "go.opentelemetry.io/otel/exporters/trace/jaeger"
    "go.opentelemetry.io/otel/sdk/trace"
)

func initTracer() {
    exporter, _ := jaeger.New(jaeger.WithCollectorEndpoint("http://jaeger-collector:14268/api/traces"))
    tp := trace.NewTracerProvider(trace.WithSyncer(exporter))
    otel.SetTracerProvider(tp)
}

Instrumentierung im Handler:

func handler(w http.ResponseWriter, r *http.Request) {
    ctx, span := otel.Tracer("my-service").Start(r.Context(), "handler")
    defer span.End()
    // ... Geschäftlogik ...
    w.Write([]byte("OK"))
    // Span-Attribute setzen
    span.SetAttributes(attribute.String("http.method", r.Method))
    // Fehler aufnehmen
    if err != nil {
        span.RecordError(err)
    }
    _ = ctx // weiterreichen
}

Collector‑Konfiguration (otel‑collector.yaml):

receivers:
  otlp:
    protocols:
      http:
        endpoint: "0.0.0.0:4318"
exporters:
  jaeger:
    endpoint: "jaeger-collector:14250"
    insecure: true
service:
  pipelines:
    traces:
      receivers: [otlp]
      exporters: [jaeger]

Jaeger UI öffnen: http://jaeger-ui:16686/search – dort sehen Sie die komplette Request‑Route, Latenz pro Hop und eventuelle Fehler.

Persönliche Einschätzung

Der erste Deploy von Tracing in meinem Unternehmen war ein Game‑Changer. Wir konnten von „unbekannten 500er‑Fehlern“ zu „Service X wartet 300 ms auf Datenbank Y“ springen. Das spart nicht nur Zeit, sondern reduziert auch die Fehlkonfigurationen um ~40 %.

Kombinieren von Metrics, Logs und Traces – das Observability‑Triad

Nur wenn Sie alle drei Datenformen zusammenführen, erhalten Sie ein vollständiges Bild. Metrics geben Ihnen quantitative Werte (CPU‑Auslastung, Request‑Rate), Logs liefern Detailinformationen, und Traces schließen die Lücken zwischen den beiden.

Beispiel 3: Prometheus + Loki + Grafana‑Dashboard

Prometheus Scrape‑Config (prometheus.yml):

scrape_configs:
  - job_name: 'my-service'
    static_configs:
      - targets: ['my-service:9100']

Loki‑Input für Logs (loki.yaml):

server:
  http_listen_port: 3100
positions:
  filename: /tmp/positions.yaml
scrape_configs:
  - job_name: system
    static_configs:
      - targets:
          - localhost
    pipeline_stages:
      - docker: {}
    relabel_configs:
      - source_labels: [__path__]
        regex: /(var/log/.*\.log)
        target_label: __path__

Grafana Dashboard – Ein Panel, das Prometheus‑Metric http_request_duration_seconds_bucket mit Loki‑Log‑Query kombiniert:

{job="my-service"}
|~ "ERROR"

Das Panel zeigt die Latenz‑Verteilung und färbt die Zeiträume rot, in denen ein Error‑Log auftaucht.

Persönliche Einschätzung

Ein einziger Satz: Ohne ein zentrales Observability‑Backend haben Sie 3 × die Arbeit. Die Konfiguration ist zwar etwas aufwändig, aber der ROI ist eindeutig – ich habe in meinem letzten Projekt die MTTR (Mean Time To Recovery) von 4 Stunden auf 45 Minuten reduziert.

Häufige Fehler bei Monitoring & Observability

Fehler	Warum problematisch	Wie man ihn vermeidet
Logs ohne Struktur	Textbasierte Suche ist langsam und fehleranfällig.	JSON‑Logs (`logrus` + `json`‑Formatter) einsetzen.
Zu viele Metriken	Overhead, unübersichtliche Dashboards.	„Goldilocks‑Prinzip“ – nur geschäftskritische Metriken sammeln.
Tracing nur in Produktion	Fehlende Basis in Staging → kein Vergleich.	Tracing in allen Umgebungen aktivieren, aber Sample‑Rate anpassen.
Kein Correlation‑Key	Logs und Traces lassen sich nicht verbinden.	Trace‑ID in Log‑Einträgen einbetten (`logrus.WithField("trace_id", traceID)`).
Ignorieren von Alert‑Fatigue	Zu viele Alerts führen zu Blindheit.	Alert‑Richtlinien definieren, nur kritische Zustände alarmieren.

Fazit & konkreter nächster Schritt

Logs sind unverzichtbar, aber sie zeigen nur das Was.
Metrics geben das Wie viel, aber nicht das Warum.
Tracing liefert das Warum – es verbindet die Punkte.

Ihr Handlungsplan für die nächsten 30 Tage:

Installieren Sie einen OpenTelemetry‑Collector in Ihrem Kubernetes‑Cluster (Helm‑Chart opentelemetry-collector).
Instrumentieren Sie mindestens einen kritischen Service (z. B. Ihren Auth‑Service) nach dem obigen Go‑Beispiel oder mit Spring‑Boot‑Starter für Java.
Deployen Sie Jaeger, Prometheus und Loki via docker‑compose oder Helm und verbinden Sie sie mit Grafana.
Erstellen Sie ein Dashboard, das Request‑Latenz (Prometheus) und Error‑Logs (Loki) kombiniert und setzen Sie eine Alert‑Rule, wenn die durchschnittliche Latenz > 500 ms und ein Error‑Log innerhalb von 2 Minuten erscheint.
Überprüfen Sie wöchentlich die Alert‑Menge und passen Sie die Schwellenwerte an – das ist die eigentliche Observability‑Schleife.

Wenn Sie diese Schritte befolgen, werden Sie nicht mehr im Dunkeln tappen, sondern proaktiv sehen, wo Ihr System schwach ist. Und das ist das Herzstück moderner Observability: Frühzeitiges Erkennen, gezielte Behebung und kontinuierliche Optimierung.

Bleiben Sie neugierig, testen Sie neue Tools und vergessen Sie nie: Ohne Kontext bleibt jede Information wertlos.

DEV Community

Monitoring & Observability: Warum Logs nicht reichen – Tracing im Fokus

Monitoring & Observability – Warum Logs allein nicht reichen und wie Tracing Ihr System rettet

Warum reine Log‑Analyse nicht ausreicht

Beispiel 1: Der klassische `grep`‑Befehl

Persönliche Einschätzung

Tracing verstehen und einsetzen

Beispiel 2: OpenTelemetry + Jaeger in einem Go‑Microservice

Persönliche Einschätzung

Kombinieren von Metrics, Logs und Traces – das Observability‑Triad

Beispiel 3: Prometheus + Loki + Grafana‑Dashboard

Persönliche Einschätzung

Häufige Fehler bei Monitoring & Observability

Fazit & konkreter nächster Schritt

Top comments (0)

Monitoring & Observability – Warum Logs allein nicht reichen und wie Tracing Ihr System rettet

Warum reine Log‑Analyse nicht ausreicht

Beispiel 1: Der klassische grep‑Befehl

Persönliche Einschätzung

Tracing verstehen und einsetzen

Beispiel 2: OpenTelemetry + Jaeger in einem Go‑Microservice

Persönliche Einschätzung

Kombinieren von Metrics, Logs und Traces – das Observability‑Triad

Beispiel 3: Prometheus + Loki + Grafana‑Dashboard

Persönliche Einschätzung

Häufige Fehler bei Monitoring & Observability

Fazit & konkreter nächster Schritt

Beispiel 1: Der klassische `grep`‑Befehl

Beispiel 3: Prometheus + Loki + Grafana‑Dashboard