Stepmex Weblog: Was gute Tests wirklich wirksam macht

Warum Systemzustände, Invarianten und Übergänge wichtiger sind als Testanzahl und Abdeckung

Wenn über Softwarequalität gesprochen wird, fällt der Blick fast automatisch auf Tests. Wie viele gibt es, wie hoch ist die Abdeckung, laufen sie stabil, sind sie grün. Dashboards zeigen Prozentwerte, Pipelines zeigen Häkchen, Reports zeigen Erfolg. Und doch kennt fast jeder erfahrene Entwickler und jede erfahrene QA-Engineer Situationen, in denen ein System im produktiven Betrieb versagt, obwohl zuvor alle Tests bestanden haben. Dieser scheinbare Widerspruch ist kein Randphänomen. Er ist ein strukturelles Missverständnis darüber, was Tests tatsächlich leisten können und was nicht.

Tests prüfen Beobachtungen entlang ausgewählter Pfade. Systeme hingegen verhalten sich im Raum aller möglichen Zustände, Übergänge und Wechselwirkungen. Zwischen beiden liegt eine Lücke. Diese Lücke entsteht nicht durch Nachlässigkeit, fehlenden Fleiß oder unzureichende Toolwahl, sondern durch ein unvollständiges Systemmodell. Wer nur Funktionen testet, aber keine Zustände versteht, prüft Ausschnitte, nicht das Verhalten des Ganzen.

Ein einfaches Beispiel verdeutlicht das Problem. Eine Funktion verarbeitet Eingabedaten und liefert ein korrektes Ergebnis. Der Unit-Test bestätigt das. In der Realität läuft dieselbe Funktion jedoch nicht isoliert. Sie liest Konfiguration, nutzt Caches, greift auf Zeitquellen zu, schreibt Logs, löst Folgeprozesse aus und wird möglicherweise mehrfach parallel aufgerufen. Jeder dieser Faktoren erweitert den Zustandsraum. Der Test hat die Funktion geprüft. Das System hat er nicht geprüft.

Qualität scheitert daher selten an fehlenden Tests. Sie scheitert daran, dass das geprüfte Modell kleiner ist als das reale System. Ein Testfall beantwortet die Frage: „Ist dieses Verhalten unter diesen Bedingungen korrekt?“ Ein Systemproblem stellt eine andere Frage: „Welche Bedingungen existieren überhaupt, und wie verändern sie sich?“ Wer die zweite Frage nicht sauber modelliert, kann die erste noch so gründlich prüfen, das Ergebnis bleibt jedoch lückenhaft.

Hinzu kommt, dass moderne Systeme stark zustandsabhängig arbeiten. Daten verändern sich, Caches füllen sich, Hintergrundprozesse laufen, Retry-Mechanismen greifen, Nebenläufigkeit erzeugt Reihenfolgeeffekte. Zwei identische Aufrufe können unterschiedliche Resultate liefern, weil der Systemzustand zwischen beiden Aufrufen nicht identisch ist. Tests, die diesen Zustand nicht kontrollieren oder zumindest beobachten, messen nur Momentaufnahmen.

Ein weiteres häufiges Missverständnis liegt in der Gleichsetzung von Testabdeckung mit Verhaltensabdeckung. Code Coverage misst, welche Zeilen ausgeführt wurden. Sie misst nicht, welche Zustandskombinationen durchlaufen wurden. Ein Zweig kann einmal betreten worden sein und dennoch in zehn anderen Zustandskonstellationen anders reagieren. Besonders bei zustandsreichen Komponenten, Batch-Verarbeitung, Caching, Retry-Logik oder nebenläufigen Abläufen wächst die Zahl möglicher Verhaltenspfade schneller, als klassische Testfalllisten sie erfassen können.

Das Ziel dieses Beitrags ist deshalb nicht, mehr Tests zu fordern. Es geht um etwas anderes. Es geht darum, Qualität als Ergebnis von Systemverständnis zu betrachten. Tests sind dabei ein zentrales Werkzeug, aber sie entfalten ihre Wirkung erst dann vollständig, wenn Zustände, Abhängigkeiten und Seiteneffekte explizit gemacht werden. Erst wenn klar ist, welches Systemverhalten überhaupt existieren kann, lassen sich die wirklich relevanten Prüfungen ableiten.

Im weiteren Verlauf wird das System nicht als Sammlung von Funktionen betrachtet, sondern als Zustandsmaschine mit Übergängen, Kopplungen und Wirkungsrichtungen. Auf dieser Basis wird sichtbar, warum Tests manchmal trügen, warum grüne Ergebnisse nicht automatisch Sicherheit bedeuten und wie sich Prüfstrategien technisch so aufbauen lassen, dass sie das reale Verhalten deutlich besser abdecken.

Systeme als Zustandsmaschinen

Software wird häufig wie eine Sammlung von Funktionen beschrieben. Eine Funktion nimmt Eingaben entgegen und liefert Ausgaben. Wenn für genügend dieser Funktionen Tests existieren, entsteht schnell das Gefühl, das System sei verstanden und abgesichert. Dieses Denkmodell ist bequem, aber es ist technisch unzureichend. Reale Systeme verhalten sich nicht wie lose Funktionssammlungen. Sie verhalten sich wie Zustandsmaschinen.

Ein zustandsloses Modell kennt nur Eingabe und Ausgabe. Ein zustandsbehaftetes Modell kennt zusätzlich einen internen Zustand, der das Ergebnis beeinflusst. Genau dort beginnt die Komplexität. Der gleiche Aufruf mit den gleichen Parametern kann unterschiedliche Resultate liefern, abhängig davon, was zuvor passiert ist. Wer nur die Funktionssignatur betrachtet, übersieht den größten Teil des tatsächlichen Verhaltens.

Ein typisches Beispiel ist ein Service mit Cache. Der erste Aufruf liest aus der Datenbank, der zweite aus dem Cache. Funktional ist beides korrekt. Systemisch ist es ein anderer Zustand mit anderen Nebenwirkungen, anderer Laufzeit, anderer Fehlercharakteristik. Ein klassischer Unit-Test prüft meist nur einen dieser Pfade. Das System besitzt jedoch mindestens zwei.

Noch deutlicher wird es bei zustandsgetriebenen Komponenten. Man kann sie formal als Zustandsautomat modellieren: definierte Zustände, definierte Übergänge, definierte erlaubte Operationen pro Zustand. Genau dieses Denken fehlt in vielen Teststrategien.

Ein vereinfachtes technisches Beispiel einer Zustandsmaschine:

enum JobState {
    CREATED,
    VALIDATED,
    RUNNING,
    FAILED,
    FINISHED
}

class Job {
    private JobState state;

    public void validate() {
        assertState(JobState.CREATED);
        state = JobState.VALIDATED;
    }

    public void start() {
        assertState(JobState.VALIDATED);
        state = JobState.RUNNING;
    }

    public void fail() {
        assertState(JobState.RUNNING);
        state = JobState.FAILED;
    }

    public void finish() {
        assertState(JobState.RUNNING);
        state = JobState.FINISHED;
    }

    private void assertState(JobState expected) {
        if (state != expected) {
            throw new IllegalStateException(
                "Invalid transition from " + state + " expected " + expected
            );
        }
    }
}

Ein funktionaler Test könnte prüfen, dass finish() nach start() korrekt funktioniert. Ein systemischer Test prüft zusätzlich:

Was passiert bei doppeltem start()
Was passiert bei finish() ohne validate()
Was passiert bei fail() nach finish()
Welche Übergänge sind verboten
Welche Zustände sind terminal
Welche Übergänge müssen idempotent sein

Damit verschiebt sich der Fokus von Funktionsprüfung zu Übergangsprüfung.

In realen Systemen sind Zustände allerdings selten so explizit. Sie verstecken sich in Datenbanken, in Caches, in Message Queues, in Dateisystemen, in externen Services oder in Zeitabhängigkeiten. Ein Auftrag ist nicht nur „vorhanden oder nicht vorhanden“. Er ist angelegt, reserviert, verarbeitet, teilweise verarbeitet, zurückgerollt oder archiviert. Jeder dieser Zustände verändert erlaubte Operationen und Fehlerbilder.

Ein besonders kritischer Zustandsfaktor ist Zeit. Viele Komponenten verhalten sich abhängig von Zeitfenstern, TTLs, Sperrfristen oder Ablaufdaten. Zwei Testläufe mit identischem Code und identischen Daten können unterschiedliche Ergebnisse liefern, wenn Zeit als versteckter Parameter wirkt. Ohne kontrollierbare Zeitquelle ist ein System nicht deterministisch testbar.

Ein technischer Ansatz zur Entkopplung von Zeit ist die Abstraktion der Uhr:

interface Clock {
    Instant now();
}

class SystemClock implements Clock {
    public Instant now() {
        return Instant.now();
    }
}

class FixedClock implements Clock {
    private final Instant fixed;

    FixedClock(Instant fixed) {
        this.fixed = fixed;
    }

    public Instant now() {
        return fixed;
    }
}

Komponenten, die diese Clock verwenden, werden zustandskontrollierbar testbar. Der Zeitfaktor wird vom impliziten Zustand zum expliziten Parameter.

Neben Zeit wirken weitere Zustandsmultiplikatoren:

Nebenläufigkeit
Retry-Mechanismen
asynchrone Verarbeitung
Event-Reihenfolgen
Datenabhängigkeiten
Konfigurationsumschaltungen

Jeder dieser Faktoren vergrößert den Zustandsraum. Die Zahl möglicher Systemzustände wächst nicht linear, sondern kombinatorisch. Genau hier entsteht die sogenannte State Space Explosion. Vollständige Testabdeckung ist dann nicht mehr erreichbar. Der einzige praktikable Weg ist Modellierung und Klassifikation von Zustandsklassen.

Statt jeden Zustand einzeln zu testen, werden Zustandsgruppen definiert:

leer vs gefüllt
initial vs fortgeschritten
stabil vs im Übergang
konsistent vs inkonsistent
synchron vs verzögert

Tests werden dann entlang dieser Klassen entworfen, nicht entlang einzelner Funktionen. Das ist kein Mehraufwand, sondern ein Perspektivwechsel. Man testet nicht mehr nur, was der Code tut. Man testet, in welchem Zustand sich das System befindet, wenn der Code etwas tut.

Systemverständnis beginnt genau an diesem Punkt: wenn Verhalten nicht mehr nur als Reaktion auf Eingaben gesehen wird, sondern als Funktion von Eingaben und Zustand. Erst auf dieser Grundlage lassen sich Tests formulieren, die mehr prüfen als nur den sichtbaren Rückgabewert.

Abhängigkeiten und Seiteneffekte

Wenn Systeme als Zustandsmaschinen verstanden werden, verschiebt sich automatisch der Blick auf einen weiteren entscheidenden Faktor: Abhängigkeiten. Kaum eine produktive Komponente arbeitet isoliert. Sie liest Daten, schreibt Daten, ruft Services auf, nutzt Caches, publiziert Events oder reagiert auf externe Signale. Jede dieser Verbindungen erzeugt Kopplung. Und jede Kopplung erzeugt Seiteneffekte. Genau dort entstehen viele Fehlerbilder, die in klassischen Tests unsichtbar bleiben.

Abhängigkeiten sind nicht nur Bibliotheken oder Services. Abhängigkeiten sind auch:

Konfigurationswerte
Umgebungsvariablen
Zeitquellen
Zufallsquellen
Netzwerkzustand
Datenbankinhalte
Cache-Füllstände
Warteschlangen
Feature-Schalter

Technisch betrachtet bildet jede Abhängigkeit einen zusätzlichen Eingabekanal. Wenn dieser Kanal im Test nicht kontrolliert wird, ist das Testergebnis nur bedingt aussagekräftig. Zwei identische Testläufe können sich unterschiedlich verhalten, obwohl der geprüfte Code unverändert ist. Ursache ist nicht der Code, sondern die unkontrollierte Abhängigkeit.

Besonders tückisch sind indirekte Abhängigkeiten. Ein Service ruft einen anderen Service auf, der intern wiederum einen dritten Service nutzt. Der ursprüngliche Test kennt nur die erste Kante im Graphen. Der Effekt entsteht jedoch am Ende der Kette. Ohne Sicht auf den Abhängigkeitsgraphen bleibt das Risiko verborgen.

Man kann Abhängigkeiten technisch sichtbar machen. Ein einfacher Ansatz ist instrumentiertes Dependency Tracing. Jede externe Interaktion wird explizit protokolliert und klassifiziert.

class DependencyTracer {

    private final List<String> calls = new ArrayList<>();

    public <T> T trace(String dependencyName, Supplier<T> call) {
        long start = System.nanoTime();
        try {
            return call.get();
        } finally {
            long duration = System.nanoTime() - start;
            calls.add(dependencyName + ":" + duration);
        }
    }

    public List<String> getCalls() {
        return List.copyOf(calls);
    }
}

Verwendung:

result = tracer.trace("pricing-service",
    () -> pricingClient.calculatePrice(order));

Ein Test kann anschließend nicht nur das Ergebnis prüfen, sondern auch:

welche Abhängigkeiten beteiligt waren
wie oft sie aufgerufen wurden
in welcher Reihenfolge
mit welcher Laufzeit

Damit wird aus einem Funktions-Test ein Interaktions-Test.

Seiteneffekte sind die zweite große Blindstelle. Ein Seiteneffekt liegt vor, wenn eine Operation mehr bewirkt als ihren Rückgabewert. Klassische Beispiele sind Datenbankwrites, Event-Publikation oder Cache-Invalidierung. Schwieriger sind versteckte Seiteneffekte, etwa implizite Statusänderungen oder verzögerte Folgeprozesse.

Ein typischer Fall ist Retry-Logik. Ein scheinbar harmloser Wiederholmechanismus kann massive Seiteneffekte erzeugen:

doppelte Buchungen
mehrfach versendete Nachrichten
mehrfach ausgelöste Jobs
inkonsistente Zwischenzustände

Ob ein Retry sicher ist, hängt an der Idempotenz der Operation. Idempotenz bedeutet, dass mehrfaches Ausführen denselben Systemzustand hinterlässt wie einmaliges Ausführen. Das ist eine Systemeigenschaft, keine Testeigenschaft.

Ein technisches Idempotenz-Gate kann so aussehen:

class IdempotencyStore:
    def __init__(self):
        self.seen = set()

    def execute_once(self, key, fn):
        if key in self.seen:
            return "duplicate-suppressed"
        result = fn()
        self.seen.add(key)
        return result

Tests, die Retry-Pfade prüfen, sollten nicht nur den Erfolgsfall testen, sondern explizit:

Erstaufruf
Wiederholter Aufruf
paralleler Doppelaufruf
verspäteter Doppelaufruf

Abhängigkeiten erzeugen außerdem Reihenfolgekopplung. Zwei Operationen sind einzeln korrekt, aber nicht in jeder Reihenfolge. Dieses Problem tritt häufig bei Cache und Persistenz auf:

Schreibe Datenbank
Invalide Cache

Vertauscht man die Reihenfolge, kann ein altes Cache-Objekt wieder gültig erscheinen. Der Fehler ist kein Funktionsfehler, sondern ein Ordnungsfehler. Klassische Tests mit isolierten Aufrufen entdecken ihn selten.

Reihenfolgeprobleme lassen sich gezielt testen, indem man Operationssequenzen generiert statt Einzelaufrufe.

operations = [
    lambda: write_db("A"),
    lambda: invalidate_cache("A"),
    lambda: read_cached("A")
]

import itertools

for seq in itertools.permutations(operations):
    reset_state()
    for op in seq:
        op()
    assert_consistency()

Damit wird nicht nur Verhalten geprüft, sondern Verhaltensabhängigkeit von Reihenfolgen.

Ein weiterer unterschätzter Seiteneffekt ist Zustandsleckage zwischen Tests. Gemeinsame Datenbanken, wiederverwendete Container oder statische Speicher führen dazu, dass Tests nicht mehr unabhängig sind. Das Ergebnis eines Tests hängt dann vom vorherigen Test ab. Das ist kein Testfehler im engeren Sinn, sondern ein Systemzustandsproblem.

Technisch sauber ist daher:

explizites State Reset
isolierte Testdatenräume
eindeutige Test-IDs
zustandslose Fixtures
reproduzierbare Initialzustände

Abhängigkeiten und Seiteneffekte sind keine Ausnahmefälle. Sie sind der Normalfall realer Systeme. Wer sie nicht modelliert, testet nur den sichtbaren Teil der Logik. Wer sie sichtbar macht, erweitert Tests um die Dimension des Systemverhaltens. Genau dort beginnt die Qualität, die über Funktionskorrektheit hinausgeht.

Invarianten und eigenschaftsbasierte Tests

Wenn Zustände, Abhängigkeiten und Seiteneffekte sichtbar gemacht wurden, verändert sich zwangsläufig auch die Definition dessen, was ein „guter Test“ ist. Gute Tests sind dann nicht mehr diejenigen mit der höchsten Anzahl oder der größten Codeabdeckung. Gute Tests sind diejenigen, die Systemverhalten unter kontrollierten, erklärten Bedingungen prüfen. Der Maßstab verschiebt sich von Quantität zu Modelltreue.

Viele Testansätze sind funktionsgetrieben. Eingabe rein, Ausgabe raus, Vergleich mit Erwartungswert. Dieses Muster ist sinnvoll, aber es deckt nur einen schmalen Ausschnitt ab. Systemisch starke Tests prüfen nicht nur konkrete Ergebnisse, sondern Eigenschaften, Invarianten und Zustandsregeln. Sie prüfen nicht nur Werte, sondern Strukturen und Garantien.

Ein zentrales Konzept dabei sind Invarianten. Eine Invariante ist eine Eigenschaft, die unabhängig vom konkreten Ablauf immer gelten muss. Zum Beispiel:

Kontostand darf nie negativ werden
Summe aller Teilbeträge muss dem Gesamtbetrag entsprechen
Ein Objekt darf nach Abschluss nicht mehr veränderbar sein
Eine ID darf systemweit nur einmal existieren

Solche Regeln lassen sich testen, ohne jeden Einzelfall vorher zu kennen. Statt erwarteter Einzelwerte wird eine Systemregel geprüft.

Ein einfaches invariantenbasiertes Testmuster:

def assert_invariant_order(order):
    assert order.total == sum(item.price for item in order.items)
    assert order.total >= 0
    assert order.currency in {"EUR", "USD", "CHF"}

Der Test prüft nicht einen speziellen Warenkorb, sondern die Konsistenzregel des Modells. Das ist robuster gegenüber Varianten und Zustandskombinationen.

Ein weiterer starker Ansatz ist eigenschaftsbasiertes Testen. Statt feste Testfälle zu definieren, werden Eingabemengen generiert und gegen Eigenschaften geprüft. Das erweitert automatisch den geprüften Zustandsraum.

Beispiel mit einem Generator:

import random

def random_order():
    items = [random.randint(1, 100) for _ in range(random.randint(1, 20))]
    return items

for _ in range(1000):
    items = random_order()
    total = calculate_total(items)
    assert total >= max(items)

Hier wird nicht ein Testfall geprüft, sondern eine Eigenschaft über viele Zustände hinweg. Entscheidend ist, dass die geprüfte Eigenschaft aus dem Systemmodell stammt, nicht aus dem Implementierungsdetail.

Neben Invarianten und Eigenschaften gewinnen Vertragsdefinitionen an Bedeutung. Ein Vertrag beschreibt, was eine Schnittstelle garantiert. Nicht nur Rückgabewerte, sondern auch Nebenbedingungen:

welche Felder immer gesetzt sind
welche Wertebereiche zulässig sind
welche Fehlerarten auftreten dürfen
welche Zustände sich dadurch ändern dürfen

Vertragstests prüfen diese Zusagen explizit. Sie entkoppeln Testlogik von konkreten Implementierungen und koppeln sie an Systemregeln.

Technisch lässt sich das mit Vertragsobjekten abbilden:

record PriceResult(BigDecimal amount, String currency) {
    PriceResult {
        if (amount == null || amount.signum() < 0) {
            throw new IllegalArgumentException("amount invalid");
        }
        if (!Set.of("EUR","USD").contains(currency)) {
            throw new IllegalArgumentException("currency invalid");
        }
    }
}

Tests prüfen dann nicht nur Werte, sondern Vertragsverletzungen.

Ein weiterer Qualitätshebel ist Determinismus im Testlauf. Tests sollten reproduzierbar sein. Nicht nur im Code, sondern im gesamten Einflussraum. Dazu gehört die Kontrolle über:

Zeit
Zufall
externe Antworten
Nebenläufigkeit
Retry-Verhalten

Zufallsabhängige Logik lässt sich deterministisch machen, indem der Seed explizit gesetzt wird.

rng = random.Random(12345)

def generate_id():
    return rng.randint(0, 10_000_000)

Damit wird ein nichtdeterministischer Faktor testbar. Dasselbe gilt für Nebenläufigkeit. Anstelle echter Threads kann ein steuerbarer Scheduler eingesetzt werden, der Ausführungsreihenfolgen simuliert. So werden Race Conditions reproduzierbar prüfbar.

Replay-Tests sind eine weitere starke Technik. Dabei wird ein realer Ablauf aufgezeichnet und exakt wieder abgespielt. Nicht als Mock, sondern als Sequenz echter Interaktionen. Das ist besonders wertvoll bei komplexen Integrationsflüssen.

Ein einfaches Replay-Prinzip:

recorded = []

def record_call(name, fn, *args):
    result = fn(*args)
    recorded.append((name, args, result))
    return result

def replay(log):
    for name, args, expected in log:
        result = registry[name](*args)
        assert result == expected

Replay-Tests prüfen nicht nur Logik, sondern Ablaufkonsistenz.

Ein oft unterschätzter Punkt ist die Qualität des Testorakels. Das Orakel ist die Instanz, die entscheidet, ob ein Testergebnis korrekt ist. Wenn das Orakel zu simpel ist, übersieht der Test Fehler. Ein Beispiel ist der reine Statuscode-Vergleich bei APIs. Ein HTTP 200 sagt wenig über die fachliche Korrektheit der Antwort aus. Ein starkes Orakel prüft Struktur, Konsistenz, Nebenwirkungen und Zustandsänderung.

Gute Tests entstehen daher nicht aus Toolwahl, sondern aus Modellklarheit. Sie leiten sich aus Zuständen, Regeln und Verträgen ab. Sie kontrollieren Einflussfaktoren. Sie prüfen Eigenschaften statt nur Beispiele. Und sie machen implizite Annahmen explizit prüfbar. Genau dadurch wächst ihre Aussagekraft über einzelne Funktionsprüfungen hinaus.

Modellbasierte Testplanung

Systemverständnis zeigt seinen größten Wert nicht im einzelnen Testfall, sondern in der Art, wie Tests überhaupt geplant werden. Sobald ein System als Zustandsraum mit Übergängen, Abhängigkeiten und Invarianten modelliert ist, verändert sich die Teststrategie grundlegend. Testplanung wird dann nicht mehr aus Anforderungen abgeleitet, sondern aus dem Systemmodell selbst. Genau hier entsteht der Qualitätsmultiplikator.

Der erste Schritt ist die technische Lesbarmachung des Systems. Viele Systeme sind implementiert, aber nicht explizit beschrieben. Zustände existieren im Code, aber nicht im Modell. Übergänge passieren, aber niemand hat sie als Graph formuliert. Abhängigkeiten sind vorhanden, aber nur verteilt sichtbar. Teststärke entsteht dort, wo diese Strukturen explizit gemacht werden.

Ein praktikabler Ansatz ist die Ableitung eines Zustandsmodells direkt aus der Implementierung. Nicht als formales UML-Dokument, sondern als prüfbares Artefakt. Zustände, erlaubte Operationen und verbotene Übergänge werden als Datenstruktur beschrieben und können im Test ausgewertet werden.

Beispiel eines einfachen Zustandsmodells als prüfbare Struktur:

STATE_MODEL = {
    "CREATED": {"validate"},
    "VALIDATED": {"start"},
    "RUNNING": {"finish", "fail"},
    "FAILED": set(),
    "FINISHED": set()
}

def assert_transition_allowed(state, operation):
    allowed = STATE_MODEL[state]
    if operation not in allowed:
        raise AssertionError(f"Operation {operation} not allowed in {state}")

Tests können dieses Modell direkt verwenden. Damit wird nicht nur Verhalten getestet, sondern Modelltreue. Implementierung und Modell stehen in überprüfbarer Beziehung.

Ein zweiter Hebel ist Observability als Testgrundlage. Ein System, dessen interner Zustand nicht beobachtbar ist, ist nur oberflächlich testbar. Beobachtbarkeit bedeutet nicht nur Logging, sondern strukturierte Zustands- und Übergangssignale. Tests werden stärker, wenn sie nicht nur Endergebnisse sehen, sondern interne Entwicklungsschritte.

Technisch kann man dafür gezielte Beobachtungspunkte einbauen:

interface StateProbe {
    void record(String component, String state);
}

class RecordingProbe implements StateProbe {
    private final List<String> states = new ArrayList<>();

    public void record(String c, String s) {
        states.add(c + ":" + s);
    }

    public List<String> history() {
        return List.copyOf(states);
    }
}

Tests prüfen dann nicht nur Resultate, sondern Zustandsverläufe:

wurde der erwartete Übergang durchlaufen
in welcher Reihenfolge
wie oft
unter welchen Parametern

Damit wird Verhalten als Sequenz prüfbar, nicht nur als Punktwert.

Ein dritter Verstärker ist die Arbeit mit Zustandsmetriken. Statt nur fachliche Ergebnisse zu prüfen, werden Systemmetriken Teil der Testaussage. Beispiele:

Anzahl erzeugter Events
Anzahl externer Calls
Anzahl Retry-Versuche
Queue-Längen
Cache-Trefferquote

Ein Test kann damit nicht nur korrekt oder falsch sein, sondern auch Anomalien erkennen.

assert metrics.retry_count <= 1
assert metrics.external_calls == 2
assert metrics.cache_hits >= 1

Solche Assertions decken Fehlverhalten auf, das funktional korrekt wirkt, aber systemisch problematisch ist.

Systemverständnis ermöglicht außerdem modellbasierte Testauswahl. Statt Testfälle nach Features zu gruppieren, werden sie nach Risikozonen im Zustandsraum ausgewählt:

Übergänge mit hoher Seiteneffekt-Dichte
Übergänge mit externer IO
Übergänge mit Nebenläufigkeit
Übergänge mit Retry oder Fallback
Übergänge mit Datenmigration

Das ist keine organisatorische Priorisierung, sondern eine technische. Der Zustandsgraph liefert die Testpriorität.

Ein weiterer wichtiger Punkt ist die explizite Trennung zwischen Funktionszufall und Systemzufall. Zufall in Algorithmen, Zeit in Abläufen und Nebenläufigkeit in Scheduling sollten technisch injizierbar sein. Systeme, die diese Faktoren abstrahieren, sind reproduzierbar testbar. Systeme ohne diese Abstraktionen bleiben testbar nur im Mittelwert, nicht im Einzelfall.

Ein deterministischer Scheduler für Tests kann beispielsweise Aufgabenreihenfolgen kontrollieren:

class TestScheduler:
    def __init__(self):
        self.queue = []

    def schedule(self, fn):
        self.queue.append(fn)

    def run_all(self):
        while self.queue:
            self.queue.pop(0)()

Nebenläufige Logik wird im Test seriell und steuerbar. Race-Effekte werden gezielt provozierbar.

Der entscheidende Effekt all dieser Techniken ist nicht mehr Testmenge, sondern Testschärfe. Tests werden aussagekräftiger, weil sie näher am Systemmodell liegen. Sie prüfen nicht nur, ob etwas funktioniert, sondern ob es im richtigen Zustandsrahmen funktioniert, mit kontrollierten Abhängigkeiten und beobachtbaren Übergängen.

Am Ende steht eine nüchterne, aber wichtige Erkenntnis. Qualität ist kein Nebenprodukt vieler Tests. Qualität entsteht dort, wo Systeme verstanden, modelliert und technisch beobachtbar gemacht werden. Tests sind dann nicht mehr ein Sicherheitsnetz unter dem Code, sondern ein Messinstrument für das reale Systemverhalten. Genau in dieser Verschiebung liegt der Unterschied zwischen getesteter Software und verstandener Software.

Systemverständnis als Qualitätshebel

Am Ende läuft alles auf einen Perspektivwechsel hinaus. Tests sind kein Selbstzweck und keine Qualitätsgarantie per Menge. Sie sind Messinstrumente. Und wie jedes Messinstrument liefern sie nur dann verlässliche Ergebnisse, wenn klar ist, was genau gemessen wird. Ohne Systemmodell misst man Symptome. Mit Systemmodell misst man Verhalten.

In vielen Projekten beginnt Testdesign auf der Ebene von Anforderungen oder Funktionen. Das ist sinnvoll, aber nicht ausreichend. Der stabilere Ausgangspunkt ist das technische Wirkmodell des Systems. Welche Zustände existieren. Welche Übergänge erlaubt sind. Welche Abhängigkeiten wirken. Welche Seiteneffekte auftreten. Welche Invarianten immer gelten müssen. Aus dieser Sicht entstehen Tests, die nicht nur korrekt, sondern relevant sind.

Ein praktischer Weg dorthin ist ein technischer Modellierungszyklus, der eng mit der Implementierung verzahnt ist. Er besteht aus wenigen, aber wirkungsvollen Schritten.

Zuerst wird das System in Zustandsklassen zerlegt. Nicht jedes Detail, sondern die stabilen, unterscheidbaren Betriebszustände. Zum Beispiel leer, initialisiert, aktiv, gesperrt, abgeschlossen, inkonsistent. Diese Klassen sind testbar und verständlich. Sie reduzieren den Zustandsraum auf prüfbare Bereiche.

Danach werden Übergänge identifiziert. Welche Operation verschiebt den Zustand. Unter welchen Vorbedingungen. Mit welchen Nebenwirkungen. Jeder Übergang ist ein natürlicher Testkandidat. Nicht als einzelner Testfall, sondern als Übergangsklasse.

Anschließend werden Abhängigkeiten explizit markiert. Für jede externe Wirkung wird festgehalten:

liest sie Zustand
verändert sie Zustand
ist sie deterministisch
ist sie zeitabhängig
ist sie nebenläufig
ist sie wiederholbar

Alle markierten Kanten sind Hochwert-Testzonen. Nicht weil sie fehlerhaft sind, sondern weil sie wirkstark sind.

Darauf aufbauend werden Invarianten formuliert. Keine UI-Erwartungen, keine Detailwerte, sondern Systemregeln. Diese Invarianten werden zu dauerhaften Assertions in Tests, Monitoring und teilweise sogar im Produktivcode. Sie wirken wie Leitplanken.

Technisch kann man Invarianten sogar zur Laufzeit prüfen lassen:

void assertSystemInvariant(Order o) {
    if (o.total().compareTo(BigDecimal.ZERO) < 0) {
        throw new IllegalStateException("negative total");
    }
    if (!o.currency().equals(o.paymentCurrency())) {
        throw new IllegalStateException("currency mismatch");
    }
}

Solche Prüfungen sind keine Tests im klassischen Sinn, sondern eingebettetes Systemwissen. Tests und Laufzeitüberwachung greifen hier ineinander.

Ein weiterer Schritt ist die bewusste Gestaltung von Beobachtungspunkten. Systeme werden testbarer, wenn sie intern Signale liefern. Zustandswechsel, Entscheidungszweige, Fallback-Aktivierungen, Retry-Ausführungen. Diese Signale sind keine Debug-Ausgaben, sondern strukturierte Ereignisse. Sie erlauben Tests, Verhalten nachzuvollziehen statt nur Ergebnisse zu vergleichen.

Darauf folgt die Ableitung gezielter Teststrategien statt flächiger Testmengen. Nicht jede Funktion braucht dieselbe Testtiefe. Übergänge mit hoher Kopplung, hohem Seiteneffekt oder hoher Zustandswirkung bekommen tiefere Tests. Reine Transformationslogik bekommt leichtere. Das ist keine organisatorische Priorisierung, sondern eine technische Gewichtung.

Aus dieser Arbeitsweise entsteht ein positiver Nebeneffekt. Gespräche über Qualität werden präziser. Statt über Testanzahl oder Abdeckung spricht man über Zustände, Übergänge, Invarianten und Abhängigkeiten. Das hebt die Diskussion auf eine technische Ebene, frei von Tool- oder Methodendebatten.

Wichtig ist dabei die Haltung. Dieses Modell ist keine Kritik an bestehenden Tests, Teams oder Vorgehensweisen. Es ist eine Erweiterung des Blickwinkels. Klassische Tests bleiben wertvoll. Sie gewinnen jedoch deutlich an Wirkung, wenn sie in ein explizites Systemverständnis eingebettet sind.

Nicht mehr prüfen, sondern gezielt prüfen.

Die zentrale Erkenntnis lässt sich technisch klar formulieren. Ein Test ohne Systemmodell prüft Verhalten im Ausschnitt. Ein Test mit Systemmodell prüft Verhalten im Kontext. Qualität entsteht nicht dort, wo viele Tests existieren. Qualität entsteht dort, wo Tests auf einem verstandenen Wirkmodell des Systems aufbauen. Genau dieses Verständnis ist der eigentliche Qualitätshebel.

Testtiefe statt Testmenge

Damit schließt sich der Kreis zurück zum Ausgangspunkt: Tests sind mächtig, aber sie sind nicht die Quelle von Qualität. Sie sind Verstärker. Sie verstärken das, was zuvor verstanden und modelliert wurde. Wenn das zugrunde liegende Systemmodell unklar ist, verstärken Tests Scheinsicherheit. Wenn das Modell klar ist, verstärken Tests echte Sicherheit.

In der Praxis zeigt sich das an einem einfachen Unterschied im Vorgehen. In einem funktionszentrierten Ansatz lautet die Frage: Welche Eingaben muss ich testen? In einem systemzentrierten Ansatz lautet die Frage: Welche Zustände und Übergänge muss ich beherrschen? Der Unterschied wirkt sprachlich klein, ist technisch aber fundamental. Er verschiebt den Fokus von Oberfläche zu Mechanik.

Systemzentriertes Testdenken beginnt meist nicht im Testframework, sondern bei technischen Artefakten. Zustandsmodelle, Übergangstabellen, Abhängigkeitsgraphen, Invariantenkataloge. Diese Artefakte müssen nicht formal oder bürokratisch sein. Es reicht oft schon eine explizite, technische Beschreibung in Code, Tests oder begleitender Dokumentation. Entscheidend ist, dass das Systemverhalten benannt und überprüfbar gemacht wird.

Ein hilfreiches Muster ist dabei die Trennung von vier Ebenen der Prüfung:

Erstens die Funktionskorrektheit. Rechnet die Logik korrekt, liefert sie die richtigen Ergebnisse, werden Randwerte behandelt.
Zweitens die Zustandskorrektheit. Befindet sich das System nach einer Operation im richtigen Zustand, sind verbotene Zustände ausgeschlossen.
Drittens die Übergangskorrektheit. Sind nur erlaubte Übergänge möglich, sind Reihenfolgen robust, bleiben Mehrfachausführungen stabil.
Viertens die Wirkungskorrektheit. Sind Seiteneffekte korrekt, vollständig, nicht doppelt und nicht verloren.

Diese vier Ebenen lassen sich technisch getrennt testen. Dadurch wird sichtbar, wo eine Lücke entsteht. Ein grüner Funktionstest bei roter Übergangskorrektheit ist ein anderer Befund als ein grüner Übergangstest bei falscher Wirkungskorrektheit. Qualität wird differenziert messbar.

Ein weiterer stabilisierender Faktor ist die bewusste Förderung von Determinismus. Systeme werden robuster prüfbar, wenn sie kontrollierbar reagieren. Das bedeutet nicht, dass Produktion deterministisch sein muss. Es bedeutet, dass Testumgebungen deterministische Modi besitzen sollten. Kontrollierte Zeitquellen, kontrollierter Zufall, steuerbare Scheduler, reproduzierbare Startzustände. Diese technischen Hebel erhöhen die Aussagekraft jedes einzelnen Tests stärker als zusätzliche Testfälle.

Ebenso wichtig ist die Rückkopplung zwischen Tests und Systembeobachtung. Gute Tests liefern nicht nur grün oder rot. Sie liefern Messpunkte. Welche Zustände wurden durchlaufen. Welche Abhängigkeiten wurden aktiviert. Welche Invarianten wurden geprüft. Diese Informationen fließen zurück in das Systemverständnis und schärfen das Modell weiter. Testen und Verstehen werden zu einem iterativen technischen Prozess.

Aus dieser Perspektive entsteht auch ein konstruktiver Umgang mit Fehlern. Ein entdeckter Fehler ist nicht nur ein Defekt in einer Funktion. Er ist ein Hinweis auf eine Modelllücke. Entweder ein Zustand war nicht beschrieben, ein Übergang nicht betrachtet, eine Abhängigkeit unterschätzt oder eine Invariante nicht formuliert. Fehleranalyse wird damit Systemanalyse, nicht nur Bugfixing.

Für Teams und Organisationen ergibt sich daraus ein positiver, fachlicher Leitgedanke. Tiefes Systemverständnis ist kein Selbstzweck und keine akademische Übung. Es ist die Grundlage dafür, dass Tests ihre Wirkung entfalten können. Wer Systeme versteht, kann gezielt prüfen. Wer gezielt prüft, braucht nicht blind zu prüfen.

Am Ende steht deshalb keine Forderung nach mehr Tests, strengeren Prozessen oder neuen Werkzeugen. Die technische Kernbotschaft ist einfacher und gleichzeitig anspruchsvoller: Verstehe das System als Zustandsraum mit Regeln, Übergängen und Wirkungen. Mache diese Struktur explizit und prüfbar. Leite Tests daraus ab. Dann werden Tests nicht nur zahlreicher, sondern schärfer. Und genau dort beginnt belastbare Qualität.

Stepmex Weblog

Mittwoch, 11. Februar 2026

Was gute Tests wirklich wirksam macht