Stepmex Weblog: Playwright als Blackbox

Der Fehler, den niemand reproduzieren konnte

In komplexen Systemen entstehen Fehler, die sich trotz Logfiles, Monitoring und reproduzierbaren Testfällen jeder Analyse entziehen. Der Ablauf war eindeutig: Ein Nutzer führte eine vollkommen legitime Aktion aus, die Anwendung reagierte ungewöhnlich, ein Prozess blieb hängen, oder ein UI-Element verhielt sich anders als erwartet. Die Telemetrie zeigte Bruchstücke, die Logs enthielten Hinweise, aber keine greifbare Ursache. Solche Situationen kennt jedes Softwareteam. Sie entstehen dann, wenn fehlende Deterministik, unterschiedliche Timing-Verläufe und parallele Prozesse eine Fehlerdiagnose in die Nähe eines Ratespiels verschieben.

Die klassischen Debugging-Methoden stoßen hier an strukturelle Grenzen. Ein Breakpoint im lokalen System bildet nicht die realen Bedingungen ab. Ein manuelles Nachspielen ist unzuverlässig, weil kleinste Timing-Unterschiede das Verhalten verändern können. Auch das genaue Rekonstruieren der Nutzeraktionen ist unmöglich, weil der Client in der Praxis keine vollständige Chronik speichert.

Die entscheidende Frage lautet daher: Was wäre, wenn man eine reale Nutzer-Session exakt zurückspulen könnte? Nicht als grobe Annäherung, sondern als präzise, deterministische Rekonstruktion. Mit allen Interaktionen, jedem Timing, jeder Netzwerkantwort und jedem DOM-Zustand. Ein solches System existiert bisher nicht im gängigen Werkzeugkasten der Webentwicklung und genau hier setzt der Prototyp an, der im Rahmen dieses Artikels präsentiert wird.

Warum Reproduzierbarkeit in modernen Systemen scheitert

Die Ursachen liegen selten in mangelndem Wissen, sondern in der Natur moderner Architekturen. Nicht-deterministische Faktoren im Frontend führen dazu, dass UI-Aktionen bei jedem Ausführen leicht anders verlaufen. Zeitmessungen, asynchrone Events, Animationen und variable Antwortzeiten sorgen dafür, dass sich dieselbe Nutzerinteraktion nie identisch wiederholt.

Verteilte Systeme verstärken dieses Problem. Ein Request durchläuft mehrere Services, eventuell sogar externe Systeme. Logs zeigen zwar Fragmente, doch die Rekonstruktion eines Gesamtablaufs bleibt voller Lücken.

Zeitabhängigkeiten, race conditions und konkurrierende Prozesse bedeuten, dass bestimmte Fehler nur unter exakten zeitlichen Verhältnissen auftreten. Ein Entwickler kann sie lokal oft nicht reproduzieren, selbst wenn er exakt dieselben Schritte ausführt.

Es fehlt an Standards für UI-Session-Forensik. Während Serverlandschaften immer besser beobachtbar werden, ist der Browser weiterhin ein blinder Fleck. Es existieren weder Werkzeuge noch etablierte Verfahren, um eine Browser-Session vollständig aufzuzeichnen und deterministisch wiederzugeben.

Der ungewöhnliche Gedanke: Playwright als Replay-Engine

Playwright ist eigentlich ein UI-Testframework. Doch es verfügt über Eigenschaften, die weit darüber hinausgehen und es ermöglichen, es zweckzuentfremden.

Der Bruch mit den üblichen Einsatzszenarien ist bewusst. Statt automatisierte Tests zu schreiben, wird Playwright hier als deterministische Ausführungsumgebung genutzt. Die Stärke liegt in der präzisen Kontrolle über Browserkontexte, im Netzwerk-Stubbing und im stabilen Scheduling sämtlicher Aktionen. Playwright ist deterministisch genug, um eventbasierte Replay-Systeme zu tragen.

Es ist technisch möglich, obwohl Playwright nicht dafür konzipiert wurde. Die deterministische Eventausführung, die Möglichkeit zur Zeitsteuerung und der Zugriff auf DevTools-Ereignisse erlauben eine exakte Wiedergabe gespeicherter Sessions. Wesentlich ist, dass Playwright sämtliche Interaktionen und Netzwerkzugriffe vollständig kontrollieren kann.

Bestehende Lösungen sind nicht ausreichend. Session-Replays im klassischen Sinne zeigen nur Videos. Monitoring liefert abstrahierte Datenpunkte. Frontend-Observability liefert Telemetrie, aber keine reproduzierbare Ausführungsbasis. Eine Playwright-basierte Replay-Engine schließt diese Lücke, indem es alle relevanten Ereignisse nachstellt und die Anwendung so verhält, als sei die Session erneut ausgeführt worden.

Grundlagen eines deterministischen Replays

Um eine Session exakt wiederzugeben, müssen bestimmte Daten vollständig erfasst werden. Der Prototyp zeigt, welche minimalen Elemente dafür genügen.

DOM-Interaktionen bilden den Kern. Klicks, Texteingaben, Fokusänderungen und Scrollereignisse müssen aufgezeichnet werden. Jede Aktion benötigt einen Zeitstempel, um sie im Replay im korrekten Rhythmus auszuführen.
Der Netzwerkverkehr ist ebenso relevant. Requests und Responses müssen gespeichert werden, inklusive Bodies und Statuscodes. Insbesondere für race conditions ist der exakte Zeitpunkt des Eintreffens der Response entscheidend.
Timing ist ein wichtiger Faktor, da viele Fehler nur auftreten, wenn die zeitliche Abfolge präzise eingehalten wird. Daher speichert der Prototyp alle Events relativ zum Startzeitpunkt.
Der Browserzustand muss serialisiert werden. Cookies, LocalStorage und SessionStorage beeinflussen die Logik vieler Anwendungen. Ohne Sie ist ein Replay unvollständig.

Die minimalen Anforderungen sind damit klar definiert. Sobald diese vier Datenarten vorliegen, kann ein deterministischer Replay ausgeführt werden.

Architektur eines Replay-Systems mit Playwright

Der Prototyp umsetzt die wesentlichen Elemente eines solchen Systems und zeigt, wie sie ineinandergreifen.

Überblick
Das System besteht aus einem Event-Recorder im Browser, einem Network-Recorder in der Playwright-Schicht, einer Serialisierungskomponente und einem Replay-Runner. Diese Elemente erzeugen gemeinsam ein Replay-Paket und spielen es anschließend deterministisch ab.

Rolle des Event-Recorders (recorder.js)
Im Browser wird ein Skript ausgeführt, das sämtliche Interaktionen protokolliert. Dazu gehören Klicks, Eingaben und andere relevante UI-Aktionen. Das Skript erfasst die Aktionen mit Selektoren und millisekundengenauen Zeitstempeln und speichert sie im Speicher des Browsers.

Rolle des Network-Recorders (capture.test.ts)
Auf Playwright-Ebene werden alle Requests und Responses abgefangen. Neben den URLs werden auch Bodies, Statuscodes, Header und Zeitpunkte gespeichert. Dadurch entsteht ein vollständiges Bild der Kommunikation zwischen Browser und Server.

State-Snapshotter (capture.test.ts)
Zusätzlich werden Cookies, LocalStorage und SessionStorage serialisiert. Dies bildet den Startzustand des Browsers ab und ist für viele UI-Verhalten relevant.

Aufbau des Replay-Packages (example-session.json)
Das Replay-Paket fasst alle gesammelten Daten zusammen. Es besteht aus den Bereichen events, network und storage. Das Format ist bewusst einfach gehalten, damit es direkt durch die Replay-Komponente ausgelesen werden kann.

Erfassung der Interaktionen
Der Event-Recorder erkennt Eingaben, Klicks und andere UI-Aktionen. Die Selektoren werden auf Basis von IDs oder generischen Tag-Namen gebildet, um eine hohe Stabilität zu erreichen.

Aufzeichnung des Netzwerkverkehrs
Die Playwright-Hooks erfassen jeden Request sowie jede Response. Dadurch ist es möglich, die Anwendung im Replay exakt so zu versorgen, wie sie im Originalfall bedient wurde.

Snapshotting des Browserzustands
Beim Aufzeichnen extrahiert der Recorder alle relevanten Daten aus dem Browser. Beim Replay werden diese Daten wieder in den Browsercontext injiziert, sodass sich die Anwendung wie im Original verhält.

In einem voll ausgestalteten System ließen sich zusätzliche Schichten ergänzen, etwa DOM-Deltas oder Performance-Daten. Für den Prototyp genügt jedoch die Kombination der genannten Bereiche, um funktionale Fehler deterministisch zu reproduzieren.

Playwright-Konfiguration

Der Playwright-Replay-Runner

Der Replay-Runner stellt den Kern des Systems dar. Er liest das Replay-Paket ein, initialisiert den Browserkontext und führt die gespeicherten Aktionen aus.

Initialisierung des Browserkontextes (replay.test.ts)
Vor dem ersten Seitenaufruf wird der gespeicherte Zustand geladen. Cookies und Storage werden exakt so wiederhergestellt wie im Original. Das stellt sicher, dass die Geschäftslogik dieselben Bedingungen vorfindet.

Laden der gespeicherten Zustände
Die Replay-Komponente des Prototypen liest das Replay-Paket aus dem Dateisystem und injiziert es in die Testausführung. Dies umfasst sowohl den Storage als auch den Netzwerkverkehr und die Eventliste.

Netzwerk-Stubbing (stub-server.ts)
Die Original-Responses werden in ein internes Mapping übertragen. Beim Replay wird jeder Request abgefangen und durch die gespeicherte Response ersetzt. Dadurch gibt es keine Abweichungen in Timing oder Inhalt der Daten.

Abspielen der aufgezeichneten Events (replay.test.ts)
Die aufgezeichneten Interaktionen werden in zeitlicher Reihenfolge ausgeführt. Dabei wird die relative Verzögerung zwischen den Aktionen berücksichtigt. Dadurch entsteht ein identischer Ablauf wie im Original, inklusive eventueller Timing-Probleme.

Der Prototyp im Detail: Struktur, Zweck der Dateien und Funktionsweise

Die Projektstruktur ist bewusst modular aufgebaut, damit jeder Teil isoliert entwickelt, getestet und erweitert werden kann.

demo-app
Diese Dateiablage enthält die lokale Testanwendung. Sie besitzt einen Input, einen Button und einen asynchronen API-Aufruf. Die Anwendung ist bewusst einfach gehalten, erzeugt jedoch realistische Timing-Effekte und race conditions.

recorder.js

Sammelt Interaktionen im Browser und stellt sie später Playwright zur Verfügung. Dieser Recorder ist die Grundlage sämtlicher späterer Analyse.

server.js

Startet die Demoanwendung und simuliert ein Backend. Die Antwortzeiten variieren bewusst leicht, um nicht-deterministische Effekte zu erzeugen.

capture.test.ts

Erfasst die Interaktionen und den Netzwerkverkehr, schreibt alles in ein Replay-Paket und legt dieses im Verzeichnis replay-packages ab. Diese Datei ist die Brücke zwischen Browser und Dateisystem.

package-writer.ts

Übernimmt das Speichern des Replay-Pakets. Die Trennung erhöht die Testbarkeit und Klarheit des Systems.

example-session.json

Enthält ein konkretes Replay-Paket, das durch die Recorder-Phase erzeugt wurde. Diese Datei bildet den Startpunkt für den Replay-Runner.

Template:

Gefüllte Datei:

stub-server.ts

Baut aus dem Netzwerkprotokoll ein Mapping, das beim Replay genutzt wird. Jede im Recorder gefundene Response wird so zum Stub, der deterministisch zurückgegeben wird.

replay.test.ts

Der deterministische Ausführungsmechanismus. Diese Datei liest das Replay-Paket, stellt den Browserzustand wieder her, stubbt den Netzwerkverkehr aus und spielt sämtliche Interaktionen nach.

Diese Struktur zeigt, dass das System modular, erweiterbar und vollständig nachvollziehbar ist. Jede Datei hat einen klaren Zweck und trägt einen essenziellen Teil zum Gesamtmechanismus bei.

Warum dieses System ein entscheidender Schritt ist

Der Prototyp beweist, dass ein deterministisches Replay realer Nutzer-Sessions nicht nur möglich ist, sondern mit überschaubarem Aufwand umgesetzt werden kann. Das System schafft mehrere entscheidende Vorteile.

Es ermöglicht eine reproduzierbare Fehlerdiagnose. Fehler, die zuvor sporadisch auftraten und nicht reproduzierbar waren, können nun exakt nachgestellt werden. Dadurch wird Debugging zuverlässiger und kostengünstiger.

Es schafft eine technische Brücke zwischen Telemetrie und Testautomatisierung. Während Monitoring Systeme fragmentierte Daten liefern, erzeugt der Prototyp ein vollständiges, deterministisches Abbild des Client-Verhaltens.

Es stärkt die QA in verteilten Systemen. Besonders bei race conditions und zeitkritischen Fehlern entsteht ein Diagnoseinstrument, das bisher gefehlt hat.

Das System ist erweiterbar. Bereits jetzt können Browserzustände, Netzwerkverkehr und DOM-Interaktionen reproduziert werden. In einem nächsten Schritt ließen sich DOM-Deltas, Performance-Metriken oder GraphQL-Resolver-Pfade einbauen.

Der Prototyp ist ein Meilenstein, weil er zeigt, dass die Komplexität eines solchen Systems beherrschbar ist. Er legt damit die Grundlage für eine völlig neue Klasse von Werkzeugen: deterministische Replay-Systeme, die reale Produktionsfehler präzise nachvollziehbar machen und Debugging auf ein neues Niveau heben.

Stepmex Weblog

Dienstag, 9. Dezember 2025

Playwright als Blackbox