Zum Inhalt

Simulationsframework

Format: PDF Dateien: xolib_simulation_konzept.pdf (v1, 15 Seiten), xolib_simulation_v2.pdf (v2, 43 Seiten)

Zusammenfassung

Das Xolib Simulationsframework ist ein autonomes Multi-Agent-Testsystem, das die gesamte Plattform mit synthetisch generierten Instanzen belastet, bevor der erste echte Kunde onboardet wird. Ziel: 50.000+ Simulationen vor Go-Live mit einer Ziel-Autonomierate von ueber 80 %.

Was wird simuliert?

KI-gesteuerte Personas agieren als Mieter, Eigentuemer, Handwerker, Behoerden und weitere Rollen gegen die Xolib-Plattform. Das System misst, wie gut die KI-Agenten reagieren. Das uebergeordnete Ziel ist die Maximierung der Autonomierate: menschliche Mitarbeiter sollen so selten wie moeglich eingreifen muessen.

Simulierte Rollen (v1: 4 Gruppen, v2: erweitert)

  • Mieter: Wohnungsmieter (Einzel/Familie/WG), Gewerbemieter, Untermieter, Kurzzeitmieter
  • Eigentuemer: Privatperson, Kapitalanleger, WEG-Mitglied, Erbengemeinschaft
  • Dienstleister: Handwerker, Reinigung, Hausmeister, Energieversorger, Versicherung
  • Behoerden: Bauamt, Gesundheitsamt, Jobcenter, Anwaelte, Gerichtsvollzieher

Methodik: Zufallsgenerator statt fester Personas

Statt vordefinierter Personas werden Verhaltensparameter zufaellig kombiniert (jeweils Skala 0-10): Sprachkompetenz, Sprache (DE/EN/FR/ES/IT/PL/RO/TR/AR/RU), Tonalitaet, Emotionalitaet, Geduld, Kooperationsbereitschaft, Hartnaeckigkeit, Eskalationsbereitschaft, Dringlichkeit, Komplexitaet und Rechtskenntnisse. Dadurch ist jeder Simulationsdurchlauf einzigartig.

Themengebiete

Wohnung/Objekt, Finanzen, Vertrag/Recht, Nachbarschaft, Notfaelle, Dokumente, WEG-spezifisch. Die KI waehlt innerhalb jedes Themas eigenstaendig einen konkreten Fall.

Autonomiestufen (1-5)

Stufen 1-2 gelten als Erfolg (kein Mensch eingeschaltet). Stufe 3 ist Ueberbrueckung (keine Veraergerung). Stufe 4-5 sind Eskalation bzw. Fehlschlag. Zusaetzlich gibt es eine 4-stufige Selbsthilfe-Schleife bevor an einen Menschen eskaliert wird.

Sicherheitstests

Eigener Testblock mit 4 Stufen: Spam/Nonsense, Social Engineering, Datenmissbrauch, Prompt Injection. Grundregel: Jede Instanz sieht nur ihre eigenen Daten, ohne Ausnahme.

v2-Erweiterungen (43 Seiten)

Version 2 fuehrt vier Simulationsdimensionen ein: (1) Kommunikation, (2) Operative Vorgaenge, (3) Datenzustaende, (4) Natuerlichsprachliche Datenpflege. Dazu kommen 14 modulspezifische Szenarienbloecke (Finanzen, WEG, Objekte, Mieter u.a.) mit jeweils definierten Datenzustaenden, Triggern, Variablen, erwartetem Verhalten und Erfolgskriterien.

Technische Architektur

Simulator Runner (CLI, /scripts/simulate.ts), Persona Engine (GPT-4o), Scenario Generator (Prompt Chain), API Client (echte Auth), Evaluator (GPT-4o als Judge), Result Store (Prisma SimulationRun-Modell), Dashboard in der Admin UI.

IBB-Relevanz

Das Framework ist das technische Herzstueck des FuE-Ankerprojekts fuer den IBB ProFIT-Antrag. Es demonstriert autonomes KI-Training auf domaenenspezifischen Daten, Innovationshoehe durch selbstlernendes System und messbaren wirtschaftlichen Nutzen (Autonomierate, Delta-EUR).

Siehe auch: ADR-012 ProFIT Foerderung