Zum Inhalt springen
D W
EU AI Act III(4)(b): Hochrisiko Q4

Performance-Review-Dokumentations-Agent

Leistungsbeurteilungen strukturieren, dokumentieren und auf Konsistenz prüfen.

Strukturiert den Beurteilungsprozess und dokumentiert Ergebnisse revisionssicher. Hochrisiko-System nach EU AI Act Annex III.

Prozess analysieren lassen
Airbus Volkswagen Shell Renault Evonik Vattenfall Philips KPMG

Review-Zyklus per Regeln, Konsistenz-Prüfung per KI, Bias-Eskalation

Der Agent strukturiert den Beurteilungsprozess deterministisch nach Rolle, Level und Zyklus, prüft per KI-Analyse Konsistenz über Bewertungs-Kalibrierungen und flaggt statistische Bias-Muster nach Geschlecht, Alter und Standort - die eigentliche Leistungsbeurteilung bleibt Human-in-the-Loop bei der Führungskraft.

Ergebnis: Nach EU AI Act Annex III Hochrisiko-System ab August 2026, Art. 12 bis 14 erfordern vollständige Entscheidungsakten je Bewertung - bei durchschnittlich 8 bis 15 Beurteilungen pro Führungskraft und Jahr wird lückenlose Dokumentation ohne Tooling unrealistisch.

55% Regelwerk
36% KI-Agent
9% Mensch

Die Architektur dokumentiert die Führungskraft-Entscheidung, ohne sie zu ersetzen:

Einschätzung gelingt, die Akte produziert Widersprüche

Die Beurteilung ist selten das Problem. Die Dokumentation ist es.

Dieser Agent folgt dem Decision Layer-Prinzip: jede Entscheidung ist entweder regelbasiert, KI-assistiert oder explizit einem Menschen zugeordnet.

Führungskräfte können Leistung einschätzen. Was sie nicht können: ein Jahr Beobachtungen in eine konsistente, belegbare, rechtssichere Akte überführen. Die Folge ist ein Dokumentationsprozess, der systematisch Widersprüche produziert - zwischen Rating und Begründung, zwischen Selbsteinschätzung und Fremdwahrnehmung, zwischen dem, was im Gespräch gesagt wurde, und dem, was in der Akte steht.

Das ist kein Qualitätsproblem einzelner Führungskräfte. Es ist ein Strukturproblem. Und es wird zum Rechtsrisiko, sobald eine Kündigung, eine verweigerte Beförderung oder ein Arbeitsgerichtsverfahren auf genau diese Akte zugreift.

Drei Muster, die im manuellen Prozess unsichtbar bleiben

Rating-Text-Divergenz. Eine Führungskraft vergibt “Erwartungen übertroffen”, schreibt aber in der Begründung drei Absätze über Verbesserungsbedarf. Oder umgekehrt: “Erwartungen teilweise erfüllt” mit einer Begründung, die ausschließlich Stärken nennt. Forschung zeigt, dass über 60 Prozent der Varianz in Leistungsbewertungen vom Bewertenden stammt - nicht von der bewerteten Person. In Einzelfällen fällt die Diskrepanz auf. Über 200, 500, 1.000 Beurteilungen pro Zyklus fällt sie niemandem auf, weil niemand alle Dokumente liest.

Recency Bias als Dokumentationslücke. Recency Bias gilt als häufigster Bewertungsfehler in Unternehmen. Führungskräfte, die keine laufenden Notizen führen - und die große Mehrheit führt keine - rekonstruieren zwölf Monate Leistung aus den letzten sechs Wochen. Das Projekt, das im Februar herausragend lief, existiert im Dezember nicht mehr. Der Fehler vom November dominiert die gesamte Beurteilung. Die Dokumentation bildet nicht die Leistung ab. Sie bildet die Erinnerung ab.

Bewertungs-Bias, der in Einzeldaten verschwindet. Wenn ein Manager vier Frauen im Team jeweils mit “erfüllt Erwartungen” bewertet und vier Männer mit “übertrifft Erwartungen”, ist das für sich genommen unauffällig. Vielleicht stimmt es sogar im Einzelfall. Aber wenn sich dieses Muster über 30 Teams reproduziert, ist es kein Zufall mehr. HBR-Forschung belegt: 61 Prozent der Frauen erhalten Feedback zu ihrem Kommunikationsstil - bei Männern liegt der Wert bei einem Prozent. Solche Muster sind manuell nicht erkennbar, weil sie erst in der Aggregation sichtbar werden.

Warum bessere Formulare das Problem nicht lösen

Der naheliegende Reflex: strukturiertere Templates, Pflichtfelder, vorformulierte Textbausteine. Aber ein Formular kann nicht prüfen, ob die Begründung zum Rating passt. Es kann nicht erkennen, ob die Selbsteinschätzung eines Mitarbeitenden systematisch von der Fremdwahrnehmung abweicht. Es kann nicht feststellen, ob ein Manager seit drei Zyklen dieselben Formulierungen kopiert. Und es kann nicht über 40 Teams hinweg analysieren, ob sich Bewertungsmuster nach Geschlecht, Alter oder Teilzeitstatus unterscheiden.

Die Aufgabe besteht nicht darin, das Formular zu verbessern. Sie besteht darin, den Beurteilungsprozess so zu zerlegen, dass jeder Schritt eine klare Zuordnung hat: Wer entscheidet? Nach welcher Regel? Mit welcher Prüfung?

Elf Schritte, drei Entscheidungsprinzipien

Zyklus             Formulare           Selbstein-          Führungskraft
starten       -->  verteilen      -->  schätzung      -->  bewertet
(R: Kalender)      (R: Zuordnung)      (R: Regelwerk)      (H: Beobachtung)

Konsistenz-        Kalibrierung        Bias-               Bias-Befund
Check         -->  unterstützen   -->  Analyse        -->  eskalieren
(A: Rating/Text)   (A: Verteilung)     (A: Statistik)      (R: Schwellenwert)

Gespräch           Ergebnis            Folgemaßnahmen
terminieren   -->  dokumentieren  -->  auslösen
(A: Kalender)      (R: Archivierung)   (R: regelbasiert)

Der entscheidende Unterschied zum manuellen Prozess: Die Schritte 5, 6 und 7 laufen parallel zur Bewertung, nicht danach. Wenn eine Führungskraft ein Rating vergibt und die Begründung einträgt, wird sofort geprüft, ob beides zusammenpasst. Die Kalibrierungsansicht aktualisiert sich in Echtzeit. Die Bias-Analyse berechnet laufend, ob sich Muster bilden.

Das verändert den Charakter der Kalibrierungsrunde. Statt Ratings nachträglich zu vergleichen, sehen Führungskräfte bei der Eingabe, wo ihre Bewertung im Kontext steht: Verteilung im Team, Abweichung vom Abteilungsdurchschnitt, Konsistenz mit vorherigen Zyklen. Das Gespräch verschiebt sich von “Stimmen wir über Noten ab?” zu “Wo weichen wir bewusst vom Muster ab und warum?”

Konsistenzprüfung als struktureller Vorteil

Die automatische Prüfung, ob Rating und textuelle Begründung zusammenpassen, ist kein Komfortfeature. Sie ist der Hauptgrund, warum eine regelbasierte Orchestrierung dem manuellen Prozess überlegen ist. Ein Mensch, der 400 Beurteilungsbögen liest, kann nicht systematisch erkennen, wo Wort und Zahl auseinanderlaufen. Der Agent erkennt den Widerspruch sofort und markiert ihn - nicht in einem Report, der Wochen später auf dem Schreibtisch landet, sondern während die Führungskraft noch im Bewertungsprozess ist und korrigieren kann.

Für Unternehmen, die unter das Hochrisiko-Regime des EU AI Act fallen - ab August 2026 durchsetzbar für Systeme, die Leistung und Verhalten am Arbeitsplatz bewerten - ist Nachvollziehbarkeit keine Option. Sie ist eine rechtliche Anforderung. Annex III(4)(b) verlangt Risikomanagementsystem, Transparenz gegenüber Betroffenen und menschliche Aufsicht. Diese Anforderungen sind hier nicht nachträglich aufgesetzt. Sie sind in der Architektur angelegt: Die Bewertung bleibt beim Menschen. Der Agent dokumentiert, prüft und analysiert.

Was am Ende entsteht

Der Agent trifft keine einzige Leistungsbeurteilung. Er sorgt dafür, dass jede Beurteilung konsistent begründet, vollständig dokumentiert und auf systematische Muster geprüft ist. Das Rating vergibt die Führungskraft. Das Gespräch führt der Mensch. Die Kalibrierung verantwortet die HR-Leitung.

Die Infrastruktur, die dabei entsteht - Konsistenz-Engine, Bias-Analyse, Kalibrierungsframework, revisionssichere Archivierung - wird nicht für einen einzelnen Beurteilungszyklus gebaut. Die Bias-Analyse wird vom Merit-Cycle-Governance-Agent und Promotion-Process-Agent wiederverwendet. Das Konsistenz-Prüfungsmuster wird zum Standard für alle Agenten, die menschliche Bewertungen auf Kohärenz prüfen. Die Entscheidungsakte, die pro Beurteilung entsteht, macht jede einzelne Bewertung nachvollziehbar und anfechtbar - für die betroffene Person genauso wie für den Betriebsrat.

Micro-Decision-Tabelle

Wer entscheidet bei diesem Agent?

11 Entscheidungsschritte, aufgeteilt nach Decider

55%(6/11)
Regelwerk
deterministisch
36%(4/11)
KI-Agent
modellbasiert mit Confidence
9%(1/11)
Mensch
explizit zugewiesen
Mensch
Regelwerk
KI-Agent
Jede Zeile ist eine Entscheidung. Aufklappen zeigt die Entscheidungsakte und ob man anfechten kann.
Review-Zyklus starten Welcher Beurteilungszyklus wird ausgelöst? Regelwerk

Kalender: Jahresgespräch, Halbjahresreview, Projektabschluss

Entscheidungsakte

Regel-ID und Versionsnummer
Eingabedaten die zur Anwendung führten
Berechnungsergebnis und angewandte Formel

Anfechtbar: Ja - Regelanwendung prüfbar. Einspruch bei fehlerhafter Datenbasis oder falscher Regelversion.

Formulare verteilen Welches Formular erhält welcher Mitarbeitende? Regelwerk

Zuordnung nach Rolle, Bereich und Beurteilungstyp

Entscheidungsakte

Regel-ID und Versionsnummer
Eingabedaten die zur Anwendung führten
Berechnungsergebnis und angewandte Formel

Anfechtbar: Ja - Regelanwendung prüfbar. Einspruch bei fehlerhafter Datenbasis oder falscher Regelversion.

Selbsteinschätzung einholen Wird eine Selbsteinschätzung angefordert? Regelwerk

Regelwerk nach Beurteilungstyp

Entscheidungsakte

Regel-ID und Versionsnummer
Eingabedaten die zur Anwendung führten
Berechnungsergebnis und angewandte Formel

Anfechtbar: Ja - Regelanwendung prüfbar. Einspruch bei fehlerhafter Datenbasis oder falscher Regelversion.

Führungskraft bewertet Wie bewertet die Führungskraft Leistung und Verhalten? Mensch

Führungskraft bewertet auf Basis der Beobachtungsperiode

Entscheidungsakte

Entscheider-ID und Rolle
Begründung der Entscheidung
Zeitstempel und Kontext

Anfechtbar: Ja - über Vorgesetzten, Betriebsrat oder formalen Einspruch.

Konsistenz-Check Stimmen Rating und textuelle Begründung überein? KI-Agent

Prüfung auf Widersprüche zwischen numerischem Rating und Freitext

Entscheidungsakte

Modell-Version und Confidence Score
Eingabedaten und Klassifikationsergebnis
Entscheidungsgrund (Erklärbarkeit)
Audit Trail mit vollständiger Nachvollziehbarkeit

Anfechtbar: Ja - vollständig dokumentiert, durch Menschen überprüfbar, Einspruch über formalen Prozess.

Kalibrierung unterstützen Wie liegen die Bewertungen im Teamvergleich? KI-Agent

Verteilungsanalyse und Vergleich mit Abteilungsdurchschnitt

Entscheidungsakte

Modell-Version und Confidence Score
Eingabedaten und Klassifikationsergebnis
Entscheidungsgrund (Erklärbarkeit)
Audit Trail mit vollständiger Nachvollziehbarkeit

Anfechtbar: Ja - vollständig dokumentiert, durch Menschen überprüfbar, Einspruch über formalen Prozess.

Bias-Analyse Zeigen sich systematische Bewertungsmuster? KI-Agent

Statistische Prüfung auf Geschlechts-, Alters- und Herkunfts-Bias

Entscheidungsakte

Modell-Version und Confidence Score
Eingabedaten und Klassifikationsergebnis
Entscheidungsgrund (Erklärbarkeit)
Audit Trail mit vollständiger Nachvollziehbarkeit

Anfechtbar: Ja - vollständig dokumentiert, durch Menschen überprüfbar, Einspruch über formalen Prozess.

Bias-Befund eskalieren Wird ein Bias-Problem an HR-Leitung gemeldet? Regelwerk

Schwellenwert-basierte Eskalation bei signifikanten Mustern

Entscheidungsakte

Regel-ID und Versionsnummer
Eingabedaten die zur Anwendung führten
Berechnungsergebnis und angewandte Formel

Anfechtbar: Ja - Regelanwendung prüfbar. Einspruch bei fehlerhafter Datenbasis oder falscher Regelversion.

Gespräch terminieren Wann findet das Beurteilungsgespräch statt? KI-Agent

Terminvorschlag basierend auf Kalender-Verfügbarkeit

Entscheidungsakte

Modell-Version und Confidence Score
Eingabedaten und Klassifikationsergebnis
Entscheidungsgrund (Erklärbarkeit)
Audit Trail mit vollständiger Nachvollziehbarkeit

Anfechtbar: Ja - vollständig dokumentiert, durch Menschen überprüfbar, Einspruch über formalen Prozess.

Ergebnis dokumentieren Wird das Gesprächsergebnis revisionssicher abgelegt? Regelwerk

Automatische Archivierung nach Freigabe durch beide Parteien

Entscheidungsakte

Regel-ID und Versionsnummer
Eingabedaten die zur Anwendung führten
Berechnungsergebnis und angewandte Formel

Anfechtbar: Ja - Regelanwendung prüfbar. Einspruch bei fehlerhafter Datenbasis oder falscher Regelversion.

Folgemaßnahmen auslösen Welche Folgeaktionen werden eingeleitet? Regelwerk

Regelbasiert: Entwicklungsplan, PIP, Gehaltsreview je nach Rating

Entscheidungsakte

Regel-ID und Versionsnummer
Eingabedaten die zur Anwendung führten
Berechnungsergebnis und angewandte Formel

Anfechtbar: Ja - Regelanwendung prüfbar. Einspruch bei fehlerhafter Datenbasis oder falscher Regelversion.

Entscheidungsakte und Anfechtbarkeit

Jede Entscheidung, die dieser Agent trifft oder vorbereitet, wird in einer vollständigen Entscheidungsakte dokumentiert. Betroffene Mitarbeitende können jede einzelne Entscheidung einsehen, nachvollziehen und anfechten.

Welche Regel in welcher Version wurde angewandt?
Welche Daten lagen der Entscheidung zugrunde?
Wer (Mensch, Regelwerk oder KI) hat entschieden - und warum?
Wie kann die betroffene Person Einspruch einlegen?
So setzt der Decision Layer das architektonisch um →

Passt dieser Agent zu Ihrem Prozess?

Wir analysieren Ihren konkreten HR-Prozess und zeigen, wie dieser Agent in Ihre Systemlandschaft passt. 30 Minuten, keine Vorbereitung nötig.

Prozess analysieren lassen

Governance-Hinweise

EU AI Act III(4)(b): Hochrisiko
Hochrisiko-System nach EU AI Act Annex III(4)(b) - Bewertung von Leistung und Verhalten am Arbeitsplatz. Die Leistungsbeurteilung selbst bleibt beim Menschen. Der Agent dokumentiert und analysiert, trifft aber keine Bewertungsentscheidungen. Pflichten: Risikomanagementsystem, Transparenz gegenüber Betroffenen, menschliche Aufsicht. Betriebsrat: Mitbestimmung nach BetrVG Paragraph 94 bei Beurteilungsgrundsätzen. Die Bias-Analyse ist ein starkes Argument für den Agent - sie macht unbewusste Muster sichtbar, die manuell nicht erkennbar wären. Der Decision Layer zerlegt jeden Prozess in einzelne Entscheidungsschritte und definiert für jeden Schritt: Mensch, Regelwerk oder KI-Agent. Jede Entscheidung wird in einer vollständigen Entscheidungsakte dokumentiert. Betroffene Mitarbeitende können jede automatisierte Entscheidung nachvollziehen und anfechten.

Bewertung

Agent Readiness 48-55%
Governance-Komplexität 78-85%
Economic Impact 58-65%
Leuchtturm-Wirkung 68-75%
Implementation Complexity 54-61%
Transaktionsvolumen Jährlich

Voraussetzungen

  • HR-System mit Performance-Management-Modul
  • Definierte Beurteilungskriterien und Bewertungsskalen
  • Kalibrierungs-Framework für Abteilungsvergleiche
  • Betriebsvereinbarung für KI-gestützte Performance-Dokumentation
  • Bias-Monitoring-Framework

Infrastruktur-Beitrag

Die Bias-Analyse-Engine wird vom Merit-Cycle-Governance-Agent und Promotion-Process-Agent wiederverwendet. Das Konsistenz-Prüfungsmuster (Rating vs. Freitext) wird zum Standard für alle Agenten, die menschliche Bewertungen auf Kohärenz prüfen. Die Kalibrierungs-Unterstützung bildet die Grundlage für faire, vergleichbare Bewertungen über Abteilungsgrenzen hinweg. Baut Decision Logging und Audit Trail auf, die im Decision Layer für Nachvollziehbarkeit und Anfechtbarkeit jeder Entscheidung benötigt werden.

Was diese Erstbewertung enthält: 9 Slides für Ihr Führungsteam

Personalisiert mit Ihren Zahlen. Generiert in 2 Minuten direkt im Browser. Kein Upload, kein Login.

  1. 1

    Titelfolie - Prozessname, Entscheidungspunkte, Automatisierungspotenzial

  2. 2

    Executive Summary - FTE-Freisetzung, Kosten pro Vorgang vorher/nachher, Break-Even-Datum, Kosten des Wartens

  3. 3

    Ausgangslage - Transaktionsvolumen, Fehlerkosten, Wachstumsszenario mit FTE-Vergleich

  4. 4

    Lösungsarchitektur - Mensch - Regelwerk - KI-Agent mit konkreten Entscheidungspunkten

  5. 5

    Governance - EU AI Act, Betriebsrat (§87 BetrVG), Audit Trail - mit Ampelstatus

  6. 6

    Risikoanalyse - 5 Risiken mit Eintrittswahrscheinlichkeit, Auswirkung und Gegenmaßnahme

  7. 7

    Roadmap - 3-Phasen-Plan mit konkreten Kalenderdaten und Go/No-Go

  8. 8

    Business Case - 3-Szenarien-Vergleich (Nichtstun/Neueinstellung/Automatisierung) plus 3×3-Sensitivitätsmatrix

  9. 9

    Diskussionsvorschlag - Konkrete nächste Schritte mit Zeitplan und Verantwortlichkeiten

Enthält: 3-Szenarien-Vergleich

Nichtstun vs. Neueinstellung vs. Automatisierung - mit Ihrem Gehaltsniveau, Ihrer Fehlerquote und Ihrem Wachstumsplan. Die eine Slide, die Ihr CFO als erstes sehen will.

Berechnungsmethodik anzeigen

Stundensatz: Jahresgehalt (Ihre Eingabe) × 1,3 AG-Anteil ÷ 1.720 Jahresarbeitsstunden

Einsparung: Vorgänge × 12 × Automatisierungsrate × Minuten/Vorgang × Stundensatz × Economic Factor

Qualitäts-ROI: Fehlerreduktion × Vorgänge × 12 × EUR 260/Fehler (APQC Open Standards Benchmarking)

FTE: Eingesparte Stunden ÷ 1.720 Jahresarbeitsstunden

Break-Even: Benchmark-Investition ÷ monatliche Gesamteinsparung (Effizienz + Qualität)

Neueinstellung: Jahresgehalt × 1,3 + EUR 12.000 Recruiting pro FTE

Alle Daten bleiben in Ihrem Browser. Nichts wird an Server übertragen.

Performance-Review-Dokumentations-Agent

Erstbewertung für Ihr Führungsteam

In 2 Minuten eine fundierte Erstbewertung - mit Ihren Zahlen, Ihrem Risikoprofil und Branchenbenchmarks. Kein Anbieter-Logo, kein Vendor-Pitch.

30K120K
1%15%

Alle Daten bleiben in Ihrem Browser. Nichts wird übertragen.

Häufige Fragen

Bewertet der Agent die Leistung von Mitarbeitenden?

Nein. Die Leistungsbeurteilung liegt vollständig bei der Führungskraft. Der Agent orchestriert den Prozess, prüft Konsistenz, unterstützt Kalibrierung und dokumentiert Ergebnisse. Er macht den bestehenden Prozess besser - er ersetzt ihn nicht.

Warum ist dieser Agent Hochrisiko nach EU AI Act?

Annex III(4)(b) klassifiziert Systeme als Hochrisiko, die zur Bewertung von Leistung und Verhalten eingesetzt werden. Der Agent bewertet nicht selbst, beeinflusst aber den Bewertungsprozess. Die Hochrisiko-Klassifikation stellt sicher, dass der Prozess fair, transparent und nachvollziehbar ist.

Wie wird die Bias-Analyse eingesetzt?

Die Analyse identifiziert statistische Muster: Werden Frauen systematisch niedriger bewertet? Erhalten ältere Mitarbeitende seltener Top-Ratings? Signifikante Muster werden an die HR-Leitung eskaliert. Dies ist ein wesentlicher Vorteil gegenüber rein manuellen Prozessen.

Was passiert als Nächstes?

1

30 Minuten

Erstgespräch

Wir analysieren Ihren Prozess und identifizieren den optimalen Startpunkt.

2

1 Woche

Discover

Mapping Ihrer Entscheidungslogik. Regelwerke dokumentiert, Decision Layer designt.

3

3-4 Wochen

Build

Produktiver Agent in Ihrer Infrastruktur. Governance, Audit Trail, prüfungsfähig ab Tag 1.

4

12-18 Monate

Eigenständig

Voller Zugang zu Quellcode, Prompts und Regelversionen. Kein Vendor Lock-in.

Diesen Agent implementieren?

Wir bewerten Ihre Prozesslandschaft und zeigen, wie dieser Agent in Ihre Infrastruktur passt.