Eassessmentnrw

Didaktische Gestaltung von E-Prüfungen: Itemformate, Aufgabentypen und Qualitätssicherung

Didaktische Gestaltung von E-Prüfungen: Itemformate, Aufgabentypen und Qualitätssicherung

Die Einführung digitaler Prüfungssysteme in Hochschulen scheitert selten an der Technik. Was wirklich über Erfolg oder Misserfolg entscheidet, ist die didaktische Qualität der Aufgaben. Wer Prüfungsfragen einfach aus Papierklausuren ins System überträgt, verschenkt das Potenzial elektronischer Prüfungen – und riskiert dabei, dass Kompetenzen nicht valide erfasst werden.

Was macht eine gute E-Prüfungsaufgabe aus?

Bevor über konkrete Itemformate gesprochen werden kann, muss die Grundfrage beantwortet sein: Was soll die Prüfung eigentlich messen? Das Prinzip des Constructive Alignment – die Abstimmung von Lernzielen, Lehrveranstaltung und Prüfungsformat – gilt im elektronischen Bereich genauso wie in der Papierklausur. Erst wenn die angestrebten Kompetenzen klar definiert sind, lässt sich das passende Aufgabenformat auswählen.

Die Wahl des Formats beeinflusst dabei nicht nur, was gemessen wird, sondern auch, mit welchem Aufwand die Korrektur verbunden ist. Automatisch auswertbare Items sparen Ressourcen, setzen aber voraus, dass die Aufgabenstellung präzise und eindeutig formuliert ist.

Geschlossene Itemformate

Multiple-Choice-Aufgaben

Multiple-Choice-Aufgaben (MC) sind das meistgenutzte Format in E-Prüfungen – aus gutem Grund: Sie lassen sich automatisch auswerten, sind reproduzierbar und gut skalierbar. Gleichzeitig sind sie anfällig für typische Konstruktionsfehler.

Qualitätskriterien für MC-Items:

  • Eindeutigkeit: Genau eine Antwortoption ist korrekt (Single Choice) oder alle korrekten Optionen sind klar definierbar (Multiple Choice).
  • Plausible Distraktoren: Falsche Antworten müssen für Unkundige verlockend, für Kundige aber klar ausschließbar sein. Triviale oder offensichtlich falsche Distraktoren senken die Aufgabenschwierigkeit künstlich.
  • Stammfrage zuerst: Die eigentliche Frage steht im Stamm, nicht in den Antwortoptionen.
  • Keine Allaussagen: Formulierungen wie „immer", „nie" oder „ausschließlich" verraten häufig die richtige Antwort.

Weitere geschlossene Formate

Neben MC gibt es eine Reihe weiterer automatisch auswertbarer Formate, die je nach Lernziel sinnvoll eingesetzt werden können:

  • Zuordnungsaufgaben: Begriffe, Konzepte oder Abbildungen werden einander zugeordnet. Gut geeignet für das Prüfen von Strukturwissen.
  • Reihenfolgeaufgaben: Schritte, Ereignisse oder Argumente müssen in die richtige Abfolge gebracht werden – etwa bei Algorithmen oder historischen Prozessen.
  • Lückentextaufgaben: Einzelne Begriffe werden in einen vorgegebenen Text eingefügt. Funktioniert gut bei standardisiertem Fachvokabular, nicht aber bei komplexen Konzepten.
  • Hot-Spot-Aufgaben: In einer Abbildung werden bestimmte Bereiche angeklickt oder markiert. Besonders relevant in naturwissenschaftlichen oder medizinischen Fächern.

Offene Itemformate

Offene Formate erfordern manuelle Korrektur, bieten aber deutlich höhere didaktische Tiefe. Sie eignen sich für Aufgaben auf den oberen Taxonomiestufen – Analyse, Synthese, Bewertung.

Freitext und Essays

Freitextfelder im E-Prüfungssystem ermöglichen ausformulierte Antworten. Für die Bewertung braucht es klare Musterlösungen und Bewertungsrubrics, damit verschiedene Korrektoren konsistente Ergebnisse erzielen. Ohne Rubric wird die Inter-Rater-Reliabilität zum Problem.

Semi-offene Formate

Als Mittelweg zwischen automatischer Auswertbarkeit und didaktischer Tiefe bieten sich semi-offene Formate an: kurze Freitextantworten mit begrenzter Zeichenzahl, numerische Eingabefelder mit Toleranzbereich, oder strukturierte Antwortfelder, in denen Teillösungen separat bewertet werden. Diese Formate lassen sich teilweise automatisiert vorauskategorisieren und dann von Prüfenden final bewerten.

Aufgabenschwierigkeit und Taxonomien

Ein ausgewogener Aufgabenpool deckt verschiedene kognitive Anforderungsniveaus ab. Die Bloom'sche Taxonomie ist in der Hochschuldidaktik weit verbreitet: Von einfachem Erinnern und Verstehen über Anwenden und Analysieren bis zu Evaluieren und Kreieren.

Praktisch bedeutet das: Eine E-Klausur, die ausschließlich aus Wissensabfragen auf Erinnerungsniveau besteht, ist didaktisch problematisch – selbst wenn die Technik einwandfrei funktioniert. Prüfungsverantwortliche sollten beim Aufbau des Itempools bewusst Aufgaben verschiedener Schwierigkeitsstufen einplanen und die Verteilung dokumentieren.

Qualitätssicherung von Prüfungsaufgaben

Item-Review-Prozesse

Keine Aufgabe sollte unreflektiert in eine Prüfung eingehen. Bewährt hat sich ein mehrstufiges Review-Verfahren:

  1. Erstellung durch Lehrende oder Tutoren
  2. Fachliches Review durch eine zweite Person (Kollegin, wissenschaftliche Mitarbeiterin)
  3. Didaktisches Review auf Verständlichkeit, Eindeutigkeit und Taxonivostufenzuordnung
  4. Pilotierung im Lehrkontext – etwa als formatives Assessment im Semester – bevor Items in summative Prüfungen eingehen

Itemanalyse nach der Prüfung

Moderne Prüfungssysteme liefern nach der Durchführung statistische Kennwerte pro Item: Schwierigkeitsindex, Trennschärfe, Guessing-Korrekturen. Diese Daten sollten systematisch ausgewertet werden. Items mit sehr geringer Trennschärfe oder extrem hohem oder niedrigem Schwierigkeitsindex sind Kandidaten für eine Überarbeitung oder den Ausschluss aus dem Pool.

Aufgabenpools und Zufallsziehung

Ein ausreichend großer Aufgabenpool ermöglicht es, für jeden Prüfling eine zufällig zusammengestellte Aufgabenauswahl zu generieren. Das reduziert das Risiko, dass Prüfungsinhalte weitergegeben werden, und erhöht die Fairness über verschiedene Prüfungstermine hinweg. Voraussetzung ist allerdings, dass alle Items im Pool ähnliche Schwierigkeitsgrade aufweisen oder nach Schwierigkeitsstufen stratifiziert gezogen werden.

Barrierefreiheit und Formulierungsstandards

Prüfungsaufgaben müssen für alle Studierenden zugänglich sein. Das betrifft Schriftgröße, Kontrast und Screenreader-Kompatibilität des Systems, aber auch die sprachliche Formulierung der Aufgaben selbst. Einfache, präzise Sprache ohne unnötige Fachterminologie – dort, wo die Fachsprache nicht selbst Prüfungsgegenstand ist – verbessert die Messqualität.

Für die didaktische Gestaltung elektronischer Prüfungsszenarien bietet das Portal e-teaching.org umfangreiche Hinweise, die über das technische Setup hinausgehen.

Fazit

Die didaktische Qualität von E-Prüfungsaufgaben ist kein Selbstläufer. Sie entsteht durch bewusste Formatauswahl, sorgfältige Aufgabenkonstruktion und systematische Qualitätssicherung. Wer diese Schritte ernst nimmt, schafft Prüfungen, die nicht nur technisch funktionieren – sondern die tatsächlich messen, was sie messen sollen.