title | r_it | difficulty | duration | score_max | good |
---|---|---|---|---|---|
power | 0.76 | 0.85 | 7.78 | 6.0 | TRUE |
tovee | 0.72 | 0.83 | 14.53 | 9.0 | TRUE |
metaanalyse | 0.69 | 0.71 | 14.81 | 4.0 | TRUE |
wissenschaftstheorie | 0.59 | 0.85 | 3.48 | 3.0 | TRUE |
lagemaßeDavisS2024 | 0.47 | 0.84 | 10.87 | 4.0 | TRUE |
konfidenzintervall | 0.31 | 0.28 | 17.78 | 2.0 | TRUE |
qualitative1 | 0.29 | 0.17 | 5.97 | 2.0 | FALSE |
MT1_SK_I37 | 0.23 | 0.89 | 0.93 | 0.5 | FALSE |
forschungsprozess | 0.23 | 0.80 | 1.49 | 1.0 | FALSE |
experiment_basics | 0.12 | 0.70 | 4.17 | 1.5 | FALSE |
MT1_SK_I2 | 0.04 | 0.90 | 0.90 | 0.5 | FALSE |
Die Klausur von 2024 war die erste, bei der Studierende die Aufgaben von methoden.guru zur Vorbereitung umfänglich nutzen konnten. Hat dies Auswirkungen auf die diagnostischen Kriterien für die Klausuraufgaben? Unser Ansatz durch Randomisierung sollte zumindest die Abnutzung der Aufgaben deutlich verlangsamen. In diesem Beitrag schauen wir uns an, wie sich die Aufgaben bewähren.
Es gab nur eine Klausurversion um die Fallzahl für jede Aufgabe zu maximieren. Als Statistiken werden wir uns die Trennschärfe und Aufgabenschwierigkeit anschauen. Die Trennschärfe ist part-whole korrigiert. Zur groben Orientierung wird ein Filter gesetzt für Trennschärfen größer 0.3 und Itemschwierigkeiten zwischen 0.1 und 0.9.
Das \(N\) beträgt 102. Die folgende Tabelle zeigt die Itemschwierigkeiten (difficulty) und Trennschärfen (r_it). Zusätzlich wird auch die Dauer der Bearbeitung in Minuten angezeigt. m: mean, sd = standard deviation
Top: Regression, Power, Metaanalyse
Die Tabelle ist in zwei Abschnitte unterteilt. Im oberen Bereich sind die guten Aufgaben aufgeführt, die eine Trennschärfe von über 0.3 und eine Schwierigkeit zwischen 0.1 und 0.9 aufweisen (die letzte Spalte “good” ist TRUE). Es ist sofort ersichtlich, dass unsere Flaggschiff-Aufgaben am besten abschneiden: nämlich Regression (tovee), Power und Metaanalyse. Diese Aufgaben wurden vollständig neu im Rahmen des Projekts entwickelt und sind auch im Kurs für Studierende verfügbar (https://bildungsportal.sachsen.de/opal/auth/RepositoryEntry/38156107780). Obwohl Studierende mit den Aufgaben vertraut sind, haben die Aufgaben ausgezeichnete diagnostische Eigenschaften. Das ist fast untertrieben, denn die maximale Trennschärfe von 0.76 toppt nochmals deutlich die 0.69 aus dem letzten Jahr.
Auch die Aufgabe zu den Lagemaßen bewährt sich. In zwei früheren Klausuren wies sie eine Trennschärfe von 0.46 und eine Schwierigkeit von 0.87 auf, was fast genau den Werten hier entspricht. Es ist bemerkenswert, wie stabil einige Aufgaben sind, obwohl sie frei zugänglich sind. Auch hier zeigt sich, dass unser Ansatz effektiv ist.
Die Aufgabe zur Wissenschaftstheorie differenziert ebenfalls sehr gut; sie ist jedoch nicht öffentlich zugänglich, da wir hierfür nicht unendlich viele Versionen erstellen können. Im Wesentlichen handelt es sich um eine einfache Zuordnungsabfrage. Bei Interesse stellen wir die Aufgabe natürlich gerne Dozierenden zur Verfügung.
Mittelmaß: Konfidenzintervall
Die einzige neue Aufgabe, die für das Projekt relevant ist, befasst sich mit der Berechnung eines Konfidenzintervalls für Anteile. Diese Aufgabe wurde nur von wenigen Studierenden gelöst, wodurch auch die Trennschärfe eingeschränkt ist. Dennoch überprüft die Aufgabe wichtiges Wissen und sollte daher genutzt werden. Die Berechnung eines Konfidenzintervalls für Anteile ist Bestandteil der Vorlesung und der dazugehörigen Übung. Die geringe Lösungsrate geht wohl darauf zurück, dass Studierende sich zu sehr auf die Übungsaufgaben aus methoden.guru fokussiert haben. Gleichzeitig ist 0.3 als Trennschärfe nicht so schlecht, wenn man die extreme Schwierigkeit einpreist. In Zukunft wird sich zeigen, ob sich die Aufgabe bewährt.
Skalenniveaus
Die 2 Fragen zu Skalenniveaus (MT) performen nicht so gut. Hier wurden allerdings 2 Aufgaben komplett zufällig gezogen und die Items zu Skalenniveaus sind teilweise zu leicht (siehe Skalenniveau). Hierfür gibt es bereits eine Abhilfe durch eine Vorauswahl guter Items.
Rest
Die restlichen Aufgaben (qualitative1, forschungsprozess und experiment_basics) sind nicht randomisierbar und wurden zur Steigerung der Inhaltsvalidität verwendet. Man sieht hier aber deutlich, dass sie, im Vergleich zu randomisierbaren Aufgaben, schlechte diagnostische Eigenschaften haben. Hier ist Kreativität gefragt um bessere Aufgaben zu entwickeln, die gleichzeitig randomisierbar sind.
Dauer der Bearbeitung
Die Dauer der Bearbeitung einer Aufgabe kann dazu dienen eine zeitlich angemessene Klausur zu erstellen. Allerdings ist die Information zur Dauer bei zu großzügiger Zeitvorgabe nicht valide. Die meisten Studierenden senden die Klausur zum Schluss ab, selbst wenn sie schon vorher alle Aufgaben bearbeitet haben. Insbesondere bei schwierigen Aufgaben ist die Zeitangabe daher sicher überschätzt. Die Summe der Dauern sollte etwas unter den bei unserer Klausur festgelegten 90 Minuten liegen, wenn einige Studierende vorher abgeben. Tatsächlich ist die Summe der Dauern 82.72 Minuten, deutlich geringer als im letzten Jahr. Daher sollte die Bearbeitungsdauer einzelner Aufgaben auch nicht zu stark überschätzt sein.