title | r_it_m | r_it_sd | difficulty_m | difficulty_sd | duration_m | duration_sd | good |
---|---|---|---|---|---|---|---|
fourfold | 0.51 | 0.10 | 0.58 | 0.04 | 14.16 | 1.33 | TRUE |
open50 | 0.46 | NA | 0.80 | NA | 16.92 | NA | TRUE |
lage2 | 0.46 | 0.19 | 0.87 | 0.06 | 6.04 | 0.56 | TRUE |
sigdf | 0.43 | 0.13 | 0.77 | 0.05 | 1.72 | 0.22 | TRUE |
mpc22 | 0.37 | NA | 0.47 | NA | 2.28 | NA | TRUE |
mpc42 | 0.37 | NA | 0.74 | NA | 1.29 | NA | TRUE |
Regression MPC | 0.33 | 0.10 | 0.56 | 0.11 | 6.15 | 0.42 | TRUE |
boxplots | 0.33 | 0.18 | 0.77 | 0.17 | 4.12 | 0.39 | TRUE |
mpc32 | 0.32 | NA | 0.75 | NA | 1.47 | NA | TRUE |
mpc64 | 0.32 | NA | 0.88 | NA | 0.99 | NA | TRUE |
mpc43 | 0.30 | NA | 0.85 | NA | 1.23 | NA | TRUE |
exp derivative | 0.47 | 0.30 | 0.99 | 0.02 | 1.39 | 0.26 | FALSE |
mpc10 | 0.43 | NA | 0.94 | NA | 0.96 | NA | FALSE |
mpc40 | 0.32 | NA | 0.92 | NA | 0.83 | NA | FALSE |
mpc29 | 0.29 | NA | 0.95 | NA | 0.73 | NA | FALSE |
dynamic_open63 | 0.29 | 0.23 | 0.69 | 0.11 | 5.21 | 0.62 | FALSE |
mpc11 | 0.27 | NA | 0.26 | NA | 2.73 | NA | FALSE |
mpc28 | 0.27 | NA | 0.96 | NA | 0.59 | NA | FALSE |
mpc7 | 0.26 | NA | 0.78 | NA | 1.40 | NA | FALSE |
mpc17 | 0.24 | NA | 0.76 | NA | 1.12 | NA | FALSE |
mpc1 | 0.23 | NA | 0.94 | NA | 0.77 | NA | FALSE |
Confidence interval | 0.23 | 0.18 | 0.72 | 0.08 | 5.44 | 0.60 | FALSE |
mpc47 | 0.22 | NA | 0.96 | NA | 0.51 | NA | FALSE |
Significance Intro | 0.20 | 0.14 | 0.69 | 0.08 | 2.69 | 0.69 | FALSE |
mpc50 | 0.13 | NA | 0.79 | NA | 0.94 | NA | FALSE |
mpc25 | 0.12 | NA | 0.42 | NA | 1.63 | NA | FALSE |
mpc21 | 0.07 | NA | 0.93 | NA | 0.77 | NA | FALSE |
mpc45 | -0.07 | NA | 0.98 | NA | 0.79 | NA | FALSE |
mpc53 | NaN | NA | 1.00 | NA | 0.59 | NA | FALSE |
Wow, innerhalb von zwei Wochen schon der zweite Beitrag :). Woran liegt das? An den Vorteilen unseres Ansatzes und dem QTI-Standard. Hat man eine Auswertung für eine Klausur geschrieben, so ist diese nahezu 1 zu 1 auf andere Klausuren anwendbar. Das liegt daran, dass die Klausurdateien immer in gleicher Form gespeichert werden. Mit Hilfe unseres Pakets bekommen wir somit sofort einen Dataframe, mit dem wir arbeiten können. Heute schauen wir uns die Auswertung der Methodenlehre I Klausur von 2022 an ( vor dem Start unseres Projekts).
Was können wir antizipieren? Nach meiner Erinnerung waren viele Single- und Multiple-Choice-Aufgaben nicht besonders gut und wir hatten recht viele davon. Wir hatten aber bereits eine Variante der Wahrscheinlichkeitstheorie-Aufgabe, die in der 2023er Klausur recht gut abgeschniten hat. Und es gab auch eine brauchbare Essay-Frage.
2022 gab es 4 Versionen jeder Aufgabe, zu der die Teilnehmer (pro Aufgabe) zufällig zugelost wurden. Das erhöht natürlich die Varianz, da es viel mehr Klausur-Versionen gab als 2023, bei der es nur 4 feste Pfade gab. Die Fallzahlen schwanken somit auch für jede Aufgabe. Die Analyse bleibt aber ähnlich: Wir können trotzdem einen Summescore für jeden Probanden bilden und die Trennschärfen und Schwierigkeiten aggregiert über die 4 Versionen berechnen. Das Ziel dieser Analyse ist hauptsächlich Forced-Choice-Aufgaben zu identifizieren, die gut sind und in numerische Aufgaben überführt werden können.
Die Trennschärfe ist part-whole korrigiert. Zur groben Orientierung wird ein Filter gesetzt für Trennschärfen größer 0.3 und Itemschwierigkeiten zwischen 0.1 und 0.9.
Das \(N\) beträgt 113. Die folgende Tabelle zeigt die Itemschwierigkeiten (difficulty) und Trennschärfen (r_it) aggregiert über die 4 Aufgaben-Versionen. Zusätzlich wird auch die Dauer der Bearbeitung in Minuten angezeigt. m: mean, sd = standard deviation. Bei einigen Fragen gab es nur eine Version, sodass die sd nicht angegeben ist (NA).
Gute Aufgaben
Die Tabelle ist in zwei Bereiche eingeteilt. Oben sind die guten Aufgaben mit Trennschärfen größer 0.3 und Schwierigkeiten zwischen 0.1 und 0.9 (letzte Spalte good ist TRUE). Man erkennt schnell, dass selbst die besten Aufgaben nicht an die Trennschärfen aus der 2023er Klausur herankommen. Zum Vergleich: die neue Regressionsaufgabe hat 2023 eine Trennschärfe von 0.63 und die t-Test-Aufgabe von 0.69. Hier (2022) ist die beste Trennschärfe gerade mal 0.51. Und die fourfould
-Aufgabe ist ein Vorläufer der Wahrscheinlichkeitstheorie-Aufgabe, die wir auch 2023 genutzt haben. 2023 ist die Trennschärfe etwas schlechter mit 0.38, was wir im Auge behalten sollten.
open50
Eine der offenen Frage schneidet auch recht gut ab (open50
). Inhaltlich bekam man das Abstract einer Studie und musste die Fragestellung sowie UVs angeben und die Ergebnisse interpretieren. Man bräuchte für solche offenen Fragen jedoch viele Varianten um sie sinnvoll längerfristig zu nutzen. Un die manuelle Korrektur kostet Zeit. Da die offene Frage auch nicht überperformt und schlechter ist als die neuen numerischen Aufgaben, sehe ich keinen guten Grund an ihr festzuhalten.
lage2
Die Aufgabe lage2
haben wir auch in der 2023er Kausur benutzt, wo sie genau die gleiche Trennschärfe und Schwierigkeit erreichte. Diese Aufgabe scheint solide zu sein und kann als Einstiegsaufgabe dienen, da sie eine recht hohe Lösungsrate hat.
sigdf
sigdf
ist eine Aufgabe, bei der die Größen von 2 Gruppen gegeben sind und nach den Freiheitsgraden für einen t-Test gefragt wird. In unserer neuen t-Test-Aufgabe ist eine solche Frage inkludiert.
mpc22
Zunächst die Frage selbst:
Eine Irrtumswahrscheinlichkeit von 5% bedeutet, dass
- eine 5% Wahrscheinlichkeit besteht, dass die Nullhypothese stimmt.
- eine 5% Wahrscheinlichkeit besteht, dass Sie die Alternativhypothese fälschlicherweise ablehnen.
- von 100 durchgeführten Signifikanztests 5 zufällig signifikant würden, wenn die Nullhypothese stimmt.
- die Teststärke 95% beträgt.
Diese Aufgabe ist zum Teil in einer neuen enthalten, bei der aus einer Abbildung die Irrtumswahrscheinlichkeit abgelesen werden muss. Die Formulierungen hier könnten aber dazu dienen die neue Aufgabe komplexer zu gestalten. Zum Beispiel könnte man fragen wie viele von 100 Tests zufällig signifikant werden würden, wenn die Nullhypothese stimmt.
mpc44
Diese Aufgabe ist auch 2023 als experiment5
dabei. Eine randomisierte Variante hierzu ist bereits in der Entwicklung.
Die Frage selbst:
Bei welcher der folgenden Untersuchungen könnte es sich um ein echtes Experiment handeln (im Gegensatz zu einem Quasiexperiment)?
- Untersuchung zum Vergleich von Männern und Frauen hinsichtlich der Fähigkeit des räumlichen Denkens.
- Untersuchung der Abhängigkeit der Zeitwahrnehmung vom Lebensalter.
- Untersuchung der Qualität verschiedener Katzenfutter-Marken anhand der verzehrten Menge bei Hauskatzen.
- Untersuchung zum Vergleich der Arbeitszufriedenheit bei Akademikern und Nicht-Akademikern.
Regression MPC
Dies ist ein interessanter Fall, denn diese Aufgabe war Grundlage für die neue Regressionsaufgabe. Hier sieht man wie viel man rausholen kann, wenn man das Format ändert. Ursprünglich war die Aufgabe als Multiple-Choice konzipiert, mit Fake-Daten und weniger Fragen. Die überarbeitete Version als numerische Aufgabe mit echten Daten und 11 Fragen performt deutlich besser mit einer fast doppelt so hohen Trennschärfe (0.63 versus 0.33).
boxplots
Diese Aufgabe ist nicht schlecht, aber auch nicht herausragend. Man muss Fragen zu 5 Boxplots beantworten und ein Stamm-Blatt-Diagramm einem der Boxplots zuordnen. Die Aufgabe ist als Multiple-Choice konzipiert und es lässt sich sicher noch etwas rausholen durch eine Umwandlung ins numerische Format.
Schlechte Aufgaben
Im Gegensatz zu 2023 haben viele der Forced-Choice-Aufgaben eine schlechte Trennschärfe und sind zusätzlich noch zu leicht. 2023 haben wir natürlich schon etwas selektiert und der Bedarf an Forced-Choice-Aufgaben war deutlich geringer.
Außerdem schneiden exp.derivative
, dynamic_open63
, Confidence Interval
und Significance Intro
schlecht ab.
exp.derivative
ist die Stamm-Blatt-Aufgabe die auch 2023 schlecht abgeschnitten hat. Sie ist zu leicht.
dynamic_open63
ist die z-wert-Aufgabe, die 2023 gerade so noch ok war.
Bei Confidence Interval
könnte man noch etwas rausholen. Es sind zwei Binomial-Verteilungen gegeben und man muss abschätzen, ob das angegebene Konfidenzintervall korrekt ist. Hier wäre eine Umwandlung ins numerische Format sinnvoll.
Sig Intro
ist 2023 auch dabei gewesen und hatte die schlechteste Trennschärfe. Es geht hier um Aussagen zur Power. An sich hat die Aufgabe Potential, aber man muss das Format wohl ändern.
Dauer der Bearbeitung
Die Dauer der Bearbeitung einer Aufgabe kann dazu dienen eine zeitlich angemessene Klausur zu erstellen. Allerdings ist die Information zur Dauer bei zu großzügiger Zeitvorgabe nicht valide. Die meisten Studierenden senden die Klausur zum Schluss ab, selbst wenn sie schon vorher alle Aufgaben bearbeitet haben. Insbesondere bei schwierigen Aufgaben ist die Zeitangabe daher sicher überschätzt. Die Summe der Dauern sollte etwas unter 90min liegen, wenn einige Studierende vorher abgeben. Tatsächlich ist die Summe der Dauern 85.47.
Zu guter Letzt kommt hier noch die Analyse für jede der 4 Aufgabenversionen, die aber nicht weiter diskutiert wird. NA bedeutet, dass eine Berechnung der Trennschärfe nicht möglich war, da die Lösungsrate bei 100% lag.
unaggregiert
title | GROUP | r_it | difficulty | duration | score_max | n |
---|---|---|---|---|---|---|
Confidence interval | 1 | 0.11 | 0.73 | 4.74 | 1 | 30 |
Confidence interval | 2 | 0.17 | 0.75 | 5.79 | 1 | 32 |
Confidence interval | 3 | 0.17 | 0.77 | 6.07 | 1 | 26 |
Confidence interval | 4 | 0.51 | 0.60 | 5.16 | 1 | 25 |
Regression MPC | 1 | 0.43 | 0.56 | 6.52 | 2 | 39 |
Regression MPC | 2 | 0.37 | 0.48 | 5.58 | 2 | 25 |
Regression MPC | 3 | 0.26 | 0.50 | 5.99 | 2 | 28 |
Regression MPC | 4 | 0.21 | 0.71 | 6.36 | 2 | 21 |
Significance Intro | 1 | 0.06 | 0.64 | 3.27 | 1 | 28 |
Significance Intro | 2 | 0.11 | 0.69 | 2.28 | 1 | 29 |
Significance Intro | 3 | 0.31 | 0.66 | 2.11 | 1 | 35 |
Significance Intro | 4 | 0.31 | 0.81 | 3.47 | 1 | 21 |
boxplots | 1 | 0.41 | 0.54 | 4.69 | 2 | 28 |
boxplots | 2 | 0.06 | 0.93 | 3.97 | 2 | 29 |
boxplots | 3 | 0.46 | 0.87 | 4.05 | 2 | 26 |
boxplots | 4 | 0.39 | 0.77 | 3.81 | 2 | 30 |
dynamic_open63 | 1 | 0.42 | 0.80 | 4.74 | 1 | 30 |
dynamic_open63 | 2 | 0.41 | 0.55 | 5.13 | 1 | 22 |
dynamic_open63 | 3 | -0.05 | 0.72 | 4.81 | 1 | 29 |
dynamic_open63 | 4 | 0.37 | 0.65 | 6.10 | 1 | 31 |
exp derivative | 1 | NA | 1.00 | 1.52 | 1 | 33 |
exp derivative | 2 | 0.26 | 0.98 | 1.00 | 1 | 24 |
exp derivative | 3 | NA | 1.00 | 1.59 | 1 | 34 |
exp derivative | 4 | 0.69 | 0.95 | 1.32 | 1 | 22 |
fourfold | 1 | 0.37 | 0.65 | 13.85 | 2 | 23 |
fourfold | 2 | 0.55 | 0.56 | 13.79 | 2 | 31 |
fourfold | 3 | 0.51 | 0.56 | 16.09 | 2 | 28 |
fourfold | 4 | 0.58 | 0.57 | 13.01 | 2 | 31 |
lage2 | 1 | 0.53 | 0.83 | 5.50 | 2 | 23 |
lage2 | 2 | 0.32 | 0.93 | 5.68 | 2 | 35 |
lage2 | 3 | 0.33 | 0.81 | 6.73 | 2 | 29 |
lage2 | 4 | 0.71 | 0.90 | 6.22 | 2 | 26 |
mpc1 | 1 | 0.23 | 0.94 | 0.77 | 1 | 113 |
mpc10 | 1 | 0.43 | 0.94 | 0.96 | 1 | 113 |
mpc11 | 1 | 0.27 | 0.26 | 2.73 | 1 | 113 |
mpc17 | 1 | 0.24 | 0.76 | 1.12 | 1 | 113 |
mpc21 | 1 | 0.07 | 0.93 | 0.77 | 1 | 113 |
mpc22 | 1 | 0.37 | 0.47 | 2.28 | 1 | 113 |
mpc25 | 1 | 0.12 | 0.42 | 1.63 | 1 | 113 |
mpc28 | 1 | 0.27 | 0.96 | 0.59 | 1 | 113 |
mpc29 | 1 | 0.29 | 0.95 | 0.73 | 1 | 113 |
mpc32 | 1 | 0.32 | 0.75 | 1.47 | 1 | 113 |
mpc40 | 1 | 0.32 | 0.92 | 0.83 | 1 | 113 |
mpc42 | 1 | 0.37 | 0.74 | 1.29 | 1 | 113 |
mpc43 | 1 | 0.30 | 0.85 | 1.23 | 1 | 113 |
mpc45 | 1 | -0.07 | 0.98 | 0.79 | 1 | 113 |
mpc47 | 1 | 0.22 | 0.96 | 0.51 | 1 | 113 |
mpc50 | 1 | 0.13 | 0.79 | 0.94 | 1 | 113 |
mpc53 | 1 | NA | 1.00 | 0.59 | 1 | 113 |
mpc64 | 1 | 0.32 | 0.88 | 0.99 | 1 | 114 |
mpc7 | 1 | 0.26 | 0.78 | 1.40 | 1 | 113 |
open50 | 1 | 0.46 | 0.80 | 16.92 | 7 | 113 |
sigdf | 1 | 0.24 | 0.74 | 2.03 | 1 | 23 |
sigdf | 2 | 0.44 | 0.84 | 1.61 | 1 | 31 |
sigdf | 3 | 0.47 | 0.77 | 1.55 | 1 | 26 |
sigdf | 4 | 0.53 | 0.73 | 1.74 | 1 | 33 |