Diagnostische Auswertung Methodenlehre I 2022

Wow, innerhalb von zwei Wochen schon der zweite Beitrag :). Woran liegt das? An den Vorteilen unseres Ansatzes und dem QTI-Standard. Hat man eine Auswertung für eine Klausur geschrieben, so ist diese nahezu 1 zu 1 auf andere Klausuren anwendbar. Das liegt daran, dass die Klausurdateien immer in gleicher Form gespeichert werden. Mit Hilfe unseres Pakets bekommen wir somit sofort einen Dataframe, mit dem wir arbeiten können. Heute schauen wir uns die Auswertung der Methodenlehre I Klausur von 2022 an ( vor dem Start unseres Projekts).

Was können wir antizipieren? Nach meiner Erinnerung waren viele Single- und Multiple-Choice-Aufgaben nicht besonders gut und wir hatten recht viele davon. Wir hatten aber bereits eine Variante der Wahrscheinlichkeitstheorie-Aufgabe, die in der 2023er Klausur recht gut abgeschniten hat. Und es gab auch eine brauchbare Essay-Frage.

2022 gab es 4 Versionen jeder Aufgabe, zu der die Teilnehmer (pro Aufgabe) zufällig zugelost wurden. Das erhöht natürlich die Varianz, da es viel mehr Klausur-Versionen gab als 2023, bei der es nur 4 feste Pfade gab. Die Fallzahlen schwanken somit auch für jede Aufgabe. Die Analyse bleibt aber ähnlich: Wir können trotzdem einen Summescore für jeden Probanden bilden und die Trennschärfen und Schwierigkeiten aggregiert über die 4 Versionen berechnen. Das Ziel dieser Analyse ist hauptsächlich Forced-Choice-Aufgaben zu identifizieren, die gut sind und in numerische Aufgaben überführt werden können.

Die Trennschärfe ist part-whole korrigiert. Zur groben Orientierung wird ein Filter gesetzt für Trennschärfen größer 0.3 und Itemschwierigkeiten zwischen 0.1 und 0.9.

Das \(N\) beträgt 113. Die folgende Tabelle zeigt die Itemschwierigkeiten (difficulty) und Trennschärfen (r_it) aggregiert über die 4 Aufgaben-Versionen. Zusätzlich wird auch die Dauer der Bearbeitung in Minuten angezeigt. m: mean, sd = standard deviation. Bei einigen Fragen gab es nur eine Version, sodass die sd nicht angegeben ist (NA).

title	r_it_m	r_it_sd	difficulty_m	difficulty_sd	duration_m	duration_sd	good
fourfold	0.51	0.10	0.58	0.04	14.16	1.33	TRUE
open50	0.46	NA	0.80	NA	16.92	NA	TRUE
lage2	0.46	0.19	0.87	0.06	6.04	0.56	TRUE
sigdf	0.43	0.13	0.77	0.05	1.72	0.22	TRUE
mpc22	0.37	NA	0.47	NA	2.28	NA	TRUE
mpc42	0.37	NA	0.74	NA	1.29	NA	TRUE
Regression MPC	0.33	0.10	0.56	0.11	6.15	0.42	TRUE
boxplots	0.33	0.18	0.77	0.17	4.12	0.39	TRUE
mpc32	0.32	NA	0.75	NA	1.47	NA	TRUE
mpc64	0.32	NA	0.88	NA	0.99	NA	TRUE
mpc43	0.30	NA	0.85	NA	1.23	NA	TRUE
exp derivative	0.47	0.30	0.99	0.02	1.39	0.26	FALSE
mpc10	0.43	NA	0.94	NA	0.96	NA	FALSE
mpc40	0.32	NA	0.92	NA	0.83	NA	FALSE
mpc29	0.29	NA	0.95	NA	0.73	NA	FALSE
dynamic_open63	0.29	0.23	0.69	0.11	5.21	0.62	FALSE
mpc11	0.27	NA	0.26	NA	2.73	NA	FALSE
mpc28	0.27	NA	0.96	NA	0.59	NA	FALSE
mpc7	0.26	NA	0.78	NA	1.40	NA	FALSE
mpc17	0.24	NA	0.76	NA	1.12	NA	FALSE
mpc1	0.23	NA	0.94	NA	0.77	NA	FALSE
Confidence interval	0.23	0.18	0.72	0.08	5.44	0.60	FALSE
mpc47	0.22	NA	0.96	NA	0.51	NA	FALSE
Significance Intro	0.20	0.14	0.69	0.08	2.69	0.69	FALSE
mpc50	0.13	NA	0.79	NA	0.94	NA	FALSE
mpc25	0.12	NA	0.42	NA	1.63	NA	FALSE
mpc21	0.07	NA	0.93	NA	0.77	NA	FALSE
mpc45	-0.07	NA	0.98	NA	0.79	NA	FALSE
mpc53	NaN	NA	1.00	NA	0.59	NA	FALSE

Gute Aufgaben

Die Tabelle ist in zwei Bereiche eingeteilt. Oben sind die guten Aufgaben mit Trennschärfen größer 0.3 und Schwierigkeiten zwischen 0.1 und 0.9 (letzte Spalte good ist TRUE). Man erkennt schnell, dass selbst die besten Aufgaben nicht an die Trennschärfen aus der 2023er Klausur herankommen. Zum Vergleich: die neue Regressionsaufgabe hat 2023 eine Trennschärfe von 0.63 und die t-Test-Aufgabe von 0.69. Hier (2022) ist die beste Trennschärfe gerade mal 0.51. Und die fourfould-Aufgabe ist ein Vorläufer der Wahrscheinlichkeitstheorie-Aufgabe, die wir auch 2023 genutzt haben. 2023 ist die Trennschärfe etwas schlechter mit 0.38, was wir im Auge behalten sollten.

open50

Eine der offenen Frage schneidet auch recht gut ab (open50). Inhaltlich bekam man das Abstract einer Studie und musste die Fragestellung sowie UVs angeben und die Ergebnisse interpretieren. Man bräuchte für solche offenen Fragen jedoch viele Varianten um sie sinnvoll längerfristig zu nutzen. Un die manuelle Korrektur kostet Zeit. Da die offene Frage auch nicht überperformt und schlechter ist als die neuen numerischen Aufgaben, sehe ich keinen guten Grund an ihr festzuhalten.

lage2

Die Aufgabe lage2 haben wir auch in der 2023er Kausur benutzt, wo sie genau die gleiche Trennschärfe und Schwierigkeit erreichte. Diese Aufgabe scheint solide zu sein und kann als Einstiegsaufgabe dienen, da sie eine recht hohe Lösungsrate hat.

sigdf

sigdf ist eine Aufgabe, bei der die Größen von 2 Gruppen gegeben sind und nach den Freiheitsgraden für einen t-Test gefragt wird. In unserer neuen t-Test-Aufgabe ist eine solche Frage inkludiert.

mpc22

Zunächst die Frage selbst:

Eine Irrtumswahrscheinlichkeit von 5% bedeutet, dass

eine 5% Wahrscheinlichkeit besteht, dass die Nullhypothese stimmt.
eine 5% Wahrscheinlichkeit besteht, dass Sie die Alternativhypothese fälschlicherweise ablehnen.
von 100 durchgeführten Signifikanztests 5 zufällig signifikant würden, wenn die Nullhypothese stimmt.
die Teststärke 95% beträgt.

Diese Aufgabe ist zum Teil in einer neuen enthalten, bei der aus einer Abbildung die Irrtumswahrscheinlichkeit abgelesen werden muss. Die Formulierungen hier könnten aber dazu dienen die neue Aufgabe komplexer zu gestalten. Zum Beispiel könnte man fragen wie viele von 100 Tests zufällig signifikant werden würden, wenn die Nullhypothese stimmt.

mpc44

Diese Aufgabe ist auch 2023 als experiment5 dabei. Eine randomisierte Variante hierzu ist bereits in der Entwicklung.

Die Frage selbst:

Bei welcher der folgenden Untersuchungen könnte es sich um ein echtes Experiment handeln (im Gegensatz zu einem Quasiexperiment)?

Untersuchung zum Vergleich von Männern und Frauen hinsichtlich der Fähigkeit des räumlichen Denkens.
Untersuchung der Abhängigkeit der Zeitwahrnehmung vom Lebensalter.
Untersuchung der Qualität verschiedener Katzenfutter-Marken anhand der verzehrten Menge bei Hauskatzen.
Untersuchung zum Vergleich der Arbeitszufriedenheit bei Akademikern und Nicht-Akademikern.

Regression MPC

Dies ist ein interessanter Fall, denn diese Aufgabe war Grundlage für die neue Regressionsaufgabe. Hier sieht man wie viel man rausholen kann, wenn man das Format ändert. Ursprünglich war die Aufgabe als Multiple-Choice konzipiert, mit Fake-Daten und weniger Fragen. Die überarbeitete Version als numerische Aufgabe mit echten Daten und 11 Fragen performt deutlich besser mit einer fast doppelt so hohen Trennschärfe (0.63 versus 0.33).

boxplots

Diese Aufgabe ist nicht schlecht, aber auch nicht herausragend. Man muss Fragen zu 5 Boxplots beantworten und ein Stamm-Blatt-Diagramm einem der Boxplots zuordnen. Die Aufgabe ist als Multiple-Choice konzipiert und es lässt sich sicher noch etwas rausholen durch eine Umwandlung ins numerische Format.

Schlechte Aufgaben

Im Gegensatz zu 2023 haben viele der Forced-Choice-Aufgaben eine schlechte Trennschärfe und sind zusätzlich noch zu leicht. 2023 haben wir natürlich schon etwas selektiert und der Bedarf an Forced-Choice-Aufgaben war deutlich geringer.

Außerdem schneiden exp.derivative, dynamic_open63, Confidence Interval und Significance Intro schlecht ab.

exp.derivative ist die Stamm-Blatt-Aufgabe die auch 2023 schlecht abgeschnitten hat. Sie ist zu leicht.

dynamic_open63 ist die z-wert-Aufgabe, die 2023 gerade so noch ok war.

Bei Confidence Interval könnte man noch etwas rausholen. Es sind zwei Binomial-Verteilungen gegeben und man muss abschätzen, ob das angegebene Konfidenzintervall korrekt ist. Hier wäre eine Umwandlung ins numerische Format sinnvoll.

Sig Intro ist 2023 auch dabei gewesen und hatte die schlechteste Trennschärfe. Es geht hier um Aussagen zur Power. An sich hat die Aufgabe Potential, aber man muss das Format wohl ändern.

Dauer der Bearbeitung

Die Dauer der Bearbeitung einer Aufgabe kann dazu dienen eine zeitlich angemessene Klausur zu erstellen. Allerdings ist die Information zur Dauer bei zu großzügiger Zeitvorgabe nicht valide. Die meisten Studierenden senden die Klausur zum Schluss ab, selbst wenn sie schon vorher alle Aufgaben bearbeitet haben. Insbesondere bei schwierigen Aufgaben ist die Zeitangabe daher sicher überschätzt. Die Summe der Dauern sollte etwas unter 90min liegen, wenn einige Studierende vorher abgeben. Tatsächlich ist die Summe der Dauern 85.47.

Zu guter Letzt kommt hier noch die Analyse für jede der 4 Aufgabenversionen, die aber nicht weiter diskutiert wird. NA bedeutet, dass eine Berechnung der Trennschärfe nicht möglich war, da die Lösungsrate bei 100% lag.

unaggregiert

title	GROUP	r_it	difficulty	duration	score_max	n
Confidence interval	1	0.11	0.73	4.74	1	30
Confidence interval	2	0.17	0.75	5.79	1	32
Confidence interval	3	0.17	0.77	6.07	1	26
Confidence interval	4	0.51	0.60	5.16	1	25
Regression MPC	1	0.43	0.56	6.52	2	39
Regression MPC	2	0.37	0.48	5.58	2	25
Regression MPC	3	0.26	0.50	5.99	2	28
Regression MPC	4	0.21	0.71	6.36	2	21
Significance Intro	1	0.06	0.64	3.27	1	28
Significance Intro	2	0.11	0.69	2.28	1	29
Significance Intro	3	0.31	0.66	2.11	1	35
Significance Intro	4	0.31	0.81	3.47	1	21
boxplots	1	0.41	0.54	4.69	2	28
boxplots	2	0.06	0.93	3.97	2	29
boxplots	3	0.46	0.87	4.05	2	26
boxplots	4	0.39	0.77	3.81	2	30
dynamic_open63	1	0.42	0.80	4.74	1	30
dynamic_open63	2	0.41	0.55	5.13	1	22
dynamic_open63	3	-0.05	0.72	4.81	1	29
dynamic_open63	4	0.37	0.65	6.10	1	31
exp derivative	1	NA	1.00	1.52	1	33
exp derivative	2	0.26	0.98	1.00	1	24
exp derivative	3	NA	1.00	1.59	1	34
exp derivative	4	0.69	0.95	1.32	1	22
fourfold	1	0.37	0.65	13.85	2	23
fourfold	2	0.55	0.56	13.79	2	31
fourfold	3	0.51	0.56	16.09	2	28
fourfold	4	0.58	0.57	13.01	2	31
lage2	1	0.53	0.83	5.50	2	23
lage2	2	0.32	0.93	5.68	2	35
lage2	3	0.33	0.81	6.73	2	29
lage2	4	0.71	0.90	6.22	2	26
mpc1	1	0.23	0.94	0.77	1	113
mpc10	1	0.43	0.94	0.96	1	113
mpc11	1	0.27	0.26	2.73	1	113
mpc17	1	0.24	0.76	1.12	1	113
mpc21	1	0.07	0.93	0.77	1	113
mpc22	1	0.37	0.47	2.28	1	113
mpc25	1	0.12	0.42	1.63	1	113
mpc28	1	0.27	0.96	0.59	1	113
mpc29	1	0.29	0.95	0.73	1	113
mpc32	1	0.32	0.75	1.47	1	113
mpc40	1	0.32	0.92	0.83	1	113
mpc42	1	0.37	0.74	1.29	1	113
mpc43	1	0.30	0.85	1.23	1	113
mpc45	1	-0.07	0.98	0.79	1	113
mpc47	1	0.22	0.96	0.51	1	113
mpc50	1	0.13	0.79	0.94	1	113
mpc53	1	NA	1.00	0.59	1	113
mpc64	1	0.32	0.88	0.99	1	114
mpc7	1	0.26	0.78	1.40	1	113
open50	1	0.46	0.80	16.92	7	113
sigdf	1	0.24	0.74	2.03	1	23
sigdf	2	0.44	0.84	1.61	1	31
sigdf	3	0.47	0.77	1.55	1	26
sigdf	4	0.53	0.73	1.74	1	33