Diagnostische Auswertung Methodenlehre I 2023

Klausur
Autor:in

Dr. Johannes Titz

Veröffentlichungsdatum

10. Juli 2023

Bereits 2023 haben wir in der Methodenlehre I Klausur einige neue Aufgaben aus dem Methodenguru-Projekt ausprobiert. Heute schauen wir uns an, welche von diesen Aufgaben gute diagnostische Eigenschaften haben.

Es gab 4 Versionen der Klausur, zu der jeder Teilnehmer zufällig zugelost wurde. Zum Zeitpunkt der Klausur haben wir noch das exams-Paket für die Aufgabenerstellung benutzt, weshalb es wirklich für jede Aufgabe 4 Versionen gab; selbst für diejenigen die eigentlich statisch sind (z. B. Single-Choice-Aufgaben). Für die Analyse werden diese 4 Versionen über Mittelwerte und Standardabweichungen zusammengefasst. Wir schauen uns heute nur die Statistiken auf der Aufgaben-Ebene an. Das Ziel ist es schlechte Aufgaben zu identifizieren und auszuschließen. Für Dozent/-innen die unsere Aufgaben nutzen möchten, ist es natürlich interessant zu sehen, wie gut die Aufgaben performen.

Als Statistiken werden wir uns die Trennschärfe und Aufgabenschwierigkeit anschauen. Die Trennschärfe ist part-whole korrigiert. Zur groben Orientierung wird ein Filter gesetzt für Trennschärfen größer 0.3 und Itemschwierigkeiten zwischen 0.1 und 0.9.

Das \(N\) beträgt 133. Die folgende Tabelle zeigt die Itemschwierigkeiten (difficulty) und Trennschärfen (r_it) aggregiert über die 4 Versionen. Zusätzlich wird auch die Dauer der Bearbeitung in Minuten angezeigt. m: mean, sd = standard deviation

title r_it_m r_it_sd difficulty_m difficulty_sd duration_m duration_sd good
sig_t_test 0.69 0.10 0.69 0.03 14.69 1.37 TRUE
regression 0.63 0.13 0.69 0.06 17.78 1.78 TRUE
experiment1 0.48 0.15 0.89 0.07 0.79 0.16 TRUE
ls_statistiken 0.46 0.19 0.87 0.07 7.23 1.12 TRUE
konfidenzintervall1 0.42 0.18 0.88 0.03 1.24 0.22 TRUE
metaanalyse1 0.41 0.09 0.71 0.05 1.07 0.22 TRUE
experiment5 0.41 0.24 0.73 0.02 1.70 0.39 TRUE
wahrscheinlichkeitstheorie_assessment_center 0.38 0.21 0.62 0.06 25.28 2.73 TRUE
ls_z-werte 0.30 0.04 0.83 0.10 6.49 0.47 TRUE
beobachtung_und_befragung1 0.54 0.11 0.98 0.02 0.80 0.22 FALSE
experiment2 0.50 0.16 0.95 0.06 0.68 0.23 FALSE
korrelation3 0.45 0.20 0.98 0.02 0.61 0.18 FALSE
wissenschaftstheorie3 0.39 0.09 0.92 0.02 1.09 0.06 FALSE
wissenschaftstheorie_lakatos1 0.38 0.12 0.95 0.06 0.83 0.13 FALSE
messen_und_testen_gütekriterien2 0.33 0.09 0.92 0.02 0.91 0.25 FALSE
ls_stamm_blatt 0.29 0.36 0.96 0.02 1.24 0.24 FALSE
messen_und_testen8 0.17 0.08 0.21 0.08 1.74 0.26 FALSE
signifikanz_power 0.09 0.24 0.65 0.06 3.07 0.40 FALSE

Top: Regression und t-Test

Die Tabelle ist in zwei Bereiche eingeteilt. Oben sind die guten Aufgaben mit Trennschärfen größer 0.3 und Schwierigkeiten zwischen 0.1 und 0.9 (letzte Spalte good ist TRUE). Man erkennt sofort, dass unsere Flagship-Aufgaben am besten performen: nämlich die Regressionsaufgabe und die t-Test-Aufgabe. Das sind die Aufgaben, die wir komplett neu im Projekt entwickelt haben und die auch im Kurs für Studierende zur Verfügung stehen (https://bildungsportal.sachsen.de/opal/auth/RepositoryEntry/38156107780). Sie basieren auf echten Daten, sind numerisch und bilden unserer Meinung nach wirklich relevante Kompetenzen im Forschungsalltag ab. Wir machen also offensichtlich schon einiges richtig! :) Diese zwei Aufgaben brauchen nur noch kosmetische Pflege: Programmiercode refactoren, die Formulierungen verbessern und eine bessere Auswahl von Bedingungen ermöglichen. Natürlich wäre auch eine Analyse auf Item-Ebene interessant, aber die können wir dann ggf. bei einer richtigen Publikation durchführen.

Mittelmaß: z-Werte, bedingte Wahrscheinlichkeiten

Bei der z-Werte-Aufgabe könnte die Trennschärfe größer sein. Hier müssen wir ggf. mehr Varianten erzeugen, da die Aufgabe seit ein paar Jahren in Umlauf ist und die Studierenden diese vermutlich schon gut kennen. Inhaltlich müssen die Studierenden momentan Rohwerte aus z-Werten berechnen. Wir könnten als Variation auch z-Werte aus Rohwerten berechnen lassen.

Die Wahrscheinlichkeitstheorie-Aufgabe könnte auch etwas besser performen, insbesondere da sie viel Zeit in Anspruch nimmt. Nach Gesprächen mit Studierenden kam diese Aufgabe wohl für einige etwas unerwartet (sieht man auch an der relativ niedrigen Lösungsrate). Wenn sich Studierende auf bestimmte Themen nicht vorbereiten, wird die Trennschärfe natürlich darunter leiden. Die Aufgabe ist aber an sich recht wichtig, da bedingte Wahrscheinlichkeiten im Alltag eine große Rolle spielen. Man denke beispielsweise an die Wirksamkeit von Impfungen (https://johannestitz.com/de/post/2022-02-14-wirksamkeit-corona/). Daher werden wir diese Aufgabe wohl nie komplett herausnehmen. Eine Variation wäre jedoch möglich, bei der mehr Werte vorgegeben sind, sodass die Berechnung nicht so lange dauert.

Flop: Stamm-Blatt, Power

Die Aufgabe zum Stamm-Blatt-Diagramm ist viel zu leicht, weshalb sie aus unserem Kanon herausfliegen wird. Die Aufgabe zur Power performt auch sehr schlecht und Bedarf einer Überarbeitung. Die Power-Aufgabe ist momentan als Multiple-Choice konzipiert, sodass Raten einen großen Einfluss haben kann. Denkbar ist auch wieder, dass die Studierenden die Power beim Lernen vernachlässigt haben. Die Lösungsrate ist recht niedrig, vergleichbar mit der Wahrscheinlichkeitstheorie-Aufgabe, bei der jedoch die Trennschärfe deutlich besser ist.

Single-Choice-Aufgaben sind viel zu leicht

Obwohl die Trennschärfen durchweg gut sind, fällt auf, dass die Single-Choice-Aufgaben viel zu leicht sind. Die Lösungsraten liegen meist bei über 90%, in manchen Subgruppen bei 100% (siehe Abschnitt ganz unten in diesem Text). Ich vermute, dass Single-Choice-Aufgaben von Studierenden übe die Jahre hinweg gesammelt wurden und somit den meisten bekannt sind. Legt man ein etwas strengeres Kriterium an, so sind im Grunde nur die Single-Choice-Aufgaben zur Meta-Analyse (metaanalyse1) und zum Experiment (experiment5) brauchbar. Aber auch diese werden sich irgendwann abnutzen. Man könnte dies natürlich auch unseren anderen Aufgaben vorwerfen.

Irgendwann ist klar, dass wir jedes Mal die Regressions-Aufgabe abfragen. Allerdings ist dies anders als bei Single-Choice-Aufgaben. Die Regressions-Aufgabe erfordert viel Wissen, was man nicht einfach auswendig lernen kann. Studierende müssten sicher 5-10 Stunden Lernzeit investieren, um die Aufgabe souverän lösen zu können. Abkürzungen gibt es nicht. Bei anderen Aufgaben ist dies ähnlich. Bei Single-Choice-Aufgaben reicht eine Assoziation (Meta-Analyse: empirische Stichprobenverteilung) ohne tieferes Verständnis.

Außerdem müssen wir nicht immer die Regressions-Aufgabe benutzen. Eine Aufgabe zur ANOVA ist genauso anspruchsvoll und wichtig und erfordert genauso viel Vorbereitungszeit. Da Studierende nicht wissen, welche von diesen großen Aufgaben in der Klausur vorkommt, müssen sie sich auf beide vorbereiten. Daher sehe ich momentan kein Problem für die Trennschärfe und Itemschwierigkeit. Jemand der eine 1,0 haben will, wird mehr lernen müssen, da er/sie mehr wissen muss. Da nicht alle gleich viel lernen, wird die Schwierigkeit und Trennschärfe passabel sein. Aber das muss natürlich empirisch belegt werden.

Varianz zwischen Versionen

Im Allgemeinen schwanken die Trennschärfen und Schwierigkeiten etwas zwischen den Versionen, aber nicht so stark, dass es problematisch wäre. So ist die Schwankung bei statischen Aufgaben wie experiment1 (eine Single-Choice-Aufgabe) sogar noch höher. Ein Großteil der Varianz geht also einfach auf die zufällige Zuteilung der Studierenden auf die 4 Klausurversionen zurück. Die Gruppengrößen sind 27, 31, 33 und 42. Das ist natürlich nicht ausreichend um ein ähnliches Fähigkeitsniveau zwischen den Gruppen zu gewährleisten.

An der Gesamtstichprobe können wir nicht viel verändern. Wir könnten aber nur 2 Versionen erzeugen. Dann hätten wir Gruppengrößen von ungefähr 65-70 Personen. Eine einzige Version wäre auch denkbar. In diesem Fall müssten wir aber sicher gehen, dass die Studierenden nicht abschreiben können. Da die Erstellung mehrerer Versionen technisch aufwändiger ist, favorisiere ich momentan diese Variante. In diesem Fall gibt es auch keinerlei Fairness-Probleme, die bei mehreren Versionen nie zu 100% ausgeschlossen werden können. Unser Ziel war es im Grunde auch nie verschiedene Klausurversionen zu einer Prüfung zu erzeugen, sondern verschiedene Versionen zum Üben und über Prüfungen hinweg. Betrugsversuche müssen in jedem Fall verhindert werden, was nicht in erster Linie Aufgabe der Klausurersteller ist.

Dauer der Bearbeitung

Die Dauer der Bearbeitung einer Aufgabe kann dazu dienen eine zeitlich angemessene Klausur zu erstellen. Allerdings ist die Information zur Dauer bei zu großzügiger Zeitvorgabe nicht valide. Die meisten Studierenden senden die Klausur zum Schluss ab, selbst wenn sie schon vorher alle Aufgaben bearbeitet haben. Insbesondere bei schwierigen Aufgaben ist die Zeitangabe daher sicher überschätzt. Die Summe der Dauern sollte etwas unter den bei unserer Klausur erlaubten 90 Minuten liegen, wenn einige Studierende vorher abgeben. Tatsächlich ist die Summe der Dauern 87.23 Minuten.

Zu guter Letzt kommt hier noch die Analyse für jede der 4 Klasurversionen, die aber nicht weiter diskutiert wird. NA bedeutet, dass keine Berechnung der Trennschärfe möglich war, da die Lösungsrate bei 100% lag.

unaggregiert

title GROUP r_it difficulty duration score_max n
beobachtung_und_befragung1 1 0.48 0.98 0.61 0.5 42
beobachtung_und_befragung1 2 0.63 0.96 0.85 0.5 27
beobachtung_und_befragung1 3 NA 1.00 1.11 0.5 31
beobachtung_und_befragung1 4 NA 1.00 0.70 0.5 33
experiment1 1 0.55 0.81 0.94 0.5 42
experiment1 2 0.63 0.85 0.83 0.5 27
experiment1 3 0.46 0.97 0.78 0.5 31
experiment1 4 0.28 0.94 0.55 0.5 33
experiment2 1 0.41 0.88 0.52 0.5 42
experiment2 2 0.63 0.96 0.94 0.5 27
experiment2 3 NA 1.00 0.88 0.5 31
experiment2 4 NA 1.00 0.51 0.5 33
experiment5 1 0.50 0.71 1.49 0.5 42
experiment5 2 0.16 0.74 1.67 0.5 27
experiment5 3 0.68 0.71 2.29 0.5 31
experiment5 4 0.26 0.76 1.42 0.5 33
konfidenzintervall1 1 0.39 0.83 1.52 0.5 42
konfidenzintervall1 2 0.69 0.89 1.08 0.5 27
konfidenzintervall1 3 0.40 0.90 1.23 0.5 31
konfidenzintervall1 4 0.25 0.91 1.01 0.5 33
korrelation3 1 0.48 0.98 0.77 0.5 42
korrelation3 2 0.63 0.96 0.43 0.5 27
korrelation3 3 0.23 0.97 0.74 0.5 31
korrelation3 4 NA 1.00 0.45 0.5 33
ls_stamm_blatt 1 0.59 0.95 1.41 0.5 42
ls_stamm_blatt 2 0.55 0.94 1.44 0.5 27
ls_stamm_blatt 3 0.17 0.97 1.15 0.5 31
ls_stamm_blatt 4 -0.18 0.98 0.93 0.5 33
ls_statistiken 1 0.49 0.82 8.52 2.5 42
ls_statistiken 2 0.73 0.79 7.47 2.5 27
ls_statistiken 3 0.29 0.94 6.65 2.5 31
ls_statistiken 4 0.36 0.92 5.91 2.5 33
ls_z-werte 1 0.28 0.73 6.50 1.0 42
ls_z-werte 2 0.28 0.80 6.38 1.0 27
ls_z-werte 3 0.29 0.92 5.93 1.0 31
ls_z-werte 4 0.36 0.92 7.07 1.0 33
messen_und_testen8 1 0.13 0.17 1.70 0.5 42
messen_und_testen8 2 0.30 0.15 1.69 0.5 27
messen_und_testen8 3 0.17 0.19 2.11 0.5 31
messen_und_testen8 4 0.13 0.33 1.51 0.5 33
messen_und_testen_gütekriterien2 1 0.40 0.93 0.84 0.5 42
messen_und_testen_gütekriterien2 2 0.41 0.93 0.93 0.5 27
messen_und_testen_gütekriterien2 3 0.22 0.90 1.26 0.5 31
messen_und_testen_gütekriterien2 4 0.29 0.94 0.66 0.5 33
metaanalyse1 1 0.39 0.64 1.05 0.5 42
metaanalyse1 2 0.52 0.74 1.02 0.5 27
metaanalyse1 3 0.48 0.71 1.38 0.5 31
metaanalyse1 4 0.31 0.76 0.84 0.5 33
regression 1 0.71 0.68 18.83 8.5 42
regression 2 0.61 0.68 16.50 8.5 27
regression 3 0.73 0.78 15.73 8.5 31
regression 4 0.44 0.63 19.41 8.5 33
sig_t_test 1 0.71 0.68 13.96 3.5 42
sig_t_test 2 0.81 0.71 15.38 3.5 27
sig_t_test 3 0.65 0.74 16.44 3.5 31
sig_t_test 4 0.58 0.67 13.42 3.5 33
signifikanz_power 1 -0.07 0.62 2.76 1.0 42
signifikanz_power 2 0.47 0.74 3.59 1.0 27
signifikanz_power 3 0.06 0.68 3.33 1.0 31
signifikanz_power 4 0.01 0.61 2.83 1.0 33
wahrscheinlichkeitstheorie_assessment_center 1 0.66 0.60 23.68 2.5 42
wahrscheinlichkeitstheorie_assessment_center 2 0.28 0.59 22.37 2.5 27
wahrscheinlichkeitstheorie_assessment_center 3 0.29 0.70 28.25 2.5 31
wahrscheinlichkeitstheorie_assessment_center 4 0.17 0.59 26.89 2.5 33
wissenschaftstheorie3 1 0.50 0.90 1.04 0.5 42
wissenschaftstheorie3 2 0.37 0.89 1.17 0.5 27
wissenschaftstheorie3 3 0.31 0.94 1.07 0.5 31
wissenschaftstheorie3 4 0.34 0.94 1.12 0.5 33
wissenschaftstheorie_lakatos1 1 0.45 0.93 0.90 0.5 42
wissenschaftstheorie_lakatos1 2 0.28 0.89 0.84 0.5 27
wissenschaftstheorie_lakatos1 3 NA 1.00 0.92 0.5 31
wissenschaftstheorie_lakatos1 4 NA 1.00 0.64 0.5 33