
Uniklinik2
Bild: gehapromo, stock.adobe
KI kann Prüfungserstellung von Lehrenden sinnvoll ergänzen
Studie zur Qualität KI-gestützter Prüfungsfragen
Generative KI hält Einzug in die medizinische Ausbildung, doch wie belastbar ist die Qualität KI-gestützter Prüfungsfragen tatsächlich? Eine neue Studie aus der Uniklinik Köln und der Medizinischen Fakultät der Universität zu Köln liefert dazu empirische Daten an der Schnittstelle von Lehre und Forschung.
Priv.-Doz. Dr. Philipp Linde, Oberarzt und Lehrkoordinator der Klinik und Poliklinik für Radioonkologie, Cyberknife- und Strahlentherapie in der Uniklinik Köln, hat in der Studie untersucht, ob KI bei der Erstellung von Multiple-Choice-Prüfungsfragen unterstützen kann, ohne dass die messbaren psychometrischen Qualitätsmerkmale darunter leiden.
Die Ergebnisse wurden Anfang Januar in der renommierten Fachzeitschrift npj Digital Medicine veröffentlicht.
In seiner Studie testete der Mediziner den Einsatz des bekannten Large Language Models ChatGPT bei der Vorbereitung von Prüfungsfragen in der Lehre.
Dafür verglich er in einem verblindeten, präregistrierten Single-Center-Studiendesign insgesamt 48 Multiple-Choice-Fragen aus den bildgebenden Fächern Strahlentherapie/Radioonkologie, Radiologie und Nuklearmedizin.
128 Teilnehmende, darunter Medizinstudierende sowie Ärztinnen und Ärzte, bearbeiteten eine prüfungsnahe, formative Probeklausur – ohne die Herkunft der Aufgaben zu kennen.
Im Fokus standen dabei zentrale psychometrische Qualitätsparameter wie die Schwierigkeit der Aufgaben und deren Trennschärfe. Die Ergebnisse zeigen, dass die Kennwerte von KI- und Human-Fragen vergleichbar sind und sich statistisch nicht signifikant unterscheiden.
Zusätzlich sollten die Teilnehmenden nach jeder Frage einschätzen, ob diese KI-generiert oder von einem Menschen verfasst war. Die Herkunft konnte mit einer Trefferquote von 50 Prozent, also nahe am Zufallsniveau, nicht zuverlässig erkannt werden.
Für die Einordnung ist der Qualitätsprozess wichtig: Die KI-Aufgaben wurden vor dem Einsatz in einem Human-in-the-Loop-Workflow fachlich und didaktisch geprüft. Dabei wurden unter anderem Aspekte wie die inhaltliche Richtigkeit, die Eindeutigkeit, die Plausibilität der Distraktoren oder der Abgleich mit den Lernzielen berücksichtigt.
„Unsere Daten sprechen dafür, dass generative KI bei der Item-Erstellung entlasten kann – wenn ein klarer Qualitätsprozess dahintersteht. Entscheidend ist der Human-in-the-Loop-Ansatz: Fachliche Korrektheit oder Lernzielbezug müssen geprüft und dokumentiert werden, bevor KI-basierte Fragen in die Lehre gehen“,
resümiert Dr. Linde.
Weitere Forschungsarbeiten zum verantwortungsbewussten Einsatz von KI-basierter Lehre in der medizinischen Aus- und Weiterbildung sind geplant. Ein Anschlussprojekt wird die systematische Qualitätskontrolle und den Abgleich der Qualitätskriterien aus unterschiedlichen Perspektiven, zum Beispiel der (Vor-)Klinik und Medizindidaktik, in den Fokus nehmen.
Weitere Meldungen der Uniklinik Köln unter diesem Link.
