banner
Nachrichtenzentrum
Bleiben Sie mit unserem Online-Service rund um die Uhr in Verbindung.

Neuigkeiten zu Optik und Photonik

May 21, 2023

Hannah Lanford

Gerd Kortemeyer

Was bedeutet es für Pädagogen, wenn ein KI-Chatbot einen Physikunterricht bestehen kann? Gerd Kortemeyer, heute Direktor für Bildungsentwicklung und Technologie an der ETH Zürich, Schweiz, war fasziniert von der Debatte um große Sprachmodelle in der akademischen Welt und beschloss, ChatGPT im wahrsten Sinne des Wortes auf die Probe zu stellen. Er berichtet, dass GPT-3.5, basierend auf seinen Antworten auf tatsächliche Hausaufgaben und Prüfungen für einen auf Analysis basierenden Physikkurs, tatsächlich eine (gerade noch) bestandene Note erreicht hätte (Phys. Rev. Phys. Educ. Res., doi: 10.1103/ PhysRevPhysEducRes.19.010132).

Bei einigen könnte dieses Ergebnis Bedenken hinsichtlich der akademischen Integrität hervorrufen. Aber Kortemeyer, der viele Jahre lang in den USA Einführungsphysik lehrte, ist nicht besonders besorgt über das Potenzial der KI, Betrug zu ermöglichen. Stattdessen, sagt er, wirft es Fragen darüber auf, wie wir Physikstudenten tatsächlich unterrichten und bewerten. OPN sprach mit Kortemeyer über seine Gedanken zur Zukunft des Physikunterrichts und der GPT sowie über die „von Natur aus menschlichen“ Fähigkeiten, die er in seinen Kursen vermitteln möchte.

Gerd Kortemeyer: Ich hätte es nicht überraschend finden sollen, aber anfangs war ich überrascht, wie nah die Fehler des Bots an den Fehlern waren, die echte Schüler machen. Ich sollte mich nicht wundern, denn ich weiß nicht genau, mit welchem ​​Textkörper es trainiert wurde – möglicherweise enthielt es sogar einige Diskussionsforen zur Physik.

Aber ich war überrascht, dass etwas, das nichts anderes als ein probabilistischer Mechanismus zur automatischen Vervollständigung ist, im Grunde ein Mustervergleich, das Verhalten von Schülern nachahmen würde. Da frage ich mich, was wir die ganze Zeit getestet haben.

Testen wir tatsächlich den Mustervergleich? Vergeben wir Physiknoten auf der Grundlage von Mustervergleichen, wenn ein solcher Algorithmus in Ordnung ist?

Wenn ein Schüler auf diese standardisierten Beurteilungen trainiert wird, wird er sozusagen in einen kleinen Roboter verwandelt. Sie haben diesen Kindern im Grunde beigebracht, es genauso gut zu machen wie eine Maschine.

OpenAI hat ein Papier veröffentlicht, das zeigt, wie GPT bei standardisierten Bewertungen abschneidet. Für ACT, SAT und alle anderen landet es in den oberen Perzentilen. Das bedeutet, dass ein Schüler, wenn er auf diese standardisierten Beurteilungen trainiert wird, sozusagen in einen kleinen Roboter verwandelt wird. Sie haben diesen Kindern im Grunde beigebracht, es genauso gut zu machen wie eine Maschine. Und das macht mir Angst.

Auch in den Einführungskursen in die Physik basiert die Note auf sehr standardisierten Beurteilungen: Prüfungen, Hausaufgaben, Programmierprojekte und Clicker-Fragen. Daher sollte es mich nicht wundern, dass ChatGPT bestanden hat, denn letztendlich ist die Lösung dieser einführenden physikalischen Probleme eine sehr algorithmische Sache.

Nun, die Schüler müssen immer noch in der Lage sein, diese Aufgaben zu lösen. Wenn Sie sich mit fortgeschrittener Physik befassen möchten, mit all diesen grundlegenden Konzepten wie Newtons Gesetzen, Schaltungsgesetzen usw., müssen Sie dieses praktische Wissen im Hinterkopf haben. Denn wenn Sie dieses Wissen nicht sofort nutzen können, werden Sie in der Physik nicht weiterkommen. Auch wenn KI die grundlegende Physik beherrschen kann, muss ich einschätzen können, dass die Schüler das auch noch können. Und die KI-Werkzeuge werden in allem, was wirklich fortgeschrittene Physik betrifft, mit ziemlicher Sicherheit versagen.

Wir müssen diese Dinge also noch bewerten, aber nicht nur. Da die künstliche Intelligenz immer besser wird, müssen wir uns auch auf die Fähigkeiten konzentrieren, die von Natur aus menschlich sind. Was ist menschliche Intelligenz? Was ist menschliche Kreativität? In meinen Kursen versuche ich immer, etwas mehr zu vermitteln als nur das Auswendiglernen von Fakten. Ich möchte, dass die Menschen neugierig auf die Physik sind, kritisch denken und diese Prinzipien auf alltägliche Situationen anwenden. Ich möchte, dass all diese metakognitiven Prozesse ablaufen.

Angenommen, ich gebe eine Hausaufgabe, und am Ende lautet Ihre Antwort: Ein Auto fährt mit 4.000 Meilen pro Stunde. Als Mensch schaut man sich das an und sagt: „Das sind wahrscheinlich 40 Meilen pro Stunde. Gehen wir zurück. Was habe ich hier gemacht?“ Menschen haben die Fähigkeit zu fragen: Ist das überhaupt realistisch?

Ich kann nicht nie sagen, aber künstliche Intelligenz ist weit davon entfernt, etwas Neues zu entdecken. Weil es sich selbst nicht in Frage stellt. Es stellt die Natur nicht in Frage.

Wenn ich die gleiche verrückte Antwort von einer KI bekomme, wird sie einfach mit dieser Antwort fortfahren. Wenn es falsch ist, ist es um zwei Größenordnungen falsch und man sagt: „Na und? Das ist mein Ergebnis.“ Menschen haben die Fähigkeit, ständig im Hintergrund zu denken. Kann das überhaupt wahr sein? Es ist eine völlig andere Art, Ihre Antwort zu bewerten. Es ist nicht der Weg, der Sie zur Lösung geführt hat. KI verfügt derzeit über keinen dieser Prozesse. Es läuft einfach durch und es erscheint ein Ergebnis.

Ein Problem betrachten, Berechnungen anstellen und denken: Das ist interessant – wie ist das passiert? Ich kann nicht nie sagen, aber künstliche Intelligenz ist weit davon entfernt, etwas Neues zu entdecken. Weil es sich selbst nicht in Frage stellt. Es stellt die Natur nicht in Frage.

Ich denke, die einzige Möglichkeit, sie zu beurteilen, ist eine viel längere, umfassendere Beurteilung. Das beste Beispiel dafür ist Ihre Doktorarbeit. Ein Mensch arbeitet jahrelang an der Erforschung von etwas, das ihm bis dahin völlig unbekannt war. Wenn Ihnen die Neugier, die Metakognition, das Grundwissen und all diese Werkzeuge fehlen, werden Sie keine Doktorarbeit in Physik fertigstellen können.

Wie lässt sich das also auf die unteren Ebenen herunterskalieren? Die einzige Möglichkeit, die ich in meinen Kursen finden konnte, bestand darin, längere Projekte zu vergeben. Ich ließ Studenten Dinge wie „MythBusters“-Videos machen, in denen sie einen urbanen Mythos zum Recherchieren auswählten und eine Erklärung der tatsächlichen Physik dahinter zusammenstellten. Ich hatte eine Gruppe, die die Frage stellte: Wenn man sich in einer Kneipenschlägerei befindet, ist es dann besser, wenn einem eine volle oder eine leere Flasche über den Kopf geschlagen wird?

Also bauten sie eine kleine Maschine mit einem „Kopf“ einer Billardkugel auf einem federnden „Hals“, brachten einen Beschleunigungssensor an der Billardkugel an, bauten einen Schwingarm, an dem sie Flaschen befestigen konnten, ließen die Flaschen gegen die Kugel schlagen und maßen Beschleunigung. Sie fanden heraus, dass das Schlimmste, was passieren kann, darin besteht, dass die Flasche nicht zerbricht, weil die Energie nicht verloren geht. Und sie haben die Physik gut dokumentiert.

Hier können Sie die Leute, die nur Mustervergleiche durchführen, von den Leuten unterscheiden, die wirklich interessiert sind. Und manchmal gedeihen in diesem Umfeld auch Studierende, die bei traditionellen Beurteilungen vielleicht nicht die Note 4,0 erreichen, also perfekte Studierende sind. Es ist eine andere Dimension der Wissenschaft. Es nimmt einfach viel mehr Zeit in Anspruch und die Bewertung ist natürlich subjektiver.

Ich habe in den Vereinigten Staaten viele Studenten im Grundstudium unterrichtet, und für sie war die Botschaft: Wenn die Note Ihres Kurses nicht 4,0, sondern die höchste Note ist, sind Sie ein Versager. Und tatsächlich sagte ein Zulassungsdirektor einer medizinischen Fakultät, der unsere Hochschule besuchte: „Wenn Sie in Physik nur eine 3,5 haben, sollten Sie besser einen guten Grund dafür haben.“ Und ich dachte, das muss ein Scherz sein. Eine 3,5 ist eine tolle Note in Physik.

Die Freude an der ganzen Sache geht verloren. Ich bin Physiker, weil es mir Spaß macht. Die Schüler im Unterricht – so viele von ihnen haben die Erfahrung nicht genossen.

Die Freude an der ganzen Sache geht verloren. Ich bin Physiker, weil es mir Spaß macht. Die Schüler im Unterricht – so viele von ihnen haben die Erfahrung nicht genossen. Ich kann meine kleinen Witze machen, ich kann versuchen, unterhaltsam zu sein, ich kann versuchen, Dinge zum Absturz zu bringen und kaputt zu machen. Aber am Ende wissen sie, dass es zählt, ob sie eine 4,0 oder eine 3,5 haben. Und medizinische Fakultäten sollten darüber nachdenken: Wenn eine KI in den richtigen Kursen eine 4,0 erreichen kann, werden wir das dann auch an medizinischen Fakultäten zulassen? Warum nicht? Was fehlt?

Wenn wir den ganzen Spaß daraus machen und es so auf Noten und Standardbewertungen orientieren, dann haben wir die Schüler auf das Niveau der künstlichen Intelligenz reduziert. Das ist hier eine Gefahr.

Zumindest an der ETH Zürich versuchen wir wirklich, uns davon abzuhalten, schnelle Urteile zu fällen und Vorschriften sofort umzusetzen. Einige Universitäten haben es sofort verboten und sagen: „Kein einziges Wort, das von KI generiert wurde, darf in etwas enden, das bewertet wird. Es ist Plagiat, es ist Ghostwriting.“ Sie wenden im Grunde Begriffe aus der Vergangenheit auf diese neue Technologie an und gehen dann den nächsten Schritt und sagen, dass sie deshalb verboten ist.

Wir haben einen Blogartikel darüber geschrieben, dass KI keine Pandemie ist. Als COVID-19 ausbrach, haben wir sofort Regeln und Vorschriften erlassen, weil wir es mussten – es war eine tödliche Pandemie. Und wir versuchen unsere Universität einfach davor zu warnen, KI genauso zu sehen und sofort Regeln und Vorschriften zu erlassen, bevor wir herausgefunden haben, was sie eigentlich ist.

Wenn bei Prüfungen künstliche Intelligenz zur Verfügung steht, besteht das eigentliche Problem nicht darin, mit der künstlichen Intelligenz zu sprechen, sondern darin, mit anderen Menschen zu sprechen. In dem Moment, in dem man künstliche Intelligenz als Cloud-Dienst zur Verfügung stellt, könnten die Studierenden auch miteinander reden. Das wäre eine viel, viel effizientere Art zu betrügen, als mit einer KI zu arbeiten. Wenn ich eine maßgebliche Antwort von meinem befreundeten Professor sehen kann, warum sollte ich dann einer probabilistischen Antwort einer KI vertrauen? Das ist also tatsächlich die größere Hürde. Mit künstlicher Intelligenz gehen Internetkonnektivität und menschliche Kommunikation einher.

An der ETH gibt es diese riesigen Beurteilungen, die sich über Stunden hinziehen, und wir denken darüber nach, sie in zwei Teilen durchzuführen. Vielleicht besteht der erste Teil also komplett aus Papier und Bleistift. Keine Taschenrechner, nichts. Und das ist die Art und Weise, wie wir das grundlegende Wissen bewerten, indem wir all das wegnehmen.

Und der zweite Teil besteht aus viel fortgeschritteneren Problemen, und sie können so funktionieren, wie sie im wirklichen Leben funktionieren würden. Ihnen stehen alle Tools zur Verfügung, und das betrifft nicht nur KI, sondern auch Dinge wie Wolfram Alpha, Statistiktools und alles, was Sie auf Ihrem Laptop haben.

Das Einzige, was noch problematisch ist, ist die zwischenmenschliche Kommunikation. Ich meine, alles ist kollaborativ – vielleicht können Sie Gruppenprüfungen abhalten. Aber Ihr Freund, der Physikprofessor, da müssen wir wahrscheinlich eine Grenze ziehen.

Die größte Bedrohung sehe ich darin, dass Menschen blind an die Ergebnisse künstlicher Intelligenz glauben. Das kritische Hinterfragen dessen, was aus der KI resultiert, ist etwas, das die Menschen einfach nicht gelernt haben.

Die größte Bedrohung sehe ich darin, dass Menschen blind an die Ergebnisse künstlicher Intelligenz glauben. Das kritische Hinterfragen dessen, was aus der KI resultiert, ist etwas, das die Menschen einfach nicht gelernt haben. Es spuckt Dinge aus, die so plausibel klingen. Alles, was darin steht, klingt wie die absolute Wahrheit, es gibt keine näheren Angaben. Obwohl der gesamte Algorithmus völlig probabilistisch ist, gibt er Ihnen keine Wahrscheinlichkeit, dass er richtig liegt.

Wenn die Menschen nicht hinterfragen, was aus der KI herauskommt, könnte das im wahrsten Sinne des Wortes zu einer Katastrophe führen. Es gab Flugzeugabstürze, weil die Piloten nicht einmal mehr wirklich wussten, wie man das Flugzeug steuert, und die Computerausgabe nicht in Frage stellten, selbst wenn sie falsch war.

Dieses blinde Vertrauen, verstärkt durch soziale Medien, ermöglicht es also, alles in kürzester Zeit in die Welt zu verbreiten. Und dann wird die plausible Fiktion – die die KI derzeit hervorbringt – zur Tatsache. Und wenn dieselbe Fiktion in den nächsten Textkorpus, die nächsten Trainingsdaten einfließt, entfernen wir uns immer weiter von der Wahrheit. Das ist also derzeit die größte Herausforderung.

Ich sehe eine Chance darin, dass Menschen es als Werkzeug nutzen. So zum Beispiel die Überwindung einer Schreibblockade. Sie sagen ihm, er soll einen Aufsatz über ein beliebiges Thema schreiben. Dann produziert es seine schöne, plausible Fiktion, die ein guter Ausgangspunkt sein kann. Dann fängst du an, es zu modifizieren, zu korrigieren, Dinge zu ändern, mit denen du nicht einverstanden bist – aber manchmal ist das Modifizieren so viel einfacher, als bei Null anzufangen.

Das wirft natürlich die Frage auf: Gibt es immer noch kleine Textschnipsel, die direkt aus ChatGPT stammen? Wahrscheinlich ja. Ist das nun Plagiat oder Ghostwriting? Ich kann ehrlich sagen, dass ich den Text zu meinem eigenen gemacht habe, aber es sind wahrscheinlich drei oder vier Wörter in derselben Reihenfolge, die aus ChatGPT stammen. Sollte das verboten sein? Das glaube ich nicht. Plagiat bedeutet, die Arbeit anderer als Ihr eigenes zu beanspruchen. Ich denke, dass dies immer noch als meine eigene Arbeit betrachtet werden kann. Ich verwende KI als Werkzeug, genauso wie ich DeepL oder Grammarly verwenden würde, um einen großen Textblock zu übersetzen oder zu korrigieren.

Es ist eine großartige Möglichkeit, viele verschiedene Standpunkte zu einem Thema zu erhalten, die schließlich aus einem großen Textkorpus zusammengetragen werden. Sie haben also ein Spektrum an Meinungen und Ideen zu einem Thema. Sie müssen sie noch durcharbeiten, aber keine Google-Suche wird Ihnen das liefern.

Es können auch sehr spezielle Fragen beantwortet werden. Für eine aktuelle Arbeit musste ich eine bestimmte Art von Diagramm in Excel erstellen. Ich habe eine halbe Stunde lang gegoogelt und konnte nicht herausfinden, wie man das Ding macht. Ich habe einen Satz in ChatGPT eingegeben und er gab mir das Rezept für die richtige Handlung. Und es war so effizient; Es hat genau die Frage beantwortet.

Als Werkzeug kann es also großartig sein. Ich verwende es sehr regelmäßig auf alle möglichen Arten.

Auf jeden Fall – ich habe einige Dinge mit GPT-4 ausprobiert und die Kursnote wird im Bereich von 80 % liegen. Das ist eine ziemlich gute Note in Physik.

Ich habe einige Dinge mit GPT-4 ausprobiert und die Kursnote wird im Bereich von 80 % liegen. Das ist eine ziemlich gute Note in Physik.

Die nächste Grenze besteht für mich darin, mit dem multimodalen Input zu spielen. Zu physikalischen Problemen gehören häufig kleine Skizzen. Versuchen Sie also, diese Bilder direkt in das System einzuspeisen, anstatt zu erzählen, was auf dem Bild zu sehen ist.

Ich habe es auch zu Bewertungszwecken studiert. Ich habe einfach eine ganze Reihe von Ableitungen von Problemlösungen genommen und sie von ChatGPT in einer Rubrik bewerten lassen. Damit erhalten Sie einen R2 von über 0,8. Es ist also eigentlich ziemlich vielversprechend. Es ist noch nicht alles ganz da, aber es ist nah dran.

Veröffentlichungsdatum: 06. Juni 2023

Gerd Kortemeyer: