OpenAI hat ein neues KI-Modell vorgestellt, das gezielt Fehler in den Code-Eingaben von ChatGPT finden soll. Sowohl CriticGPT als auch ChatGPT basieren auf der GPT-4-Architektur, doch während ChatGPT Inhalte generiert, überwacht CriticGPT diese und sucht nach Fehlern. Eine Art KI-internes „Korrekturlesen“.
KI überwacht KI: Die Funktionsweise von CriticGPT
CriticGPT wurde entwickelt, um die Ausgabe von ChatGPT zu prüfen und Fehler zu identifizieren. Das Konzept basiert auf Reinforcement Learning from Human Feedback (RLHF), wobei die bisherige Methode von menschlichem Feedback durch ein KI-basiertes System ergänzt wird. Dieses Modell, das auf derselben GPT-4-Architektur basiert, soll eine konsistentere und präzisere Rückmeldung geben. Das Ergebnis: Menschen, die sowohl ChatGPT als auch CriticGPT nutzen, sind laut OpenAI um 60 Prozent erfolgreicher beim Programmieren als diejenigen, die nur ChatGPT verwenden.
RLHF ist ein Verfahren, bei dem eine KI durch positives Feedback lernt, bessere Ergebnisse zu liefern. Allerdings ist menschliches Feedback oft uneinheitlich und nicht immer korrekt. Hier kommt CriticGPT ins Spiel, das konsistentere und verlässlichere Rückmeldungen geben soll. Doch auch CriticGPT fragt bei eigenen Unsicherheiten den Menschen, um die Fehlerbewertung zu bestätigen.
Zunächst nur für Code
Aktuell ist CriticGPT ausschließlich für die Analyse von Code konzipiert. OpenAI plant jedoch, diese Funktion auch auf andere Bereiche auszuweiten. Obwohl CriticGPT die Fehlererkennungsrate signifikant verbessert, zeigt OpenAI in einem Blogbeitrag auf, dass die Vorschläge von ChatGPT trotz CriticGPT nicht immer fehlerfrei sind. Mit fortschreitenden Verbesserungen im Reasoning und Verhalten der Modelle werden die Fehler von ChatGPT zwar immer subtiler, aber auch schwieriger zu erkennen.
Die Grenzen von CriticGPT
Trotz seiner Stärken hat CriticGPT auch seine Grenzen. Das Modell wurde bisher nur mit relativ kurzen Antworten von ChatGPT trainiert, längere und komplexere Antworten müssen noch folgen. Zudem leiden KI-Modelle weiterhin unter sogenannten Halluzinationen, also dem Erzeugen falscher oder irreführender Informationen. Diese Halluzinationen können trotz CriticGPT und bewerteter Antworten weiterhin zu Fehlern führen. Fehler aus der realen Welt können in das Modell übertragen werden, und die von CriticGPT erkannten Fehler sind oft anderer Natur und fokussieren sich auf isolierte Fehlerquellen.
Ein Schritt in die richtige Richtung
Ansätze, bei denen KI-Modelle sich gegenseitig überwachen, um Halluzinationen und Konfabulationen zu erkennen, sind nicht neu. Inhaltlich falscher Output ist ein großes Problem der aktuellen KI-Chatbots. Beispielsweise betont Metas Forschungsleiterin Naila Murray, dass dies eine der Grenzen ist, weshalb große Sprachmodelle in kritischen Bereichen wie Kreditwürdigkeitsprüfung oder Justizsystemen nicht eingesetzt werden können.
Mit CriticGPT geht OpenAI einen wichtigen Schritt zur Verbesserung der Zuverlässigkeit und Genauigkeit von KI-gestützten Tools. Ob dies letztlich ausreicht, um die weitreichenden Einsatzmöglichkeiten von KI zu erweitern und deren Fehleranfälligkeit zu minimieren, wird die Zukunft zeigen. Bis dahin bleibt das menschliche Auge als letzte Instanz weiterhin unersetzlich – zumindest, wenn es um die wirklich kritischen Fragen geht.
