2d ago

DeepSeek und Co scheitern am "Last Exam"

www.scinexx.de DeepSeek und Co scheitern am "Last Exam"

"Humanity's Last Exam": KI-Forscher haben einen neuen Test entwickelt, an dem selbst die besten aktuellen KI-Modelle scheitern – noch. Große Sprachmodelle

„Humanity’s Last Exam“: KI-Forscher haben einen neuen Test entwickelt, an dem selbst die besten aktuellen KI-Modelle scheitern – noch. Große Sprachmodelle wie DeepSeek, OpenAI-o1 oder Gemini 2.0 lösten weniger als zehn Prozent der 3.000 Aufgaben korrekt, die meisten erreichten sogar nur rund fünf Prozent. Die Menschheit hat demnach zumindest in der Wissenschaft auf Expertenniveau noch einen Vorsprung. Die Fragen des „Last Exam“ stammen aus mehr als 100 Fachgebieten und wurden von Forscher weltweit eingereicht.

Paper: Humanity's Last Exam | PDF

No comments