Teste dein Wissen gegen den Massive Multitask Language Understanding Benchmark
HLE ist ein Benchmark mit 2.500 Fragen an der Grenze menschlichen Wissens, erstellt von Fachexperten weltweit. Die besten KI-Modelle erreichen derzeit nur ~45 %. Hier sind 8 Beispielfragen — ohne Antworten, denn genau das macht HLE so schwierig.