Verluste auf Prognosemärkten

Warum GPT-5.2 und Grok auf Polymarket scheitern

Cybertrading

Eine Studie von Harvard und Arcada Labs zeigt: Alle KI-Modelle machten im Live-Test auf Polymarket und Kalshi Verluste. Rendite-Träume auf Social Media sind meist Fiktion.

Die Versprechen auf Social-Media-Plattformen wie X klingen verführerisch: Ein KI-Modell auf einen Prognosemarkt wie Polymarket oder Kalshi ansetzen und dabei zusehen, wie automatisierte Algorithmen Millionen scheffeln. Doch eine aktuelle Untersuchung der Arcada Labs in Zusammenarbeit mit der Harvard University holt die Spekulanten auf den Boden der Tatsachen zurück. In einem 57-tägigen Live-Experiment stellten die Forscher fest, dass kein einziges der führenden KI-Modelle in der Lage war, profitabel zu handeln. Statt Reichtum lieferten die Maschinen vor allem eines: automatisierte Verluste. Das berichtet Cybernews.

Anzeige

Das Experiment: 10.000 US-Dollar gegen den Markt

Die Forscher statteten mehrere moderne Frontier-Modelle mit einem Startkapital von jeweils 10.000 US-Dollar aus. Zwischen dem 12. Januar und dem 9. März 2026 durften die KIs völlig autonom auf echten Prognosemärkten agieren. Das Ergebnis war ernüchternd: Jedes einzelne Modell schloss den Testzeitraum mit einem Minus ab. Die Verluste bewegten sich in einer Spanne von 16,0 % bis zu drastischen 30,8 %.

Die Bilanz der bekanntesten Modelle im Überblick:

  • GLM-4.7: Das „beste“ Modell im Test beendete die Phase mit einem Restwert von 8.398 USD (ein Verlust von 16 %).
  • Grok-4-20-checkpoint: Dieses Modell landete bei 7.999 USD.
  • GPT-5.2: Das Flaggschiff-Modell von OpenAI schrumpfte das Kapital auf 7.950 USD.
  • Schwächste Modelle: Die beiden Schlusslichter im Test verbrannten fast ein Drittel des Einsatzes und endeten bei rund 6.900 USD.

Mehr Rechenleistung bedeutet nicht mehr Rendite

Ein zentrales Ergebnis der Studie widerspricht der gängigen Annahme „Viel hilft viel“. Die Forscher stellten fest, dass das reine Forschungsvolumen, also wie viele Informationen die KI verarbeitet und wie viele Token sie dabei „verbraucht“, in keinem korrelierten Verhältnis zum finanziellen Erfolg stand. Das Verbrennen von mehr Rechenleistung führte nicht zu besseren Entscheidungen. Entscheidend waren vielmehr die initiale Vorhersagegenauigkeit und das Timing beim Ausstieg aus Positionen. Das sind Fähigkeiten, bei denen die KIs im Vergleich zu erfahrenen menschlichen Tradern oft versagten.

Anzeige
Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Plattform-Unterschiede: Polymarket vs. Kalshi

Interessanterweise variierte die Performance je nach gewählter Plattform. Während die Modelle auf Kalshi im Schnitt Verluste von 22,6 % einfuhren, sah es auf Polymarket etwas weniger dramatisch aus. Hier beliefen sich die durchschnittlichen Verluste auf lediglich 1,1 %. Die Studienautoren führen dies auf das unterschiedliche Design der Handelsplattformen zurück, das bestimmte Modellarchitekturen begünstigen oder behindern kann.

Dennoch gab es einen Lichtblick, der jedoch mit Vorsicht zu genießen ist: Das Modell Gemini 3.1 Pro Preview erzielte in einer simulierten Umgebung („Paper-Trading“) eine positive Rendite von 6,02 %. Da dies jedoch nur über einen Zeitraum von drei Tagen und ohne echtes Geld geschah, taugt es nicht als Beweis für eine langfristige Profitabilität im Live-Handel.

Die „Grok“-Falle: Kurzes Hoch, tiefer Fall

Wie menschliche Anleger tappten auch die KI-Modelle in klassische psychologische Fallen des Marktes. Das Modell Grok-4-20-checkpoint schien Anfang Februar 2026 kurzzeitig den Markt zu schlagen. Das Portfolio kletterte auf einen Spitzenwert von 11.554,85 USD. Das entspricht einem Plus von über 15 %.

Doch der Erfolg war nicht von Dauer. Innerhalb weniger Tage erlitt das Modell den größten Einzelsitzungs-Verlust des gesamten Benchmarks. Da Grok mehrere korrelierte Positionen gleichzeitig hielt, die sich alle gegen das Modell entwickelten, stürzte das Portfolio innerhalb einer Sitzung um 8,99 % ab. Dies unterstreicht ein grundlegendes Problem: KI-Modelle neigen dazu, Trends zu folgen, sind aber oft nicht robust genug, um plötzliche Marktumschwünge abzufedern.

Die Studie der Arcada Labs und Harvard University macht deutlich, dass die technologische Reife von Large Language Models (LLMs) noch nicht ausreicht, um auf komplexen Prognosemärkten verlässlich Gewinne zu erzielen. Wer seine Ersparnisse einem Bot anvertraut, automatisiert derzeit vor allem Enttäuschungen. Während KIs in der Analyse großer Datenmengen glänzen, fehlt ihnen auf dem Parkett der Prognosemärkte noch immer das notwendige Gespür für Marktdynamik und Risikomanagement.

Autorenbild Lisa Löw

Lisa

Löw

Junior Online-Redakteurin

IT-Verlag

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.