Bitget App
Trade smarter
Krypto kaufenMärkteTradenFuturesCopyBotsEarn
OpenAI-Mitarbeiter werfen öffentlich vor, dass die Benchmark-Testergebnisse von xAI's neuestem KI-Modell, Grok3, irreführend sind

OpenAI-Mitarbeiter werfen öffentlich vor, dass die Benchmark-Testergebnisse von xAI's neuestem KI-Modell, Grok3, irreführend sind

Original ansehen
Bitget2025/02/23 03:37

Kürzlich beschuldigte ein Mitarbeiter von OpenAI öffentlich das Unternehmen xAI von Elon Musk, irreführende Benchmark-Testergebnisse für sein neuestes KI-Modell Grok3 veröffentlicht zu haben. Als Reaktion darauf bestand Igor Babushkin, der Mitbegründer von xAI, darauf, dass es keine Unregelmäßigkeiten gab.

Das Diagramm von xAI zeigt, dass zwei Versionen von Grok3 - Grok3 Reasoning Beta und Grok3 mini Reasoning - das derzeit stärkste verfügbare Modell von OpenAI, o3-mini-high, bei AIME 2025 übertrafen. Ein OpenAI-Mitarbeiter wies jedoch schnell auf der Plattform X darauf hin, dass das Diagramm von xAI die Punktzahl von o3-mini-high unter der Bedingung "cons@64" in AIME 2025 nicht enthielt.

Auf der Plattform X argumentierte Babushkin, dass OpenAI in der Vergangenheit ebenfalls ähnliche irreführende Benchmark-Diagramme veröffentlicht habe, obwohl diese Diagramme verwendet wurden, um die Leistung ihrer eigenen Modelle zu vergleichen.

0

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn
APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.
Jetzt Lockedn!