Post Thumbnail

GigaChat verlor gegen Claude und Gemini in russischer Sprache im MERA-Benchmark

Das Testen von GigaChat offenbart die harte Wahrheit über Russlands Platz im globalen Rennen um künstliche Intelligenz. Jüngste Tests am MERA-Benchmark zeigten Ergebnisse, die zum ernsten Nachdenken zwingen. Das russische Modell, das speziell für die Arbeit mit russischer Sprache erstellt wurde, verlor unerwartet gegen ausländische Konkurrenten in seinem eigenen “natürlichen Element”.

Besonders bemerkenswert ist, dass die Tests vom GigaChat-Team selbst an einem spezialisierten Aufgabensatz durchgeführt wurden, der von der heimischen Allianz im Bereich künstliche Intelligenz entwickelt wurde. In vergleichenden Tests zeigten die amerikanischen Modelle Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. Sowie die chinesischen DeepSeek-V3 und DeepSeek-V3.0324 höhere Leistungen.

Jack Clark, Mitgründer und Leiter der Politik bei Anthropic und früher Direktor für Politik bei OpenAI, gab eine eindeutige Bewertung der Situation ab. Seiner Meinung nach wird das Land, wenn GigaChat den Zustand des gesamten russischen Ökosystems von Sprachmodellen widerspiegelt, nicht nur nicht an der Spitze konkurrieren können, sondern auch auf Schwierigkeiten selbst in der Nische kleiner offener Modelle stoßen.

Die Daten dieser Tests wurden in einem wissenschaftlichen Artikel auf arxiv veröffentlicht. Diese Ergebnisse deuten darauf hin, dass der Kampf um die Führung im Bereich künstliche Intelligenz nur ein Kampf zwischen den USA und China bleibt.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Wie Robomart die Lieferkosten durch Robotik um 70% senkt

$3 für jede Lieferung. Robomart fordert die Giganten DoorDash und Uber Eats mit einem für die Branche neuen Geschäftsmodell heraus. Ihr neuer Roboter RM5 verändert die Lieferökonomie vollständig.

Ungewöhnliche Zusammenarbeit von Konkurrenten bei KI-Sicherheitstests

Zwei Hauptkonkurrenten in der Welt der künstlichen Intelligenz haben sich erstmals für gemeinsame Sicherheitstests zusammengetan. OpenAI und Anthropic öffneten einander Zugang zu ihren geheimen Modellen. In einer Industrie, wo Unternehmen Forschern bis zu $100 Millionen zahlen und um jeden Nutzer kämpfen, erscheint solche Zusammenarbeit unglaublich.

Warum Gemini 50% der ChatGPT-Audienz auf Mobilgeräten erreichte

Google Gemini hat bereits die Hälfte der ChatGPT-Audienz auf Mobilgeräten. Das sind Daten aus dem neuen Bericht des Venture-Fonds Andreessen Horowitz über den Verbraucher-KI-Markt. 2,5 Jahre Forschung zeigen ein interessantes Bild.

Wie Claude zum Hacking-Tool für 17 Organisationen wurde

Das Unternehmen Anthropic veröffentlichte einen analytischen Sicherheitsbericht. Daraus wird klar, dass Claude und andere KI-Agenten zu Werkzeugen von Cyberkriminellen werden. Bei Anthropic nannte man diese neue Richtung Vibe-Hacking. Es stellt sich heraus, dass künstliche Intelligenz die Eintrittsbarrieren für kriminelle Aktivitäten radikal gesenkt hat.

Wie xAI mit OpenAI bei Entwicklertools konkurriert

xAI startet Grok Code Fast 1. Das ist ein kompaktes agentisches Modell für Coding. $0,20 für 1 Million Input-Token, $1,50 für Output — und nur $0,02 bei Cache-Nutzung!