Najnowszy model Gemini AI firmy Google przewyższa technologię GPT-4o firmy OpenAI

2024/11/15

Nowy model Gemini-Exp-1114 firmy Google wstrząsa krajobrazem testów porównawczych AI

Chatbot Arena stała się wiodącą otwartą platformą poświęconą benchmarkingowi AI opartemu na crowdsourcingu. Przez ostatnie dwa lata modele OpenAI zdominowały rankingi, konsekwentnie osiągając najwyższe pozycje w różnych ocenach AI. Podczas gdy modele Gemini firmy Google i Claude firmy Anthropic wykazały imponujące wyniki w niektórych kategoriach, OpenAI w dużej mierze utrzymało niezrównaną obecność na arenie.

Niedawno Chatbot Arena zaprezentował eksperymentalny model od Google, znany jako Gemini-Exp-1114. Ten nowy dodatek przeszedł rygorystyczne testy, otrzymując ponad 6000 głosów od społeczności w ciągu ostatniego tygodnia, co pozwoliło mu zająć pierwsze miejsce w rankingu obok najnowszego modelu OpenAI, ChatGPT-4o-latest (stan na 3 września 2024 r.). Wynik tej iteracji modelu Gemini znacznie wzrósł, wzrastając z 1301 do 1344, przewyższając nawet model o1-preview OpenAI pod względem ogólnej wydajności.

Kluczowe osiągnięcia Gemini-Exp-1114

Według danych z Chatbot Arena, Gemini-Exp-1114 jest obecnie liderem rankingu Vision i osiągnął pierwsze miejsce w następujących kategoriach:

Matematyka
Twórcze pisanie
Dłuższe zapytanie
Instrukcja nastepująca
Interakcje wieloobrotowe
Twarde monity

W dziedzinie kodowania ten nowy model zapewnił sobie pozycję nr 3; jednak wykazuje imponującą wydajność w Hard Prompts with Style Control. Dla kontekstu, model o1-preview OpenAI nadal prowadzi zarówno pod względem wydajności kodowania, jak i metryk kontroli stylu. Analizując mapę cieplną współczynnika wygranych, widzimy, że Gemini-Exp-1114 osiąga współczynnik wygranych na poziomie 50% w porównaniu z GPT-4o-latest, 56% w porównaniu z o1-preview i 62% w porównaniu z Claude-3.5-Sonnet.

Ostatnie ulepszenia i wskaźniki wydajności

We wrześniu tego roku Google wprowadziło serię Gemini 1.5, prezentując ulepszenia, takie jak około 7% wzrost wyników MMLU-Pro i znaczną poprawę o 20% w testach porównawczych MATH i HiddenMath. Nowsze modele odzwierciedlają również 2-7% ulepszeń w przypadkach użycia związanych z wizją i kodem. Co godne uwagi, ogólna pomocność odpowiedzi została zwiększona, a Google podkreśla, że nowy model ma tendencję do dostarczania bardziej zwięzłych odpowiedzi. Domyślna długość wyjścia dla tych zaktualizowanych modeli jest teraz około 5-20% krótsza niż ich poprzedników.

Osoby zainteresowane eksploracją wyników modelu Gemini-Exp-1114 lub wypróbowaniem go mogą uzyskać szczegółowe informacje tutaj . Zachęcamy deweloperów do testowania tego najnowocześniejszego modelu w Google AI Studio, a plany dostępności za pośrednictwem API są już na horyzoncie.

Źródło i obrazy

Nowy model Gemini-Exp-1114 firmy Google wstrząsa krajobrazem testów porównawczych AI

Kluczowe osiągnięcia Gemini-Exp-1114

Ostatnie ulepszenia i wskaźniki wydajności

Dodaj komentarz Anuluj pisanie odpowiedzi