Najnowszy model Gemini AI firmy Google przewyższa technologię GPT-4o firmy OpenAI
Nowy model Gemini-Exp-1114 firmy Google wstrząsa krajobrazem testów porównawczych AI
Chatbot Arena stała się wiodącą otwartą platformą poświęconą benchmarkingowi AI opartemu na crowdsourcingu. Przez ostatnie dwa lata modele OpenAI zdominowały rankingi, konsekwentnie osiągając najwyższe pozycje w różnych ocenach AI. Podczas gdy modele Gemini firmy Google i Claude firmy Anthropic wykazały imponujące wyniki w niektórych kategoriach, OpenAI w dużej mierze utrzymało niezrównaną obecność na arenie.
Niedawno Chatbot Arena zaprezentował eksperymentalny model od Google, znany jako Gemini-Exp-1114. Ten nowy dodatek przeszedł rygorystyczne testy, otrzymując ponad 6000 głosów od społeczności w ciągu ostatniego tygodnia, co pozwoliło mu zająć pierwsze miejsce w rankingu obok najnowszego modelu OpenAI, ChatGPT-4o-latest (stan na 3 września 2024 r.). Wynik tej iteracji modelu Gemini znacznie wzrósł, wzrastając z 1301 do 1344, przewyższając nawet model o1-preview OpenAI pod względem ogólnej wydajności.
Kluczowe osiągnięcia Gemini-Exp-1114
Według danych z Chatbot Arena, Gemini-Exp-1114 jest obecnie liderem rankingu Vision i osiągnął pierwsze miejsce w następujących kategoriach:
- Matematyka
- Twórcze pisanie
- Dłuższe zapytanie
- Instrukcja nastepująca
- Interakcje wieloobrotowe
- Twarde monity
W dziedzinie kodowania ten nowy model zapewnił sobie pozycję nr 3; jednak wykazuje imponującą wydajność w Hard Prompts with Style Control. Dla kontekstu, model o1-preview OpenAI nadal prowadzi zarówno pod względem wydajności kodowania, jak i metryk kontroli stylu. Analizując mapę cieplną współczynnika wygranych, widzimy, że Gemini-Exp-1114 osiąga współczynnik wygranych na poziomie 50% w porównaniu z GPT-4o-latest, 56% w porównaniu z o1-preview i 62% w porównaniu z Claude-3.5-Sonnet.
Ostatnie ulepszenia i wskaźniki wydajności
We wrześniu tego roku Google wprowadziło serię Gemini 1.5, prezentując ulepszenia, takie jak około 7% wzrost wyników MMLU-Pro i znaczną poprawę o 20% w testach porównawczych MATH i HiddenMath. Nowsze modele odzwierciedlają również 2-7% ulepszeń w przypadkach użycia związanych z wizją i kodem. Co godne uwagi, ogólna pomocność odpowiedzi została zwiększona, a Google podkreśla, że nowy model ma tendencję do dostarczania bardziej zwięzłych odpowiedzi. Domyślna długość wyjścia dla tych zaktualizowanych modeli jest teraz około 5-20% krótsza niż ich poprzedników.
Osoby zainteresowane eksploracją wyników modelu Gemini-Exp-1114 lub wypróbowaniem go mogą uzyskać szczegółowe informacje tutaj . Zachęcamy deweloperów do testowania tego najnowocześniejszego modelu w Google AI Studio, a plany dostępności za pośrednictwem API są już na horyzoncie.
Dodaj komentarz