Sztuczna inteligencja Grok Elona Muska patroszy każdy inny model, odpowiadając na zadawane pytania matematyczne z wyjątkiem GPT-4

Sztuczna inteligencja Grok Elona Muska patroszy każdy inny model, odpowiadając na zadawane pytania matematyczne z wyjątkiem GPT-4

To nie jest porada inwestycyjna. Autor nie zajmuje pozycji w żadnej z wymienionych spółek.

Gdy xAI przygotowywała się do zaprezentowania swojego pierwszego modelu wielkojęzykowego (LLM) o nazwie Grok, Elon Musk odważnie oświadczył , że generatywny model sztucznej inteligencji „pod pewnymi ważnymi względami” był „najlepszym, jaki obecnie istnieje”. to roszczenie.

Kieran Paster, badacz z Uniwersytetu w Toronto, niedawno poddał szereg modeli sztucznej inteligencji ich przysłowiowemu tempu, testując je podczas przedłużającego się egzaminu z matematyki. Należy pamiętać, że pytania wstrzymane, w żargonie analizy danych, to pytania, które nie są częścią zbioru danych używanego do uczenia modelu sztucznej inteligencji. Dlatego dany LLM musi wykorzystać swoje wcześniejsze szkolenia i umiejętności rozwiązywania problemów, aby reagować na takie bodźce. Następnie Paster ręcznie oceniał odpowiedzi każdego modelu.

Grok AI xAI LLM Elon Musk
Wyniki AI Groka na przeprowadzonym egzaminie z matematyki

Jak widać z powyższego fragmentu, Grok osiągnął lepsze wyniki niż wszystkie inne LLM, w tym Claude 2 firmy Anthropic, z wyjątkiem GPT-4 OpenAI, uzyskując łączny wynik 59% w porównaniu z 68% w przypadku GPT-4.

Grok xAI Elon Musk
Wydajność Grok AI na GSM8k w porównaniu z przeciąganym egzaminem z matematyki

Następnie Paster wykorzystał testy xAI różnych LLM na GSM8k, zbiór danych z zadaniami matematycznymi przeznaczony dla gimnazjów, aby wykreślić wyniki tych LLM na egzaminie z matematyki w porównaniu z ich wynikami na GSM8k.

Co ciekawe, chociaż ChatGPT-3.5 OpenAI uzyskuje wyższy wynik niż Grok na GSM8k, udaje mu się zapewnić tylko połowę wyniku Groka na przeciąganym egzaminie z matematyki. Paster wykorzystuje ten wynik, aby uzasadnić swój wniosek, że lepsza wydajność ChatGPT-3.5 na GSM8k jest po prostu wynikiem nadmiernego dopasowania, które ma miejsce, gdy LLM podaje dokładne wyniki dla danych wejściowych używanych w jego szkoleniu, ale nie dla nowych danych.

Jeśli wykluczymy wszystkie modele, które prawdopodobnie cierpią z powodu nadmiernego dopasowania, Grok zajmie imponującą trzecią pozycję w rankingu GSM8k, ustępując jedynie Claude 2 i GPT-4. Sugeruje to, że możliwości wnioskowania Groka są dość duże.

Oczywiście istotnym ograniczeniem w porównaniu tych modeli jest brak informacji o liczbie parametrów uczących, które zostały wykorzystane do uczenia GPT-4, Claude 2 i Grok. Parametry te to konfiguracje i warunki, które wspólnie regulują proces uczenia się LLM. Generalnie im większa liczba parametrów, tym bardziej złożony jest model AI.

Kolejną różnicą jest to, że Grok najwyraźniej ma niezrównane wrodzone „ wyczucie ” wiadomości. Jak wynika z pierwszych wrażeń beta testerów LLM, Grok z xAI potrafi rozróżnić różne uprzedzenia, które mogą zabarwić przełomową historię. Jest to prawdopodobnie bezpośredni wynik szkolenia Groka na danych pochodzących z X.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *