Sztuczna inteligencja Grok Elona Muska patroszy każdy inny model, odpowiadając na zadawane pytania matematyczne z wyjątkiem GPT-4
To nie jest porada inwestycyjna. Autor nie zajmuje pozycji w żadnej z wymienionych spółek.
Gdy xAI przygotowywała się do zaprezentowania swojego pierwszego modelu wielkojęzykowego (LLM) o nazwie Grok, Elon Musk odważnie oświadczył , że generatywny model sztucznej inteligencji „pod pewnymi ważnymi względami” był „najlepszym, jaki obecnie istnieje”. to roszczenie.
Kieran Paster, badacz z Uniwersytetu w Toronto, niedawno poddał szereg modeli sztucznej inteligencji ich przysłowiowemu tempu, testując je podczas przedłużającego się egzaminu z matematyki. Należy pamiętać, że pytania wstrzymane, w żargonie analizy danych, to pytania, które nie są częścią zbioru danych używanego do uczenia modelu sztucznej inteligencji. Dlatego dany LLM musi wykorzystać swoje wcześniejsze szkolenia i umiejętności rozwiązywania problemów, aby reagować na takie bodźce. Następnie Paster ręcznie oceniał odpowiedzi każdego modelu.
Jak widać z powyższego fragmentu, Grok osiągnął lepsze wyniki niż wszystkie inne LLM, w tym Claude 2 firmy Anthropic, z wyjątkiem GPT-4 OpenAI, uzyskując łączny wynik 59% w porównaniu z 68% w przypadku GPT-4.
Następnie Paster wykorzystał testy xAI różnych LLM na GSM8k, zbiór danych z zadaniami matematycznymi przeznaczony dla gimnazjów, aby wykreślić wyniki tych LLM na egzaminie z matematyki w porównaniu z ich wynikami na GSM8k.
Co ciekawe, chociaż ChatGPT-3.5 OpenAI uzyskuje wyższy wynik niż Grok na GSM8k, udaje mu się zapewnić tylko połowę wyniku Groka na przeciąganym egzaminie z matematyki. Paster wykorzystuje ten wynik, aby uzasadnić swój wniosek, że lepsza wydajność ChatGPT-3.5 na GSM8k jest po prostu wynikiem nadmiernego dopasowania, które ma miejsce, gdy LLM podaje dokładne wyniki dla danych wejściowych używanych w jego szkoleniu, ale nie dla nowych danych.
Jeśli wykluczymy wszystkie modele, które prawdopodobnie cierpią z powodu nadmiernego dopasowania, Grok zajmie imponującą trzecią pozycję w rankingu GSM8k, ustępując jedynie Claude 2 i GPT-4. Sugeruje to, że możliwości wnioskowania Groka są dość duże.
Oczywiście istotnym ograniczeniem w porównaniu tych modeli jest brak informacji o liczbie parametrów uczących, które zostały wykorzystane do uczenia GPT-4, Claude 2 i Grok. Parametry te to konfiguracje i warunki, które wspólnie regulują proces uczenia się LLM. Generalnie im większa liczba parametrów, tym bardziej złożony jest model AI.
Kolejną różnicą jest to, że Grok najwyraźniej ma niezrównane wrodzone „ wyczucie ” wiadomości. Jak wynika z pierwszych wrażeń beta testerów LLM, Grok z xAI potrafi rozróżnić różne uprzedzenia, które mogą zabarwić przełomową historię. Jest to prawdopodobnie bezpośredni wynik szkolenia Groka na danych pochodzących z X.
Dodaj komentarz