Statystycznie istotny test dowodzi, że GPT-4 Turbo OpenAI jest szczególnie leniwy podczas przerw zimowych

2023/12/13

To nie jest porada inwestycyjna. Autor nie zajmuje pozycji w żadnej z wymienionych spółek.

Nie proś najnowocześniejszego modelu dużego języka (LLM) OpenAI, GPT-4 Turbo, o wykonanie wyczerpujących zadań tej zimy. Taki wniosek można wygodnie wyciągnąć z niedawnego, istotnego statystycznie testu przeprowadzonego przez entuzjastę LLM.

OpenAI twierdzi, że GPT-4 Turbo jest w stanie obsłużyć bardzo skomplikowane zadania zawarte w jednym wierszu, dzięki znacznie bardziej wyczerpującemu szkoleniu. Model jest również w stanie przetwarzać 128 000 tokenów dzięki rozszerzonemu oknie kontekstu tokenu, będącemu miarą bogactwa lub głębokości danych wejściowych i wyjściowych konkretnego LLM . Dla przypomnienia: 1000 tokenów odpowiada w przybliżeniu 750 słowom. Oznacza to, że najnowsza oferta OpenAI jest w stanie przetworzyć około 96 000 słów.

@ChatGPTapp @OpenAI @tszzl @emollick @ voooooogelDziki wynik. gpt-4-turbo przez API generuje (statystycznie istotne) krótsze zakończenia, gdy „myśli” o grudniu w porównaniu z majem (określanym na podstawie daty w wierszu poleceń systemu).

Dokładnie zastosowałem się do tej samej podpowiedzi… pic.twitter.com/mA7sqZUA0r

– Rob Lynch (@RobLynch99) 11 grudnia 2023 r.

Niedawno Rob Lynch, entuzjasta LLM, przetestował GPT-4 Turbo w jego przysłowiowym tempie. Ku jego całkowitemu zaskoczeniu, LLM udziela krótszej odpowiedzi, gdy uważa, że bieżącym miesiącem jest grudzień, w porównaniu z sytuacją, gdy jest skłonna sądzić, że jest maj.

W szczególności Lynch był w stanie uzyskać średnią wydajność wynoszącą 4298 tokenów w 477 przebiegach testowych GPT-4 Turbo, gdy uznano, że bieżącym miesiącem jest maj. W grudniu LLM dało znacznie krótszą średnią produkcję wynoszącą 4086 tokenów, co równa się spadkowi produktywności o około 5 procent.

O mój Boże, hipoteza AI dotycząca przerwy zimowej może być prawdziwa?

Pojawiły się próżne spekulacje, że GPT-4 może działać gorzej w grudniu, ponieważ „nauczył się” wykonywać mniej pracy w święta.

Oto statystycznie istotny test pokazujący, że może to być prawdą. LLM są dziwne.🎅 https://t.co/mtCY3lmLFF

– Ethan Mollick (@emollick) 11 grudnia 2023 r.

Rzucając światło na prawdopodobną przyczynę tej rozbieżności, Ethan Mollick, profesor w Wharton, uważa, że GPT-4 Turbo wyciągnął wnioski z ludzkiej tendencji do mniejszej pracy w grudniu obfitującym w święta. Sugeruje to również, że te LLM, pomimo wyczerpujących wysiłków mających na celu zapobieganie wtargnięciu szkodliwych ludzkich uprzedzeń, w dalszym ciągu pozostają podatne na dziedziczenie niektórych dziwacznych ludzkich niedociągnięć dzięki infiltracji danych szkoleniowych.

To wydarzenie następuje po innym, które sugerowało, że model GPT OpenAI staje się stopniowo leniwy i ucieka się do skrótów zamiast podawać kompletne odpowiedzi na zapytania. Niektóre anegdoty sugerują, że użytkownicy udają niepełnosprawnych, aby uzyskać kompletne odpowiedzi z LLM! Sytuacja jest najwyraźniej na tyle poważna, że skłonić OpenAI do podjęcia próby znalezienia poprawki.

Dodaj komentarz Anuluj pisanie odpowiedzi