Statystycznie istotny test dowodzi, że GPT-4 Turbo OpenAI jest szczególnie leniwy podczas przerw zimowych

Statystycznie istotny test dowodzi, że GPT-4 Turbo OpenAI jest szczególnie leniwy podczas przerw zimowych

To nie jest porada inwestycyjna. Autor nie zajmuje pozycji w żadnej z wymienionych spółek.

Nie proś najnowocześniejszego modelu dużego języka (LLM) OpenAI, GPT-4 Turbo, o wykonanie wyczerpujących zadań tej zimy. Taki wniosek można wygodnie wyciągnąć z niedawnego, istotnego statystycznie testu przeprowadzonego przez entuzjastę LLM.

OpenAI twierdzi, że GPT-4 Turbo jest w stanie obsłużyć bardzo skomplikowane zadania zawarte w jednym wierszu, dzięki znacznie bardziej wyczerpującemu szkoleniu. Model jest również w stanie przetwarzać 128 000 tokenów dzięki rozszerzonemu oknie kontekstu tokenu, będącemu miarą bogactwa lub głębokości danych wejściowych i wyjściowych konkretnego LLM . Dla przypomnienia: 1000 tokenów odpowiada w przybliżeniu 750 słowom. Oznacza to, że najnowsza oferta OpenAI jest w stanie przetworzyć około 96 000 słów.

Niedawno Rob Lynch, entuzjasta LLM, przetestował GPT-4 Turbo w jego przysłowiowym tempie. Ku jego całkowitemu zaskoczeniu, LLM udziela krótszej odpowiedzi, gdy uważa, że ​​bieżącym miesiącem jest grudzień, w porównaniu z sytuacją, gdy jest skłonna sądzić, że jest maj.

W szczególności Lynch był w stanie uzyskać średnią wydajność wynoszącą 4298 tokenów w 477 przebiegach testowych GPT-4 Turbo, gdy uznano, że bieżącym miesiącem jest maj. W grudniu LLM dało znacznie krótszą średnią produkcję wynoszącą 4086 tokenów, co równa się spadkowi produktywności o około 5 procent.

Rzucając światło na prawdopodobną przyczynę tej rozbieżności, Ethan Mollick, profesor w Wharton, uważa, że ​​GPT-4 Turbo wyciągnął wnioski z ludzkiej tendencji do mniejszej pracy w grudniu obfitującym w święta. Sugeruje to również, że te LLM, pomimo wyczerpujących wysiłków mających na celu zapobieganie wtargnięciu szkodliwych ludzkich uprzedzeń, w dalszym ciągu pozostają podatne na dziedziczenie niektórych dziwacznych ludzkich niedociągnięć dzięki infiltracji danych szkoleniowych.

To wydarzenie następuje po innym, które sugerowało, że model GPT OpenAI staje się stopniowo leniwy i ucieka się do skrótów zamiast podawać kompletne odpowiedzi na zapytania. Niektóre anegdoty sugerują, że użytkownicy udają niepełnosprawnych, aby uzyskać kompletne odpowiedzi z LLM! Sytuacja jest najwyraźniej na tyle poważna, że ​​skłonić OpenAI do podjęcia próby znalezienia poprawki.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *