Nowe badania: Claude 2.1 LLM firmy Anthropic pozostaje gorszy od GPT-4 OpenAI w badaniu Context Recall

Nowe badania: Claude 2.1 LLM firmy Anthropic pozostaje gorszy od GPT-4 OpenAI w badaniu Context Recall

To nie jest porada inwestycyjna. Autor nie zajmuje pozycji w żadnej z wymienionych spółek.

Ograniczona zdolność obecnych iteracji modeli dużego języka (LLM) do zrozumienia rosnącego obciążenia kontekstu pozostaje obecnie jedną z największych przeszkód na drodze do osiągnięcia osobliwości sztucznej inteligencji – próg, przy którym sztuczna inteligencja w sposób oczywisty przewyższa inteligencję ludzką. Na pierwszy rzut oka okno kontekstowe Claude 2.1 LLM firmy Anthropic o wartości 200 tys. tokenów robi wrażenie. Jednak jego biegłość w przypominaniu kontekstu pozostawia wiele do życzenia, zwłaszcza w porównaniu ze stosunkowo solidnymi możliwościami przypominania GPT-4 OpenAI.

Anthropic ogłosił wczoraj, że jego najnowszy Claude 2.1 LLM obsługuje teraz „wiodące w branży” okno kontekstowe zawierające 200 tys. tokenów, zapewniając jednocześnie 2-krotny spadek halucynacji modeli – sytuacja, w której generatywny model sztucznej inteligencji dostrzega nieistniejące wzorce lub obiekty często w wyniku niejasne lub sprzeczne dane wejściowe, dające niedokładny lub nonsensowny wynik.

Z korzyścią dla tych, którzy mogą nie być tego świadomi, token to podstawowa jednostka tekstu lub kodu używana przez LLM do przetwarzania i generowania języka. W zależności od zastosowanej metody tokenizacji tokenem może być znak, słowo, słowo podrzędne lub cały segment tekstu lub kodu. Powiększone okno kontekstowe Claude 2.1 pozwala LLM zrozumieć i przetworzyć prawie 470-stronicową książkę.

Oczywiście okno kontekstowe Claude 2.1 firmy Anthropic o pojemności 200 tys. tokenów robi wrażenie w porównaniu z oknem kontekstowym GPT-4 OpenAI, które obsługuje tylko okno o wielkości 128 tys. tokenów. Jednak rzeczywiste zastosowanie tego powiększonego okna kontekstu traci część swojego blasku, gdy weźmie się pod uwagę niezbyt imponującą zdolność Claude’a 2.1 do przywoływania kontekstu.

Przypomnienie kontekstu: Claude 2.1 firmy Anthropic kontra GPT-4 OpenAI

Ekspert ds. sztucznej inteligencji, Greg Kamradt, porównał niedawno Claude 2.1 z GPT-4 za pomocą standardowego testu, którego celem było określenie, jak dokładnie konkretny model przypomina konkretny fakt osadzony na różnych głębokościach przejścia.

W szczególności Kamradt umieścił następujący tekst na różnych głębokościach przejścia:

„Najlepszą rzeczą do zrobienia w San Francisco jest zjedzenie kanapki i posiedzenie w słoneczny dzień w Dolores Park”.

Badacz podzielił swój tekst wejściowy na 35 równych części, a następnie umieścił powyższy fakt na każdej z 35 głębokości, prosząc Claude’a 2.1 za każdym razem o odpowiedź na powiązane pytanie. Badacz zmienił także okno kontekstowe, które wahało się od 1 tys. tokenów aż do 200 tys. tokenów, podzielonych na 35 równych części. Przejdź do tego postu X, aby uzyskać więcej informacji na temat zastosowanej metodologii.

Wyniki testu Claude-2.1

Powyżej dowiesz się, jak dokładnie Claude 2.1 firmy Anthropic był w stanie przywołać osadzony fakt przy danej głębokości dokumentu i długości okna kontekstu. Każdy czerwony blok oznacza brak przypomnienia. Jak wynika z powyższego fragmentu, zdolność przywoływania LLM stopniowo maleje wraz ze wzrostem okna kontekstowego.

Wyniki testu GPT-4

Dla porównania wyniki podobnego testu przeprowadzonego na GPT-4 OpenAI pokazano powyżej. Tutaj głębokość osadzenia faktu, a także okno kontekstowe LLM zostały zmienione w 15 różnych krokach. Przejdź do tego postu X, aby uzyskać więcej informacji.

Zwróć uwagę na mniejszą liczbę 100-procentowych błędów przywoływania GPT-4 przy maksymalnej długości okna kontekstu wynoszącej 128 tys. tokenów.

W poprzednim poście zauważyliśmy, że GPT-4 uzyskało lepsze wyniki niż Grok xAI i Claude 2 LLM firmy Anthropic w przeciąganym egzaminie z matematyki. Czas pokaże, jak Claude 2.1 wypadnie w porównaniu z GPT-4 w tym samym ustawieniu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *