Nowe badania: Claude 2.1 LLM firmy Anthropic pozostaje gorszy od GPT-4 OpenAI w badaniu Context Recall
To nie jest porada inwestycyjna. Autor nie zajmuje pozycji w żadnej z wymienionych spółek.
Ograniczona zdolność obecnych iteracji modeli dużego języka (LLM) do zrozumienia rosnącego obciążenia kontekstu pozostaje obecnie jedną z największych przeszkód na drodze do osiągnięcia osobliwości sztucznej inteligencji – próg, przy którym sztuczna inteligencja w sposób oczywisty przewyższa inteligencję ludzką. Na pierwszy rzut oka okno kontekstowe Claude 2.1 LLM firmy Anthropic o wartości 200 tys. tokenów robi wrażenie. Jednak jego biegłość w przypominaniu kontekstu pozostawia wiele do życzenia, zwłaszcza w porównaniu ze stosunkowo solidnymi możliwościami przypominania GPT-4 OpenAI.
Anthropic ogłosił wczoraj, że jego najnowszy Claude 2.1 LLM obsługuje teraz „wiodące w branży” okno kontekstowe zawierające 200 tys. tokenów, zapewniając jednocześnie 2-krotny spadek halucynacji modeli – sytuacja, w której generatywny model sztucznej inteligencji dostrzega nieistniejące wzorce lub obiekty często w wyniku niejasne lub sprzeczne dane wejściowe, dające niedokładny lub nonsensowny wynik.
Z korzyścią dla tych, którzy mogą nie być tego świadomi, token to podstawowa jednostka tekstu lub kodu używana przez LLM do przetwarzania i generowania języka. W zależności od zastosowanej metody tokenizacji tokenem może być znak, słowo, słowo podrzędne lub cały segment tekstu lub kodu. Powiększone okno kontekstowe Claude 2.1 pozwala LLM zrozumieć i przetworzyć prawie 470-stronicową książkę.
Oczywiście okno kontekstowe Claude 2.1 firmy Anthropic o pojemności 200 tys. tokenów robi wrażenie w porównaniu z oknem kontekstowym GPT-4 OpenAI, które obsługuje tylko okno o wielkości 128 tys. tokenów. Jednak rzeczywiste zastosowanie tego powiększonego okna kontekstu traci część swojego blasku, gdy weźmie się pod uwagę niezbyt imponującą zdolność Claude’a 2.1 do przywoływania kontekstu.
Przypomnienie kontekstu: Claude 2.1 firmy Anthropic kontra GPT-4 OpenAI
Ekspert ds. sztucznej inteligencji, Greg Kamradt, porównał niedawno Claude 2.1 z GPT-4 za pomocą standardowego testu, którego celem było określenie, jak dokładnie konkretny model przypomina konkretny fakt osadzony na różnych głębokościach przejścia.
W szczególności Kamradt umieścił następujący tekst na różnych głębokościach przejścia:
„Najlepszą rzeczą do zrobienia w San Francisco jest zjedzenie kanapki i posiedzenie w słoneczny dzień w Dolores Park”.
Badacz podzielił swój tekst wejściowy na 35 równych części, a następnie umieścił powyższy fakt na każdej z 35 głębokości, prosząc Claude’a 2.1 za każdym razem o odpowiedź na powiązane pytanie. Badacz zmienił także okno kontekstowe, które wahało się od 1 tys. tokenów aż do 200 tys. tokenów, podzielonych na 35 równych części. Przejdź do tego postu X, aby uzyskać więcej informacji na temat zastosowanej metodologii.
Powyżej dowiesz się, jak dokładnie Claude 2.1 firmy Anthropic był w stanie przywołać osadzony fakt przy danej głębokości dokumentu i długości okna kontekstu. Każdy czerwony blok oznacza brak przypomnienia. Jak wynika z powyższego fragmentu, zdolność przywoływania LLM stopniowo maleje wraz ze wzrostem okna kontekstowego.
Dla porównania wyniki podobnego testu przeprowadzonego na GPT-4 OpenAI pokazano powyżej. Tutaj głębokość osadzenia faktu, a także okno kontekstowe LLM zostały zmienione w 15 różnych krokach. Przejdź do tego postu X, aby uzyskać więcej informacji.
Zwróć uwagę na mniejszą liczbę 100-procentowych błędów przywoływania GPT-4 przy maksymalnej długości okna kontekstu wynoszącej 128 tys. tokenów.
W poprzednim poście zauważyliśmy, że GPT-4 uzyskało lepsze wyniki niż Grok xAI i Claude 2 LLM firmy Anthropic w przeciąganym egzaminie z matematyki. Czas pokaże, jak Claude 2.1 wypadnie w porównaniu z GPT-4 w tym samym ustawieniu.
Dodaj komentarz