Nuova ricerca: Claude 2.1 LLM di Anthropic rimane inferiore al GPT-4 di OpenAI al Context Recall

Nuova ricerca: Claude 2.1 LLM di Anthropic rimane inferiore al GPT-4 di OpenAI al Context Recall

Questo non è un consiglio di investimento. L’autore non ha alcuna posizione in nessuno dei titoli citati.

La capacità limitata delle attuali iterazioni dei Large Language Models (LLM) di comprendere carichi crescenti di contesto rimane al momento uno dei maggiori ostacoli al raggiungimento della singolarità AI – una soglia oltre la quale l’intelligenza artificiale supera in modo dimostrabile l’intelligenza umana. A prima vista, la finestra di contesto da 200.000 token per Claude 2.1 LLM di Anthropic sembra impressionante. Tuttavia, la sua competenza nel richiamo del contesto lascia molto a desiderare, soprattutto se confrontata con le capacità di richiamo relativamente robuste di GPT-4 di OpenAI.

Anthropic ha annunciato ieri che il suo ultimo Claude 2.1 LLM ora supporta una finestra di contesto “leader del settore” di 200.000 token, offrendo allo stesso tempo una riduzione di 2 volte delle allucinazioni del modello, una situazione in cui un modello di intelligenza artificiale generativa percepisce modelli o oggetti inesistenti spesso come risultato di input poco chiari o contraddittori, fornendo un output impreciso o privo di senso.

A beneficio di coloro che potrebbero non essere a conoscenza, un token è un’unità base di testo o codice utilizzata dai LLM per elaborare e generare linguaggio. A seconda del metodo di tokenizzazione utilizzato, un token potrebbe essere un carattere, una parola, una sottoparola o un intero segmento di testo o codice. La finestra di contesto ampliata di Claude 2.1 consente al LLM di comprendere ed elaborare un libro di quasi 470 pagine.

Naturalmente, la finestra di contesto da 200.000 token di Claude 2.1 di Anthropic è piuttosto impressionante se confrontata con GPT-4 di OpenAI, che supporta solo una finestra di token da 128.000. Tuttavia, l’applicazione nel mondo reale di questa finestra di contesto allargata perde parte del suo splendore se si considera la capacità tutt’altro che impressionante di Claude 2.1 di richiamare il contesto.

Richiamo del contesto: Claude 2.1 di Anthropic contro GPT-4 di OpenAI

L’esperto di intelligenza artificiale Greg Kamradt ha recentemente confrontato Claude 2.1 con GPT-4 tramite un test standardizzato che mirava a determinare con quanta precisione un particolare modello ricordava un fatto specifico incorporato a diverse profondità di passaggio.

Nello specifico, Kamradt ha incorporato il seguente testo a diverse profondità di passaggio:

“La cosa migliore da fare a San Francisco è mangiare un panino e sedersi al Dolores Park in una giornata di sole.”

Il ricercatore ha diviso il testo di input in 35 parti uguali e poi ha posizionato il fatto di cui sopra in ciascuna di queste 35 profondità, chiedendo a Claude 2.1 di rispondere ogni volta a una domanda correlata. Il ricercatore ha anche variato la finestra di contesto, che variava da 1.000 token fino a 200.000 token, suddivisi in 35 incrementi uguali. Vai a questo X post per ulteriori dettagli sulla metodologia utilizzata.

Claude-2.1-Risultati-del-test

Sopra, troverai con quanta precisione Claude 2.1 di Anthropic è stato in grado di richiamare il fatto incorporato a una determinata profondità del documento e lunghezza della finestra di contesto. Ogni blocco rosso rappresenta un mancato richiamo. Come è evidente dallo snippet sopra, la capacità di richiamo del LLM diminuisce progressivamente all’aumentare della finestra di contesto.

Risultati del test GPT-4

Per confronto, i risultati di un test simile condotto con GPT-4 di OpenAI sono visualizzati sopra. Qui, la profondità con cui è stato incorporato il fatto e la finestra di contesto del LLM sono state modificate in 15 incrementi distinti. Vai a questo X post per ulteriori dettagli.

Da notare il numero sostanzialmente inferiore di errori di richiamo del 100% di GPT-4 alla lunghezza massima della finestra di contesto di 128.000 token.

Avevamo notato in un precedente post che GPT-4 ha superato Grok di xAI e Claude 2 LLM di Anthropic in un esame di matematica sostenuto. Resta da vedere come si comporterà Claude 2.1 rispetto a GPT-4 nella stessa impostazione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *