Grande sfida su Chatbot Arena, la piattaforma utilizzata da ricercatori e sviluppatori di intelligenza artificiale per testare i progressi delle LLM. Stavolta è Claude ad avere la meglio su ChatGPT, l’ormai popolare chatbot sviluppato da OpenAI che ha sdoganato il successo dei nuovi modelli di AI.

Uno scontro tra titani

Ormai i grandi titani della mitologia greca sono stati sostituiti dagli nuovi dei robotici creati dall’intelligenza artificiale. I guadagni di OpenAI sono stati davvero importanti lo scorso anno e ChatGPT ha avviato una vera e propria rivoluzione che rischia di cambiare il mondo alle fondamenta.

Da una parte gli scettici e i pessimisti, i quali temono che questa tecnologia possa sfuggire al controllo degli uomini e provocare danni al pianeta, su tutti quelli di cancellare diverse figure professionali e far perdere molti posti di lavoro. Dall’altra c’è invece chi esalta le nuove possibilità che tale progresso tecnologico potrebbe portare con sé. Intanto la ricerca va avanti e gli addetti ai lavori continuano a mettere le loro creature alla prova per scoprire quali progressi sono stati fatti.

Claude 3 Opus è un modello linguistico sviluppato da Anthropic e a quanto pare, per la prima volta, ha battuto ChatGPT, compresa la quarta versione sviluppata sempre da OpenAI. Ma come funziona la sfida sulla piattaforma? Come detto, Chatbot Arena offre la possibilità di valutare le AI generative mettendo a confronto due chatbot senza che gli utenti sappiano di quale si tratta. La piattaforma quindi offre gli output di due differenti LLM e invita i partecipanti a valutare quale delle due è migliore, senza appunto rivelarne le identità. Viene così stilata una vera e propria classifica che ci fornisce la lista dei migliori modelli presenti al momento.

Claude vs ChatGPT, la sfida

A quanto pare Anthropic sta finalmente ottenendo grandi risultati, se è vero che ora Claude spunta al primo posto in questa speciale classifica dedicata alle migliori piattaforme di intelligenza artificiale.

Non solo, nella lista cattura l’attenzione anche un altro modello minore, stiamo parlando di Haiku, il quale ha registrato prestazioni importanti che non lasciano indifferenti i ricercatori. Gli addetti ai lavori stanno dando grande risalto a tale risultato, visto che ora Claude figura al primo posto e ha battuto il grande rivale di tutti. Sui social infatti spuntano post di esperti del settore i quali affermano lapidariamente “il re è morto” riferendosi appunto a ChatGPT.

In effetti, dal lancio dell’Arena, ChatGPT si è rivelato un vero e proprio gigante del settore, posizionandosi sempre in testa. Ora invece OpenAI presenta comunque ben quattro modelli di sua produzione, ma i modelli di Antrhopic hanno scalato le classifiche sin dall’inizio del mese di marzo, quando hanno iniziato a mostrare grandi progressi per tutti i loro nuovi modelli linguistici di intelligenza artificiale generativa. La piattaforma Chatbot Arena è gestita da Large Model Systems Organization e offre come detto la possibilità di misurare le prestazioni di questi LLM. Naturalmente, la battaglia è tutt’altro che conclusa, e durante l’estate arriverà la nuova versione di OpenAI, con una succulenta variante di GPT-4 che promette di esserne il degno successore. Riuscirà Claude a mantenere il suo primato appena conquistato? Staremo a vedere.

I punti salienti…

  • colpo di scena nella classifica delle LLM, Claude supera ChatGPT;
  • l’intelligenza artificiale di Antrhopic ha avuto la meglio per la prima volta su quella di OpenAI;
  • in estate uscirà il successore di GPT-4.