Grande sfida su Chatbot Arena, la piattaforma utilizzata da ricercatori e sviluppatori di intelligenza artificiale per testare i progressi delle LLM. Stavolta è Claude ad avere la meglio su ChatGPT, l’ormai popolare chatbot sviluppato da OpenAI che ha sdoganato il successo dei nuovi modelli di AI.
Uno scontro tra titani
Ormai i grandi titani della mitologia greca sono stati sostituiti dagli nuovi dei robotici creati dall’intelligenza artificiale. I guadagni di OpenAI sono stati davvero importanti lo scorso anno e ChatGPT ha avviato una vera e propria rivoluzione che rischia di cambiare il mondo alle fondamenta.
Claude 3 Opus è un modello linguistico sviluppato da Anthropic e a quanto pare, per la prima volta, ha battuto ChatGPT, compresa la quarta versione sviluppata sempre da OpenAI. Ma come funziona la sfida sulla piattaforma? Come detto, Chatbot Arena offre la possibilità di valutare le AI generative mettendo a confronto due chatbot senza che gli utenti sappiano di quale si tratta. La piattaforma quindi offre gli output di due differenti LLM e invita i partecipanti a valutare quale delle due è migliore, senza appunto rivelarne le identità. Viene così stilata una vera e propria classifica che ci fornisce la lista dei migliori modelli presenti al momento.
Claude vs ChatGPT, la sfida
A quanto pare Anthropic sta finalmente ottenendo grandi risultati, se è vero che ora Claude spunta al primo posto in questa speciale classifica dedicata alle migliori piattaforme di intelligenza artificiale.
In effetti, dal lancio dell’Arena, ChatGPT si è rivelato un vero e proprio gigante del settore, posizionandosi sempre in testa. Ora invece OpenAI presenta comunque ben quattro modelli di sua produzione, ma i modelli di Antrhopic hanno scalato le classifiche sin dall’inizio del mese di marzo, quando hanno iniziato a mostrare grandi progressi per tutti i loro nuovi modelli linguistici di intelligenza artificiale generativa. La piattaforma Chatbot Arena è gestita da Large Model Systems Organization e offre come detto la possibilità di misurare le prestazioni di questi LLM. Naturalmente, la battaglia è tutt’altro che conclusa, e durante l’estate arriverà la nuova versione di OpenAI, con una succulenta variante di GPT-4 che promette di esserne il degno successore. Riuscirà Claude a mantenere il suo primato appena conquistato? Staremo a vedere.
I punti salienti…
- colpo di scena nella classifica delle LLM, Claude supera ChatGPT;
- l’intelligenza artificiale di Antrhopic ha avuto la meglio per la prima volta su quella di OpenAI;
- in estate uscirà il successore di GPT-4.