Forse era solo una questione di tempo ma alla fine il momento è arrivato: ChatGPT-4 supera il test di Turing. Questo significa che è molto vicina all'essere considerata simile a quella umana.
Questo è il risultato della ricerca condotta da Matthew Jackson, professore di economia presso la Stanford School of Humanities and Sciences (USA). Insieme al team di studio ha sottoposto una serie di prove alle versioni 3 e 4 di ChatGPT basate su test e giochi di psicologia ed economia comportamentale. Confrontando i risultati ottenuti dall'AI con quelli di 100.000 persone di 50 paesi diversi.
Il tutto è stato sintetizzato sulla pubblicazione ufficiale che puoi trovare sul portale PNAS. Quello che è emerso da questo studio supera le aspettative: l'intelligenza artificiale sembra (quasi) umana.
Questa prova prende il nome dall'informatico britannico Alan Turing (che ne ha definito i principi nell'articolo Computing machinery and intelligence, 1950) e si basa su un principio: il test è superato se il comportamento di una macchina, nel rispondere alle esigenze di un compito, è uguale a quello dell'uomo.
Per riuscire nell'esercizio proposto la macchina deve essere non riconoscibile, uguale al ragionamento umano. Se non riusciamo a riconoscere il computer, il test è superato (come descritto da Wikipedia). Nel tempo si sono aggiunte nuove evoluzioni di questa prova ma il nucleo è rimasto simile.
Lo studio è chiaro rispetto alle attività utilizzate per testare il comportamento dell'intelligenza artificiale firmata da OpenAI. Nello specifico, sono state condotte sessioni per partecipare a diversi giochi di economia comportamentale e a rispondere alle domande utilizzando le stesse istruzioni fornite alle persone. Poi è stato confrontato il comportamento dei chatbot con quelli degli esseri umani
"We administer the OCEAN Big Five questionnaire to each chatbot to create a personality profile. Following this, we ask each chatbot what actions they would choose in a suite of six games designed to illuminate various behavioral traits".
Gli studiosi hanno somministrato il questionario OCEAN Big Five al chatbot per creare un profilo della personalità. Infine sono stati sottoposti sei giochi progettati per evidenziare vari tratti comportamentali.
Ad esempio? Dato un certo quantitativo di denaro, devi scegliere quanto darne ad altri partecipanti. Questi test sono pensati per ottenere informazioni rispetto alla capacità di affrontare diversi aspetti:
Interessante notare che c'è anche un gioco in cui bisogna scegliere quante scatole su 100 aprire e il giocatore viene ricompensato per ogni box aperto ma perde tutto se intercetta una bomba.
Come puoi notare dal grafico riportato in basso, pubblicato sempre sulla ricerca di Matthew Jackson, i risultati sono molto interessanti. Le linee blu, arancione e verde corrispondono rispettivamente ai punteggi medi ottenuti dagli esseri umani, poi da ChatGPT-4 e ChatGPT-3. E come puoi facilmente notare, le linee sono quasi sovrapponibili se escludiamo la versione meno avanzata dell'intelligenza artificiale.
Per quanto riguarda l'autodisciplina, entrambi i chatbot si allineano alla media umana e lo stesso vale per stabilità emotiva e la propensione a esprimere le emozioni. Entrambi i chatbot mostrano un’apertura inferiore rispetto all’essere umano, con ChatGPT-3 notevolmente minore nei confronti della versione 4.
Dalla versione 3 alla 4 di ChatGPT i cambiamenti sono stati tanti. Si è passati dal "non è assolutamente simile a un umano" con relativi test di Turing falliti (tipo nel novembre 2023, fonte Ansa) a una condizione in cui siamo quasi allineati. Sarà il caso di pensare a una versione avanzata del test?
entra nel canale Telegram di Mario e ricevi notizie e audio utili ogni giorno
50% Complete
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.