L'intelligenza artificiale comprende il tono empatico della voce

Apr 07, 2024

I confini dell'intelligenza artificiale avanzano senza soluzione di continuità e oggi possiamo confermare che, grazie a determinate applicazioni, l'AI mira a comprendere le emozioni attraverso il tono della voce.

Di interfacce vocali gestite dall'AI ne abbiamo viste tante, ma una delle più recenti ha la possibilità di interagire attraverso le lenti dell'empatia. Stiamo parlando di Hume AI, strumento che ha come obiettivo non solo di comprendere il significato delle parole ma anche l'intonazione e i sentimenti che nasconde una determinata flessione della voce umana nel momento in cui pronuncia termini o frasi.

Comprendere oltre le parole pronunciate

Sappiamo bene che quando parliamo non pronunciamo solo dei termini ma comunichiamo dei significati in base a come moduliamo il tono di voce, che può essere euforico o triste. O ancora infuriato, esausto, sommesso. L'obiettivo di Hume AI è proprio quello di capire le emozioni e rispondere in modo adeguato.

"At Hume, we’re directly optimizing LLMs for these kinds of qualities by learning from listeners’ expressive reactions to language. (...) They should also be able to generate content that evokes more specific feelings appropriate to the use case in which they are embedded, such as humor in response to a joke or horror in response to a horror story".

Sul blog ufficiale, gli ingegneri di Hume Ai ci ricordano che stanno ottimizzando gli LLM imparando dalle reazioni espressive del pubblico per essere in grado di generare contenuti capaci di gestire sentimenti specifici, adeguati alla circostanza. Possono, ad esempio, rispondere con ironia a una battuta.

Ma hanno anche la capacità di valutare nel miglior modo possibile i vari elementi del sistema vocale non verbale, ovvero i suoni emessi dalla nostra voce che prescindono dal significato delle parole.

Quindi, come ci ricorda Giuseppe Mayer nel podcast dello scorso 3 aprile, questa interfaccia comprende le pause e sa gestire il ritmo dell'interazione valutando eventuali intercalari e momenti di attesa.  

Tutto questo avviene grazie a EVI

Alla base di questa piccola rivoluzine nel mondo dell'intelligenza artificiale c'è EVI. Ovvero: "a conversational voice API powered by empathic AI. It is the only API that measures nuanced vocal modulations, guiding language and speech generation". Stiamo parlando di una soluzione basata sull'intelligenza artificiale empatica unica nel suo genere, capace di misurare le modulazioni vocali sfumate, guidando la generazione del linguaggio e del parlato in modo da valutare le emozioni.

Per avere una prova concreta di questo tool puoi andare sul sito web https://demo.hume.ai (a volte la disponibilità è limitata dalle troppe richieste) e dare accesso al microfono. Prova, in inglese, a intavolare una conversazione e noterai come vengono registrati gli stati d'animo del tuo tono di voce. 

La risposta di Open AI: Voice Engine

I giganti dell'AI non restano a guardare. Se una piccola start up ci propone Hume per comprendere il tono della voce, Open AI risponde con Voice Engine. Vale a dire un tool in grado di apprendere con 15 secondi di materiale audio parlato e replicarlo in ogni idioma e con qualsiasi testo (qui hai l'annuncio ufficiale). Quindi, ad esempio, puoi creare un podcast e tradurlo con la tua voce in qualsiasi lingua.

Siamo pronti per questa novità? Open AI dichiara di avere già tutto pronto dal punto di vista tecnico ma vuole attendere prima di rendere questo strumento disponibile a tutti, anche perché i rischi sono infiniti.

"We recognize that generating speech that resembles people's voices has serious risks, which are especially top of mind in an election year. We are engaging with U.S. and international partners from across government, media, entertainment, education, civil society and beyond to ensure we are incorporating their feedback as we build".

Pensa solo alle truffe che si possono attivare grazie a una telefonata che riproduce la tua voce in ogni dettaglio. Ma anche gli usi sono strabilianti. Ad esempio sarà possibile proporre testi a persone che non possono leggere o ai bambini attraverso voci capaci di riprodurre le emozioni.

Sicuramente puoi tradurre testi in modo realistico e fare un lavoro di community superiore su diverse piattaforme. Il tutto grazie a video e podcast che possono essere proposti in paesi differenti. Il mondo della promozione online cambierà grazie a questo strumento? Gli scenari sono infiniti, è sicuro.

Canale Telegram dedicato:

entra nel canale Telegram di Mario e ricevi notizie e audio utili ogni giorno

Entra nel canale e rimani aggiornato
Close

50% Complete

Two Step

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.