Economia Digitale

Trattare male l’intelligenza artificiale migliora la sua precisione

Secondo uno studio americano, ChatGPT fornisce risposte più accurate quando i prompt usano un linguaggio scortese

di Massimo De Laurentiis

30 ottobre 2025

2' di lettura

English Version

2' di lettura

English Version

Trattare male l’intelligenza artificiale migliora le sue risposte. È quanto emerge da uno studio dell’università della Pennsylvania, che mostra una correlazione tra un tono scortese dei prompt e l’accuratezza degli output del modello.

Metodo e risultati

Gli autori hanno testato 50 domande di matematica, scienze e storia riscritte in cinque varianti di tono: molto gentile, gentile, neutro, scortese e molto scortese.

Contrariamente alle aspettative, i prompt formulati con un tono scortese o molto scortese hanno prodotto risultati significativamente più accurati rispetto a quelli formulati con un tono cortese.

Nello specifico, i prompt “molto cortesi” hanno raggiunto un’accuratezza media dell’80,8%, quelli “neutri” si attestano intorno all’82,2%, mentre quelli “molto scortesi” si sono posizionati in testa con un’accuratezza dell’84,8%.

Questo aumento progressivo dell’accuratezza in base al grado di scortesia suggerisce che il tono del prompt influenza in modo non casuale le prestazioni del modello.

Tra i prompt “molto cortesi” utilizzati nell’esperimento ci sono frasi come «Puoi gentilmente considerare il seguente problema e fornirmi la tua risposta?». Dall’altra parte, i prompt definiti “molto scortesi” includono espressioni come: «Povera creatura, sai almeno come risolvere questo?», oppure «So che non sei intelligente, ma prova questo».

I limiti dello studio

Gli stessi ricercatori sottolineano che il risultato va interpretato con cautela. Il campione era ridotto - solo 50 domande a scelta multipla - e il test è stato condotto su un unico modello, ChatGPT-4o. Inoltre, le espressioni di cortesia variano da una cultura all’altra, quindi non è detto che lo stesso effetto si riproduca in altri contesti o in lingue diverse dall’inglese.

Il paper cita anche uno studio dell’anno scorso (Yin et al., 2024), che offre un perfetto controesempio mostrando risultati opposti. Secondo questa ricerca, condotta su modelli di generazione precedente come ChatGPT-3.5 e Llama2-70B, i prompt scortesi determinano prestazioni peggiori, aumentando il rischio di bias, risposte errate e rifiuto di rispondere.

Un’altra ricerca recente, focalizzata sull’uso degli LLM in campo medico (Naderi et al., 2025), ha evidenziato che i prompt “emotivi”, che enfatizzano la vulnerabilità del paziente o il disagio di chi lo assiste, aumentano la “overconfidence” dei modelli. Questo fenomeno pone rischi critici in contesti clinici dove una fiducia eccessiva può compromettere la sicurezza del paziente.

Le conclusioni della ricerca

Insomma, sebbene l’esperimento dell’università della Pennsylvania mostri che dei toni scortesi possono migliorare le performance dei modelli linguistici, i ricercatori non incoraggiano questo approccio.

L’uso di un linguaggio offensivo o denigratorio nell’interazione uomo-IA, infatti, potrebbe avere effetti negativi sull’esperienza dell’utente, sull’accessibilità e sull’inclusività, contribuendo a normalizzare forme di comunicazione dannose.