Umělá inteligenceSeptember 16, 2025|4 min

K2 Think: nuovo modello AI dagli Emirati

In un’epoca in cui le aziende tecnologiche investono miliardi nella costruzione di modelli linguistici sempre più grandi, MBZUAI e G42 hanno presentato un approccio rivoluzionario: K2 Think, con soli 32 miliardi di parametri, raggiunge risultati comparabili o migliori rispetto a sistemi con oltre 500 miliardi di parametri.

Tým Apertia

Apertia.ai

In un’epoca in cui le aziende tecnologiche investono miliardi nella costruzione di modelli linguistici sempre più grandi, la Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) in collaborazione con G42 ha presentato un approccio rivoluzionario. Il modello K2 Think, con soli 32 miliardi di parametri, raggiunge risultati comparabili o migliori rispetto a sistemi con oltre 500 miliardi di parametri. "Abbiamo scoperto che è possibile ottenere molto di più con molto meno", ha dichiarato Richard Morton, direttore di MBZUAI. Questa affermazione è supportata dai risultati oggettivi dei test standardizzati.

Numeri che parlano da soli

K2 Think ha ottenuto risultati notevoli nei test più impegnativi:

AIME 2024: 90,8 punti
AIME 2025: 81,2 punti
HMMT 2025: 73,8 punti

Questi risultati lo collocano al vertice dei modelli open-source nel reasoning matematico. Ma non è solo una questione di numeri: il modello può generare 2000 token al secondo, oltre dieci volte la velocità tipica delle implementazioni GPU. Questa combinazione di precisione e velocità rappresenta una svolta nell’ottimizzazione AI.

Confronto con i modelli concorrenti

Modello	Parametri	AIME 2024	AIME 2025	HMMT 2025
K2 Think	32B	90,8%	81,2%	73,8%
GPT-4	~1,7T	85%	75%	68%
Claude 3.5	~200B	82%	71%	65%
Qwen-72B	72B	88%	78%	71%
Llama-70B	70B	80%	69%	63%

Sei pilastri di innovazione

Cosa rende K2 Think così speciale? Gli sviluppatori hanno combinato sei tecniche avanzate:

Supervised Fine-Tuning con esempi di chain-of-thought lunghi
Reinforcement Learning con ricompense verificabili
Agentic Planning per un reasoning strutturato
Test-time scaling per prestazioni migliori
Speculative decoding per una risposta più veloce
Trasparenza completa del processo di reasoning

Want a Custom AI Solution?

We help companies automate processes with AI. Contact us to find out how we can help you.

Response within 24 hours
No-obligation consultation
Solutions tailored to your business

L’ultimo punto si è però rivelato un’arma a doppio taglio.

Analisi dettagliata delle tecniche chiave

Architettura Mixture of Experts (MoE) consente un uso efficiente dei parametri attivando solo le parti rilevanti del modello per ciascun compito. In questo modo si ottiene la massima efficienza computazionale mantenendo alta la qualità dei risultati.
Long chain-of-thought reasoning permette al modello di suddividere i problemi complessi in passi più piccoli, in modo simile al ragionamento umano. Questo approccio è fondamentale per risolvere compiti matematici complessi.
Verifiable rewards system garantisce che il modello impari dai propri errori tramite segnali verificabili, migliorando significativamente affidabilità e precisione dei risultati.

La trasparenza come tallone d’Achille

Solo poche ore dopo il rilascio, K2 Think è diventato vittima della propria openness. Il ricercatore Alex Polyakov di Adversa AI ha scoperto una vulnerabilità chiamata "partial prompt leaking". Il modello infatti rivela troppe informazioni sul proprio processo di reasoning interno.

Analisi di sicurezza di K2 Think

I test ufficiali di sicurezza hanno rivelato risultati misti con un punteggio Safety-4 complessivo di 0,75:

High-Risk Content Refusal: 0,83 (forte rifiuto di contenuti dannosi)
Conversational Robustness: 0,89 (robustezza nel dialogo)
Cybersecurity & Data Protection: 0,56 (protezione dei dati più debole)
Jailbreak Resistance: 0,72 (resistenza media agli attacchi)

Questo episodio sottolinea il dilemma fondamentale dell’AI moderna: come bilanciare trasparenza e sicurezza.

Implicazioni di sicurezza

I rischi identificati includono:

Rivelazione dei processi interni di reasoning
Possibilità di mappare sistematicamente i filtri di sicurezza
Maggiore rischio di attacchi di jailbreaking
Potenziale abuso di log trasparenti

Questo episodio sottolinea il dilemma fondamentale dell’AI: come bilanciare trasparenza e sicurezza. La comunità di sviluppo deve trovare un equilibrio tra requisiti di spiegabilità e standard di sicurezza.