Il modello che per primo ha superato la soglia del 15% nel test estremamente impegnativo ARC AGI 2.0. E il modello che dovrebbe essere più intelligente di un’intera generazione di studenti post‑laurea. Stiamo parlando di Grok 4, la più recente intelligenza artificiale di xAI.
Mentre molti modelli linguistici puntano sul numero di parametri e sulla multimodalità, Grok 4 segue un’altra strada. Unisce prestazioni a un’architettura progettata per la comprensione profonda, il ragionamento deduttivo e la capacità di assistere gli sviluppatori nel lavoro quotidiano. In questo articolo vedremo come si comporta Grok nella pratica – e soprattutto cosa offre ai programmatori che cercano più di un semplice generatore automatico di sintassi.
Umělá inteligenceJuly 11, 2025|2 min
Lo sviluppo con Grok 4 è più veloce, più intelligente e più vivace
Il modello che per primo ha superato la soglia del 15% nel test estremamente impegnativo ARC AGI 2.0. E il modello che dovrebbe essere più intelligente di un’intera generazione di studenti post‑laurea...
T
Tým Apertia
Apertia.ai
Share:
Want a Custom AI Solution?
We help companies automate processes with AI. Contact us to find out how we can help you.
- Response within 24 hours
- No-obligation consultation
- Solutions tailored to your business
Grok 4 ha raggiunto il 15,3% nel test ARC AGI 2.0 – uno dei test più impegnativi di intelligenza generale, focalizzato sulla capacità di risolvere problemi logici, matematici e linguistici simili ai test di QI. Per confronto: GPT-4 si aggira intorno al 13%, Gemini 2.5 Pro e Claude 3 Opus leggermente sotto questa soglia.
Questo risultato conferma un alto livello di reasoning, cioè di ragionamento logico – una caratteristica chiave per compiti di sviluppo che richiedono più della semplice generazione di sintassi. ARC benchmark – Allen Institute for AI
Questi risultati mostrano che Grok 4 non è solo un prodotto PR, ma appartiene realmente ai migliori modelli sul mercato in grado di risolvere compiti con un elevato grado di complessità e scenari non deterministici.
Per gli sviluppatori ciò significa che il modello comprende meglio l’intento, ricostruisce le relazioni logiche ed è in grado di proporre soluzioni nel contesto, non solo secondo schemi appresi.
| Modello | Punteggio ARC AGI 2.0 | HumanEval | Classifica Codeforces |
|---|---|---|---|
| Grok 4 | 15,3 % | 75–78 % | Master (~2100) |
| GPT-4 (OpenAI) | 12–14 % | 67–72 % | Candidate Master |
| Claude 3 Opus | 10–11 % | 70–75 % | ~Expert |
| Gemini 2.5 Pro | 13 % | 76–80 % | Master |
Related articles
Ready to start?
Interested in this article?
Let's explore together how AI can transform your business.
Contact us


