Nassim Nicholas Taleb e i Small Language Models (SLM): un'analisi attraverso la lente della sua filosofia.
Il punto di partenza: cosa direbbe Taleb?
Taleb, con i suoi concetti di antifragilità, opzionalità e skin in the game, guarderebbe ai modelli linguistici con una lente molto specifica. Non si chiederebbe "qual è il modello più potente?", ma piuttosto: "quale sistema guadagna da caos, errori e incertezza?"
1. Antifragilità: i piccoli modelli sono più antifragili?
Per Taleb, l'antifragilità è la proprietà di qualcosa che migliora sotto stress, non solo resiste. I grandi modelli (LLM da centinaia di miliardi di parametri) sono, nella sua ottica, fragili per definizione:
- Concentrazione del rischio: un singolo modello gigante è un punto di fallimento unico. Se va offline, se viene censurato, se cambia politica di pricing, l'intero sistema collassa.
- Costi fissi oppressivi: richiedono infrastrutture massive, contratti cloud, team di ingegneri specializzati. Non c'è opzionalità — sei bloccato in un costo strutturale.
- Opacità: nessuno sa davvero cosa succenda dentro un modello da 400B parametri. Per Taleb, questo è "fragilità mascherata da complessità".
I piccoli modelli, al contrario, mostrano tratti antifragili:
- Distribuzione del rischio: puoi far girare dieci SLM diversi in parallelo, su hardware diverso, con vendor diversi. Se uno fallisce, gli altri continuano.
- Adattamento locale: un SLM fine-tunato sui documenti interni di un'azienda italiana è più robusto a cambiamenti di contesto rispetto a un modello generale che deve "sapere tutto".
- Errore come informazione: quando un piccolo modello sbaglia, l'errore è spesso interpretabile. Puoi correggerlo, retrainare, migliorare. Il fallimento del grande modello è un "blackout" senza spiegazione.
2. Opzionalità: la "barba" dei piccoli modelli
Taleb ama l'opzionalità — avere il diritto ma non l'obbligo. I piccoli modelli offrono opzionalità massima:
- Costo zero di mantenimento inattivo: un SLM quantizzato Q4 può stare su un Raspberry Pi spento finché non serve. Un modello GPT-4 tier enterprise ti costa anche quando non lo usi.
- Combinatoria: puoi concatenare SLM specializzati (uno per estrarre entità, uno per riassumere, uno per classificare) come opzioni indipendenti. Se una catena fallisce, ne costruisci un'altra.
- Exit cost bassissimo: migrare da un SLM a un altro è banale. Migrare da un'architettura enterprise LLM a un'altra è un progetto da mesi.
Questo è lo "barbell strategy" di Taleb applicato all'AI: da un lato, usi SLM locali per il 90% dei task banali; dall'altro, un modello grande a pagamento solo per i casi critici e verificabili.
3. Skin in the game: chi paga gli errori?
Taleb è ossessionato da questo: chi prende le decisioni deve subirne le conseguenze. Nell'ecosistema AI attuale:
- I vendor di LLM giganti (OpenAI, Anthropic, Google) hanno zero skin in the game rispetto ai tuoi errori. Se il loro modello allucina una diagnosi medica o un parere legale, loro non vanno in prigione. Tu sì.
- Un SLM deployato on-premise, fine-tunato e verificato dal tuo team, mette lo "skin in the game" dove deve essere: su chi lo usa. L'errore è tuo, ma anche il controllo è tuo.
Per una banca italiana, un ospedale, una PA: usare un modello che non puoi auditare è, per Taleb, irrazionalità pura.
4. Il problema del "Ludic Fallacy" nei benchmark
Taleb odia i modelli matematici eleganti che non resistono al mondo reale. I benchmark LLM (MMLU, HumanEval, ecc.) sono, nella sua ottica, ludic fallacy applicata all'AI:
- Misurano performance su domande a scelta multipla in inglese, non su un cittadino arrabbiato al telefono con l'INPS.
- Un modello che "vince" su MMLU può essere inutile per estrarre dati da una fattura italiana scritta in dialetto veneto.
I piccoli modelli, quando fine-tunati su dati reali, hanno meno "punteggio" sui benchmark ma più utilità nel mondo. Per Taleb, questo è un trade-off che accetterebbe immediatamente.
5. La "via negativa": cosa NON fare
Taleb preferisce dimostrare la verità per negazione. Applicato agli SLM:
- Non serve un modello che "capisce tutto": serve uno che non sbaglia sul tuo dominio specifico.
- Non serve la massima accuratezza generale: serve la minima probabilità di catastrofe (allucinazioni su dati sensibili).
- Non serve scalare: serve sopravvivere a cambiamenti di mercato, regolamentazione, vendor.
Un SLM che fa il 70% di accuracy generale ma il 98% sul tuo task, senza allucinazioni sui tuoi dati, è — per Taleb — superiore a un modello da 95% generale che ogni tanto inventa fatti sui tuoi clienti.
Conclusione: Taleb voterebbe per gli SLM?
Non per entusiasmo tecnologico, ma per razionalità epistemologica. Taleb sceglierebbe i piccoli modelli perché:
- Sono antifragili — migliorano con l'uso locale e il feedback reale
- Offrono opzionalità — bassi costi fissi, alta flessibilità
- Ridistribuiscono il rischio — nessun single point of failure
- Mettono skin in the game — chi usa il modello lo controlla e ne risponde
- Evitano la ludic fallacy — performance misurate sul mondo reale, non su benchmark sintetici
La sua critica sarebbe però severa verso chi vende gli SLM come "soluzione magica": per Taleb, anche un piccolo modello usato senza comprensione del dominio, senza feedback loop, senza accettazione dell'errore, è solo fragilità in formato ridotto. L'antifragilità non sta nel modello, ma nel sistema che lo circonda.
Top comments (0)