DEV Community

Luigi Ippolito
Luigi Ippolito

Posted on

Sml e Taleb

Nassim Nicholas Taleb e i Small Language Models (SLM): un'analisi attraverso la lente della sua filosofia.


Il punto di partenza: cosa direbbe Taleb?

Taleb, con i suoi concetti di antifragilità, opzionalità e skin in the game, guarderebbe ai modelli linguistici con una lente molto specifica. Non si chiederebbe "qual è il modello più potente?", ma piuttosto: "quale sistema guadagna da caos, errori e incertezza?"


1. Antifragilità: i piccoli modelli sono più antifragili?

Per Taleb, l'antifragilità è la proprietà di qualcosa che migliora sotto stress, non solo resiste. I grandi modelli (LLM da centinaia di miliardi di parametri) sono, nella sua ottica, fragili per definizione:

  • Concentrazione del rischio: un singolo modello gigante è un punto di fallimento unico. Se va offline, se viene censurato, se cambia politica di pricing, l'intero sistema collassa.
  • Costi fissi oppressivi: richiedono infrastrutture massive, contratti cloud, team di ingegneri specializzati. Non c'è opzionalità — sei bloccato in un costo strutturale.
  • Opacità: nessuno sa davvero cosa succenda dentro un modello da 400B parametri. Per Taleb, questo è "fragilità mascherata da complessità".

I piccoli modelli, al contrario, mostrano tratti antifragili:

  • Distribuzione del rischio: puoi far girare dieci SLM diversi in parallelo, su hardware diverso, con vendor diversi. Se uno fallisce, gli altri continuano.
  • Adattamento locale: un SLM fine-tunato sui documenti interni di un'azienda italiana è più robusto a cambiamenti di contesto rispetto a un modello generale che deve "sapere tutto".
  • Errore come informazione: quando un piccolo modello sbaglia, l'errore è spesso interpretabile. Puoi correggerlo, retrainare, migliorare. Il fallimento del grande modello è un "blackout" senza spiegazione.

2. Opzionalità: la "barba" dei piccoli modelli

Taleb ama l'opzionalità — avere il diritto ma non l'obbligo. I piccoli modelli offrono opzionalità massima:

  • Costo zero di mantenimento inattivo: un SLM quantizzato Q4 può stare su un Raspberry Pi spento finché non serve. Un modello GPT-4 tier enterprise ti costa anche quando non lo usi.
  • Combinatoria: puoi concatenare SLM specializzati (uno per estrarre entità, uno per riassumere, uno per classificare) come opzioni indipendenti. Se una catena fallisce, ne costruisci un'altra.
  • Exit cost bassissimo: migrare da un SLM a un altro è banale. Migrare da un'architettura enterprise LLM a un'altra è un progetto da mesi.

Questo è lo "barbell strategy" di Taleb applicato all'AI: da un lato, usi SLM locali per il 90% dei task banali; dall'altro, un modello grande a pagamento solo per i casi critici e verificabili.


3. Skin in the game: chi paga gli errori?

Taleb è ossessionato da questo: chi prende le decisioni deve subirne le conseguenze. Nell'ecosistema AI attuale:

  • I vendor di LLM giganti (OpenAI, Anthropic, Google) hanno zero skin in the game rispetto ai tuoi errori. Se il loro modello allucina una diagnosi medica o un parere legale, loro non vanno in prigione. Tu sì.
  • Un SLM deployato on-premise, fine-tunato e verificato dal tuo team, mette lo "skin in the game" dove deve essere: su chi lo usa. L'errore è tuo, ma anche il controllo è tuo.

Per una banca italiana, un ospedale, una PA: usare un modello che non puoi auditare è, per Taleb, irrazionalità pura.


4. Il problema del "Ludic Fallacy" nei benchmark

Taleb odia i modelli matematici eleganti che non resistono al mondo reale. I benchmark LLM (MMLU, HumanEval, ecc.) sono, nella sua ottica, ludic fallacy applicata all'AI:

  • Misurano performance su domande a scelta multipla in inglese, non su un cittadino arrabbiato al telefono con l'INPS.
  • Un modello che "vince" su MMLU può essere inutile per estrarre dati da una fattura italiana scritta in dialetto veneto.

I piccoli modelli, quando fine-tunati su dati reali, hanno meno "punteggio" sui benchmark ma più utilità nel mondo. Per Taleb, questo è un trade-off che accetterebbe immediatamente.


5. La "via negativa": cosa NON fare

Taleb preferisce dimostrare la verità per negazione. Applicato agli SLM:

  • Non serve un modello che "capisce tutto": serve uno che non sbaglia sul tuo dominio specifico.
  • Non serve la massima accuratezza generale: serve la minima probabilità di catastrofe (allucinazioni su dati sensibili).
  • Non serve scalare: serve sopravvivere a cambiamenti di mercato, regolamentazione, vendor.

Un SLM che fa il 70% di accuracy generale ma il 98% sul tuo task, senza allucinazioni sui tuoi dati, è — per Taleb — superiore a un modello da 95% generale che ogni tanto inventa fatti sui tuoi clienti.


Conclusione: Taleb voterebbe per gli SLM?

Non per entusiasmo tecnologico, ma per razionalità epistemologica. Taleb sceglierebbe i piccoli modelli perché:

  1. Sono antifragili — migliorano con l'uso locale e il feedback reale
  2. Offrono opzionalità — bassi costi fissi, alta flessibilità
  3. Ridistribuiscono il rischio — nessun single point of failure
  4. Mettono skin in the game — chi usa il modello lo controlla e ne risponde
  5. Evitano la ludic fallacy — performance misurate sul mondo reale, non su benchmark sintetici

La sua critica sarebbe però severa verso chi vende gli SLM come "soluzione magica": per Taleb, anche un piccolo modello usato senza comprensione del dominio, senza feedback loop, senza accettazione dell'errore, è solo fragilità in formato ridotto. L'antifragilità non sta nel modello, ma nel sistema che lo circonda.

Top comments (0)