Alessandro Binda

Posted on May 16

OCR Intelligente per Documenti Aziendali: Architettura e Lezioni dal Campo

#ai #saas #business

L'OCR (Optical Character Recognition) per testo stampato moderno è un problema risolto da decenni. Tesseract gestisce i documenti dattiloscritti chiari in modo affidabile. Le sfide interessanti stanno nei casi difficili: documenti manoscritti, archivi storici degradati, layout complessi multi-colonna, tabelle nei PDF scansionati, e documenti che mescolano testo stampato e manoscritto.

Questo post documenta l'architettura che usiamo in produzione per il processing di documenti aziendali nel contesto italiano, le scelte che abbiamo fatto, e cosa abbiamo imparato sul campo.

Il Contesto di Business

Il contesto determina i requisiti tecnici, quindi è utile essere specifici.

Nel contesto legale e notarile italiano, i documenti includono:

Rogiti notarili: spesso dattiloscritti su macchine da scrivere d'epoca, con linguaggio giuridico denso, abbreviazioni, e convenzioni di formato specifiche per periodo e notaio
Atti catastali: moduli scansionati con campi dati strutturati, timbri, e annotazioni manoscritte
Contratti e locazioni: documenti moderni tipicamente scansionati invece che creati digitalmente
Fatture e documenti finanziari: formati variabili tra emittenti e periodi

Il requisito di accuratezza è alto — per documenti legali e finanziari, gli errori di estrazione hanno conseguenze reali. E il volume può essere significativo: una compravendita immobiliare genera decine di documenti.

La Catena di Processing a Tre Livelli

Dopo molte iterazioni, siamo arrivati a un approccio a tre livelli basato sulla classificazione del tipo di documento:

Livello 1: Documenti Moderni Stampati → Tesseract

Per documenti stampati moderni (fatture, contratti generati negli ultimi 20 anni, moduli), Tesseract 5.x con preprocessing appropriato è adeguato. Il preprocessing è fondamentale:

import cv2
import pytesseract
import numpy as np

def preprocess_document(image_path):
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # Correzione inclinazione
    coords = np.column_stack(np.where(gray > 0))
    angle = cv2.minAreaRect(coords)[-1]
    if angle < -45:
        angle = -(90 + angle)
    else:
        angle = -angle

    (h, w) = gray.shape[:2]
    M = cv2.getRotationMatrix2D((w//2, h//2), angle, 1.0)
    gray = cv2.warpAffine(gray, M, (w, h), flags=cv2.INTER_CUBIC)

    # Denoising e threshold
    gray = cv2.GaussianBlur(gray, (3,3), 0)
    _, thresh = cv2.threshold(gray, 0, 255,
                              cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    return thresh

Correzione inclinazione, denoising e thresholding portano l'accuratezza di Tesseract dall'80-85% al 92-96% su documenti aziendali tipici.

Livello 2: Manoscritti e Documenti Degradati → Mistral Pixtral

Per testo manoscritto e documenti storici degradati, Tesseract fallisce significativamente. Il riconoscimento di caratteri corsivi richiede un modello di visione che comprende i pattern contestuali delle lettere, non il matching pixel per pixel.

Usiamo Mistral Pixtral (modello vision-capable) per questo livello. Il prompt è strutturato con cura:

const prompt = `
Estrai tutto il testo da questa immagine di documento.
- Preserva la struttura e la formattazione originale
- Marca le letture incerte con [?]
- Per i numeri, presta attenzione speciale a: 1/7, 0/6, 5/3 (confusioni comuni)
- Output come JSON strutturato con: full_text, tables (se presenti), key_values (campi modulo rilevati)
- Lingua: documento giuridico italiano (può contenere frasi in latino)
`;

const response = await mistral.chat.complete({
  model: "pixtral-12b-2409",
  messages: [{
    role: "user",
    content: [
      { type: "image_url", imageUrl: { url: base64Image } },
      { type: "text", text: prompt }
    ]
  }]
});

Pixtral gestisce la scrittura italiana con accuratezza nell'85-90% sui nostri test — significativamente meglio di qualsiasi approccio OCR tradizionale.

Livello 3: Fallback → Gemini Vision

Per documenti che non superano i controlli di qualità dopo il processing Pixtral, usiamo Gemini Vision come opzione di emergenza. Raramente utilizzato, ma assicura che nessun documento sia completamente non processabile.

La Logica di Routing

async function processDocument(imagePath, documentType) {
  // Routing per tipo documento
  if (documentType === 'modern_typed') {
    const result = await runTesseract(imagePath);
    if (result.confidence > 0.90) return result;
    // Fallthrough al modello vision se qualità bassa
  }

  // Percorso vision model (manoscritti o typed con bassa confidenza)
  const pixtralResult = await runPixtral(imagePath);
  if (pixtralResult.confidence > 0.75) return pixtralResult;

  // Fallback di emergenza
  console.warn('Confidenza bassa — escalating a Gemini');
  return await runGemini(imagePath);
}

Estrazione Strutturata vs. Testo Grezzo

L'estrazione del testo grezzo non è l'obiettivo finale per i documenti aziendali — è l'estrazione di dati strutturati. Dopo l'OCR, eseguiamo un secondo passaggio LLM specificamente per l'estrazione dei campi:

Per una fattura: estrarre numero_fattura, data, nome_fornitore, p_iva_fornitore, righe[], totale, valuta.
Per un rogito: estrarre riferimento_catastale, parti[], notaio, data, tipo_atto, corrispettivo.

Questo approccio a due fasi (OCR → testo grezzo, poi LLM → dati strutturati) è più affidabile che tentare l'estrazione strutturata direttamente dall'immagine in un solo passaggio.

Considerazioni per la Produzione

Gestione della coda: Le chiamate ai modelli vision hanno latenza e costo significativi. Usiamo una coda con priorità e limiti di concorrenza configurabili — nel nostro deployment, massimo 3 job OCR in parallelo per evitare di saturare le API e incorrere in rate limit.

Gestione costi: Pixtral sul free tier di Mistral copre un numero limitato di pagine al giorno. Monitora attentamente l'utilizzo e implementa caching per i documenti già processati.

Monitoring dell'accuratezza: Costruisci un feedback loop. Quando un operatore corregge un risultato di estrazione, cattura quella correzione. Nel tempo, accumuli un dataset per il fine-tuning o il miglioramento dei prompt.

Formato output: Esporta i documenti processati come PDF (per revisione umana) e JSON strutturato (per automazione downstream). La piattaforma S.C.A.L.A. gestisce entrambi i formati nel modulo OCR, con interfaccia di download per i documenti processati.

Cosa Faremmo Diversamente

La cosa su cui abbiamo investito meno nelle fasi iniziali è stato il classificatore di documenti — l'instradamento corretto verso il livello di processing appropriato prima di tentare l'OCR. Una fattura moderna processata attraverso la pipeline del modello vision è più lenta e costosa del necessario. Un rogito manoscritto spinto attraverso Tesseract produce risultati inutilizzabili.

Investi nel classificatore presto. Anche un classificatore semplice addestrato su qualche centinaio di esempi etichettati fa risparmiare costi significativi e migliora l'accuratezza complessiva del sistema.

Il modulo OCR AI per documenti aziendali è parte della piattaforma S.C.A.L.A. Dettagli su get-scala.com.

DEV Community