MCP Server Google Vision : Donnez la vue à Claude pour lire vos documents scannés et manuscrits

Kohen Avocats — Mon, 29 Dec 2025 23:47:12 +0000

Les LLMs comme Claude excellent dans l'analyse de texte, mais ils ont une limitation majeure : ils ne peuvent pas nativement lire des PDFs scannés, déchiffrer l'écriture manuscrite, ou traiter des documents mal orientés.

J'ai développé mcp-server-google-vision, un serveur MCP (Model Context Protocol) qui donne des capacités de vision avancées aux modèles de langage via l'API Google Cloud Vision.

🎯 Le problème résolu

Ce serveur permet aux LLMs de :

Lire des PDF scannés (images sans couche texte)
Déchiffrer l'écriture manuscrite
Traiter des documents mal orientés ou inversés
Extraire du texte de photos de documents

💼 Cas d'usage

Ce projet est né d'un besoin concret dans mon cabinet d'avocats parisien, où nous devons quotidiennement traiter des pièces scannées, correspondances manuscrites, et documents anciens.

Autres applications :

Alimentation de RAG : Extraction de texte pour indexation
Traitement documentaire : OCR de masse avec gestion multi-pages
Accessibilité : Transcription pour personnes malvoyantes

⚡ Fonctionnalités clés

OCR haute précision (imprimé et manuscrit)
Support multi-pages (jusqu'à 2000 pages)
Détection automatique d'orientation
9 features Vision API disponibles
Retry intelligent avec backoff exponentiel

🚀 Installation rapide

pip install mcp-server-google-vision

Configuration avec Claude Desktop (via uvx) :

{
  "mcpServers": {
    "google-vision": {
      "command": "uvx",
      "args": ["--from", "mcp-server-google-vision", "mcp-google-vision"],
      "env": {
        "GOOGLE_API_KEY": "votre_clé_api"
      }
    }
  }
}

📦 Liens

KohenAvocats / mcp-server-google-vision

MCP server providing OCR capabilities to LLMs via Google Cloud Vision API - Read scanned PDFs, handwritten text, and images with any orientation

mcp-server-google-vision

Serveur MCP Model Context Protocol permettant aux LLMs comme Claude de lire des documents scannés, du texte manuscrit et des images avec l'API Google Cloud Vision.

Description

Ce projet implémente un serveur MCP qui donne des capacités de vision avancées aux modèles de langage. Développé par Kohen Avocats, un cabinet d'avocats parisien, cet outil est utilisé quotidiennement pour traiter des documents juridiques complexes : pièces scannées, courriers manuscrits, PDF mal orientés, etc.

Le problème résolu

Les LLMs comme Claude excellent dans l'analyse de texte, mais ne peuvent pas nativement :

Lire des PDF scannés (images sans couche texte)
Déchiffrer l'écriture manuscrite
Traiter des documents mal orientés ou inversés
Extraire du texte de photos de documents

Ce serveur MCP comble cette lacune en fournissant une interface standardisée vers Google Cloud Vision, permettant aux LLMs de "voir" et lire n'importe quel document.

Cas d'usage

Cabinets d'avocats : Lecture de pièces…

View on GitHub

Le projet est open source sous licence MIT. N'hésitez pas à contribuer ou à partager vos cas d'usage !

Développé par Maître Hassan KOHEN, avocat en droit pénal à Paris, fondateur de Kohen Avocats.

DEV Community: Kohen Avocats