DEV Community

Kohen Avocats
Kohen Avocats

Posted on

MCP Server Google Vision : Donnez la vue à Claude pour lire vos documents scannés et manuscrits

Les LLMs comme Claude excellent dans l'analyse de texte, mais ils ont une limitation majeure : ils ne peuvent pas nativement lire des PDFs scannés, déchiffrer l'écriture manuscrite, ou traiter des documents mal orientés.

J'ai développé mcp-server-google-vision, un serveur MCP (Model Context Protocol) qui donne des capacités de vision avancées aux modèles de langage via l'API Google Cloud Vision.

🎯 Le problème résolu

Ce serveur permet aux LLMs de :

  • Lire des PDF scannés (images sans couche texte)
  • Déchiffrer l'écriture manuscrite
  • Traiter des documents mal orientés ou inversés
  • Extraire du texte de photos de documents

💼 Cas d'usage

Ce projet est né d'un besoin concret dans mon cabinet d'avocats parisien, où nous devons quotidiennement traiter des pièces scannées, correspondances manuscrites, et documents anciens.

Autres applications :

  • Alimentation de RAG : Extraction de texte pour indexation
  • Traitement documentaire : OCR de masse avec gestion multi-pages
  • Accessibilité : Transcription pour personnes malvoyantes

⚡ Fonctionnalités clés

  • OCR haute précision (imprimé et manuscrit)
  • Support multi-pages (jusqu'à 2000 pages)
  • Détection automatique d'orientation
  • 9 features Vision API disponibles
  • Retry intelligent avec backoff exponentiel

🚀 Installation rapide

pip install mcp-server-google-vision
Enter fullscreen mode Exit fullscreen mode

Configuration avec Claude Desktop (via uvx) :

{
  "mcpServers": {
    "google-vision": {
      "command": "uvx",
      "args": ["--from", "mcp-server-google-vision", "mcp-google-vision"],
      "env": {
        "GOOGLE_API_KEY": "votre_clé_api"
      }
    }
  }
}
Enter fullscreen mode Exit fullscreen mode

📦 Liens

GitHub logo KohenAvocats / mcp-server-google-vision

MCP server providing OCR capabilities to LLMs via Google Cloud Vision API - Read scanned PDFs, handwritten text, and images with any orientation

mcp-server-google-vision

Serveur MCP Model Context Protocol permettant aux LLMs comme Claude de lire des documents scannés, du texte manuscrit et des images avec l'API Google Cloud Vision.

Description

Ce projet implémente un serveur MCP qui donne des capacités de vision avancées aux modèles de langage. Développé par Kohen Avocats, un cabinet d'avocats parisien, cet outil est utilisé quotidiennement pour traiter des documents juridiques complexes : pièces scannées, courriers manuscrits, PDF mal orientés, etc.

Le problème résolu

Les LLMs comme Claude excellent dans l'analyse de texte, mais ne peuvent pas nativement :

  • Lire des PDF scannés (images sans couche texte)
  • Déchiffrer l'écriture manuscrite
  • Traiter des documents mal orientés ou inversés
  • Extraire du texte de photos de documents

Ce serveur MCP comble cette lacune en fournissant une interface standardisée vers Google Cloud Vision, permettant aux LLMs de "voir" et lire n'importe quel document.

Cas d'usage

  • Cabinets d'avocats : Lecture de pièces…

Le projet est open source sous licence MIT. N'hésitez pas à contribuer ou à partager vos cas d'usage !

Développé par Maître Hassan KOHEN, avocat en droit pénal à Paris, fondateur de Kohen Avocats.

Top comments (0)