Les LLMs comme Claude excellent dans l'analyse de texte, mais ils ont une limitation majeure : ils ne peuvent pas nativement lire des PDFs scannés, déchiffrer l'écriture manuscrite, ou traiter des documents mal orientés.
J'ai développé mcp-server-google-vision, un serveur MCP (Model Context Protocol) qui donne des capacités de vision avancées aux modèles de langage via l'API Google Cloud Vision.
🎯 Le problème résolu
Ce serveur permet aux LLMs de :
- Lire des PDF scannés (images sans couche texte)
- Déchiffrer l'écriture manuscrite
- Traiter des documents mal orientés ou inversés
- Extraire du texte de photos de documents
💼 Cas d'usage
Ce projet est né d'un besoin concret dans mon cabinet d'avocats parisien, où nous devons quotidiennement traiter des pièces scannées, correspondances manuscrites, et documents anciens.
Autres applications :
- Alimentation de RAG : Extraction de texte pour indexation
- Traitement documentaire : OCR de masse avec gestion multi-pages
- Accessibilité : Transcription pour personnes malvoyantes
⚡ Fonctionnalités clés
- OCR haute précision (imprimé et manuscrit)
- Support multi-pages (jusqu'à 2000 pages)
- Détection automatique d'orientation
- 9 features Vision API disponibles
- Retry intelligent avec backoff exponentiel
🚀 Installation rapide
pip install mcp-server-google-vision
Configuration avec Claude Desktop (via uvx) :
{
"mcpServers": {
"google-vision": {
"command": "uvx",
"args": ["--from", "mcp-server-google-vision", "mcp-google-vision"],
"env": {
"GOOGLE_API_KEY": "votre_clé_api"
}
}
}
}
📦 Liens
KohenAvocats
/
mcp-server-google-vision
MCP server providing OCR capabilities to LLMs via Google Cloud Vision API - Read scanned PDFs, handwritten text, and images with any orientation
mcp-server-google-vision
Serveur MCP Model Context Protocol permettant aux LLMs comme Claude de lire des documents scannés, du texte manuscrit et des images avec l'API Google Cloud Vision.
Description
Ce projet implémente un serveur MCP qui donne des capacités de vision avancées aux modèles de langage. Développé par Kohen Avocats, un cabinet d'avocats parisien, cet outil est utilisé quotidiennement pour traiter des documents juridiques complexes : pièces scannées, courriers manuscrits, PDF mal orientés, etc.
Le problème résolu
Les LLMs comme Claude excellent dans l'analyse de texte, mais ne peuvent pas nativement :
- Lire des PDF scannés (images sans couche texte)
- Déchiffrer l'écriture manuscrite
- Traiter des documents mal orientés ou inversés
- Extraire du texte de photos de documents
Ce serveur MCP comble cette lacune en fournissant une interface standardisée vers Google Cloud Vision, permettant aux LLMs de "voir" et lire n'importe quel document.
Cas d'usage
- Cabinets d'avocats : Lecture de pièces…
Le projet est open source sous licence MIT. N'hésitez pas à contribuer ou à partager vos cas d'usage !
Développé par Maître Hassan KOHEN, avocat en droit pénal à Paris, fondateur de Kohen Avocats.
Top comments (0)