DEV Community

Julio Suarez (Juls Schwartz)
Julio Suarez (Juls Schwartz)

Posted on

OCR con Tesseract en Windows

Tesseract es open source y es uno de los OCR que funcionan con mas exactitud.

Simplemente posteare aqui peque;os retacitos de codigo para facilitar retomar el hilo.

Una tarea basica, es escanear muchos imagenes y pasarlas a un archivo pdf o de texto, asi es como lo logre

  1. Instalamos tesseract del binario de windows: https://github.com/UB-Mannheim/tesseract/wiki
  2. agregar en path la ruta al binario ejecutable de tessaract
  3. poner en un subdirectorio todas las imagenes
  4. con CMD clasico, obtener un listado de todas las imagenes para hacer el OCR, use este comando

dir /b >imagenes.txt

el archivo imagenes queda por dentro por ejemplo asi:

01.jpeg
02.jpeg
03.jpeg
04.jpeg
05.jpeg
...

  1. En powershell la entrada sera el archivo que tiene el nombre de cada imagen a la que se le hara el OCR y de salida se usa un solo archivo de texto en donde se pondran todo el texto resultado del proceso de OCR, les comparto el ejemplo uso la siguiente linea que corre en Powershell:

tesseract C:\Users\usuario\Downloads\ocr\imagenes.txt salida --psm 3

Este comando creara el archivo "salida.txt" que agregara la salida en texto plano de todas las imagenes listadas en el archivo "imagenes.txt"

Fuentes:

La ayuda de tesseract:
https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

https://github.com/tesseract-ocr/tesseract/releases/

Para hacer la lista de nombres de archivos de imagenes:

https://superuser.com/questions/395836/how-to-copy-a-list-of-file-names-to-text-file

https://superuser.com/questions/870905/windows-command-line-dir-command-to-display-only-the-file-name-in-8-3-format

https://github.com/tesseract-ocr/tessdoc
https://github.com/UB-Mannheim/tesseract/wiki/Install-additional-language-and-script-models

De aqui supe de la existencia de tesseract:
https://www.reddit.com/r/DataHoarder/

OCR en linea mas o menos bueno:

Casi bueno, pero me manda paginas en blanco, quiza solo sea en la version gratuita y ya en la version de paga mande todo, pero nunca he probado la version de paga
https://www.onlineocr.net/pdf-to-word

Image of Datadog

Create and maintain end-to-end frontend tests

Learn best practices on creating frontend tests, testing on-premise apps, integrating tests into your CI/CD pipeline, and using Datadog’s testing tunnel.

Download The Guide

Top comments (0)

Image of Datadog

The Essential Toolkit for Front-end Developers

Take a user-centric approach to front-end monitoring that evolves alongside increasingly complex frameworks and single-page applications.

Get The Kit

👋 Kindness is contagious

Engage with a sea of insights in this enlightening article, highly esteemed within the encouraging DEV Community. Programmers of every skill level are invited to participate and enrich our shared knowledge.

A simple "thank you" can uplift someone's spirits. Express your appreciation in the comments section!

On DEV, sharing knowledge smooths our journey and strengthens our community bonds. Found this useful? A brief thank you to the author can mean a lot.

Okay