DEV Community

Cover image for Python com PDF
Charles Santana
Charles Santana

Posted on

Python com PDF

Opa. passando aqui para deixar minha simples contribuicao para recuperar informacoes de arquivos pdf com a biblioteca #tika da #apache.

from tika import parser
import split
import csv
import cv2
import re

texto = parser.from_file('/home/master/EstudoDados/scs/imagens/carteirapdf.pdf')

texto_str = str(texto['content'])

palavras = texto_str.split('\n')

for palavra in palavras:

print(palavra)
Enter fullscreen mode Exit fullscreen mode

dados = [[palavras]]

with open('/home/master/EstudoDados/scs/imagens/dados02.csv', 'w',newline='') as arquivo:

  escritor = csv.writer(arquivo)
  for linha in dados:
      escritor.writerow(linha)
Enter fullscreen mode Exit fullscreen mode

Top comments (0)