Python com PDF

#python #tika #pdf #apache

Opa. passando aqui para deixar minha simples contribuicao para recuperar informacoes de arquivos pdf com a biblioteca #tika da #apache.

from tika import parser
import split
import csv
import cv2
import re

texto = parser.from_file('/home/master/EstudoDados/scs/imagens/carteirapdf.pdf')

texto_str = str(texto['content'])

palavras = texto_str.split('\n')

for palavra in palavras:

print(palavra)

dados = [[palavras]]

with open('/home/master/EstudoDados/scs/imagens/dados02.csv', 'w',newline='') as arquivo:

  escritor = csv.writer(arquivo)
  for linha in dados:
      escritor.writerow(linha)

DEV Community