Opa. passando aqui para deixar minha simples contribuicao para recuperar informacoes de arquivos pdf com a biblioteca #tika da #apache.
from tika import parser
import split
import csv
import cv2
import re
texto = parser.from_file('/home/master/EstudoDados/scs/imagens/carteirapdf.pdf')
texto_str = str(texto['content'])
palavras = texto_str.split('\n')
for palavra in palavras:
print(palavra)
dados = [[palavras]]
with open('/home/master/EstudoDados/scs/imagens/dados02.csv', 'w',newline='') as arquivo:
escritor = csv.writer(arquivo)
for linha in dados:
escritor.writerow(linha)
Top comments (0)