lunes, 24 de noviembre de 2014

PdftoText + Python = Diccionario

Hoy me he puesto a jugar con Pdf to Text un programa bien junto [a la suit xPDF] capaz de extraer texto de un archivo.pdf y devolverlo en un .txt. Hasta aquí todo bien, ya que es un programa muy fácil de utilizar y da muy buenos resultados. 

El Usage  de pdftotext es bastante sencillo.

Así que, una vez que ya tenia el .txt con el texto que quería, pensé en que seria muy guay poder ordenar por lineas cada una de las palabras y poder hacer un diccionario con ellas. Así que me he puesto a investigar para poder hacerlo en Python. 

Este es el script que ha salido:

d1 = raw_input("Dame el archivo: ")

with open(d1,'r') as f:
    for line in f:
        for word in line.split():
           dic = open("dicslipt.txt","a+")
           dic.write(word + "\n")
           print word
    print "split done"

Si os lo queréis descargar esta en mi GitHub: 
Se puede mejorar de muchas maneras, asi que dejo en vuestras manos los posibles commits y por si no os ha quedado claro el proceso que he utilizado para crear este un diccionario.txt gracias archivos .pdf aquí os dejo el vídeo que he grabado esta tarde. 


Sed Buenos con esto 0;) 

No hay comentarios:

Publicar un comentario en la entrada