martes, 29 de abril de 2014

Mi Primera Araña En Python .- HTML E-Mail Extractor. (En Python Of Course )

No os imaginéis nada sofisticado, ni siquiera creo que se pueda considerar un crawler en condiciones, pero si que me siento orgulloso de poder haber hecho un programa que con pasarle una URL busque correos electrónicos, en el código fuente de esta pagina  y los almacene en una archivo .txt. Cómodo y asequible al nivel que tengo de Python. 


Me perdonará Snifer pero aun no me he leído Violent Python (Sobrecarga de libros tios xD) y esta "araña" solo recoge los mails de justo la dirección que le pongas y no ira escalando o profundizando por el sitio web hasta encontrar lo que quiere. Tendré que irla mejorando. 

Esta hecha tirando de urllib2 y Regular Expresions. El punto bueno es que si rebuscamos por Pastebin encontraremos un mogollón de correos electrónicos que pueden ser usados para los fines que vosotros queráis. Os dejo el código aquí: 

import urllib2
import re

web =  raw_input("pega aqui la Url: ")

respuesta = urllib2.Request(web)

pagina = urllib2.urlopen(respuesta).read()

#esto complia la expresión siguiente
patron = re.compile("[-a-zA-Z0-9._]+@[-a-zA-Z0-9_]+.[a-zA-Z0-9_.]+")

#se explica por si mismo por el findall
smails = re.findall(patron,pagina)

#esto es lo que utilizo para guardar los resultados en un text. 
listaemails = open ('listaemail.txt', 'a+')
d2 = str(smails)
listaemails.write(d2)
listaemails.close()

#Y un print para dejarlo "bonito. 
print "e-mails guadados con exito"

Descarga: 


e-mails sacados de http://pastebin.com/ajaYnLYc

Sed Buenos con esto ;) 

No hay comentarios:

Publicar un comentario