State X: Crawler

lunes, 5 de mayo de 2014

Mi Segunda Araña.- Estoy Ya Empieza A Ser Un Crawler

Si os acordáis hace una semana os hablé de mi primera araña, [el E-Mail Extractor ese], dije que le faltaba ir profundizando en los enlaces de la pagina. Pues me puse a ello y bueno me parece que ha salido una herramienta muy compatible con la anterior. Aunque da Error cuando intenta abrir una URL inacabada (Error que aún no he podido solucionar.) Si que encuentra y guarda gran parte de las URL de la pagina.

Os dejo el código(se admiten sugerencias xD):

import re

import urllib

web = raw_input("pega aqui la Url: ")

url = []

patron= re.compile('''href=["'](.[^"']+)["']''')

busqueda = re.findall(patron, urllib.urlopen(web).read())

for i in busqueda:

url.append(i)

d1 = str(i)

ListaUrl = open('url.txt','a+')

ListaUrl.write("--> "+ d1 +" <--")

ListaUrl.close()

busqueda2 = re.findall(patron, urllib.urlopen(i).read())

for e in busqueda2:

url.append(e)

d2 = str(e)

ListaUrl = open('url.txt','a+')

ListaUrl.write("--> "+ d2 +" <--")

ListaUrl.close()

print "URls Guardadas con Exito."

Os dejo el enlace a GitHub para que os lo bajéis:

https://github.com/StateX/mihoradecodigo/blob/master/crawler.py

Algunas aplicaciónes que se me ocurren para este programa son muy variadas. Hacen que me plantee crear un buscador o empezar a scanear muchas paginas para hacerme con muchos correos electronicos para un posible mal uso despues. No se, yo me lo he pasado bien intantando lo hacerlo y ahora solo me hace falta arregar ese fallo y juntarlo con el HTML E-Mail Extractor.

Sed Buenos con esto ;)

lunes, 10 de junio de 2013

Robot.txt .- ¿Sueñan Los Txt En Ovejas Eléctricas?

Algunas veces os he hablado del [Google Hacking] y de lo eficientes que son sus arañas a la hora de indexar todo lo que encuentran. Hoy curioseando el blog de Chema Alonso donde hablaba [sobre la posibilidad de poder atacar una intranet desde el panel de control de una impresora indexada] por Google, me he puesto a curiosear que era eso de los robot.txt y porque habían arañas buenas que hacían caso a estos robots y otras que no.

Bien, pongámonos en situación y empezamos primero por las arañas de los buscadores. También llamadas Crawlers, son programas diseñados para buscar información de una pagina web automáticamente e indexarla/añadirla a un buscador.

¿Que hacemos si no queremos que una de estas arañas llegue a nuestra pagina? Pues lo mas fácil seria proveernos de un archivo robot.txt. Este tipo de archivo sera el encargado de recomendar al Crawler que partes de esa pagina web no debe indexar. Como bien he dicho, no obliga a no indexar nada sino que recomienda así que si una Araña/Crawler esta hecha a maña leche no hará caso de ese robot.

Para los que queráis aprender un poco mas sobre robots.txt os dejo la pagina: [http://www.robotstxt.org/] y para a los que os ha gustado la imagen os dejo el artículo al que le corresponde: [http://dontbeevil.es/el-seo-de-juego-de-tronos/] <-- vele la pena xD me he reído muchísimo xD

State X

Páginas

Este blog ya no está activo, sigue informándote aquí:

lunes, 5 de mayo de 2014

Mi Segunda Araña.- Estoy Ya Empieza A Ser Un Crawler

lunes, 10 de junio de 2013

Robot.txt .- ¿Sueñan Los Txt En Ovejas Eléctricas?