lunes, 10 de junio de 2013

Robot.txt .- ¿Sueñan Los Txt En Ovejas Eléctricas?

Algunas veces os he hablado del [Google Hacking] y de lo eficientes que son sus arañas a la hora de indexar todo lo que encuentran. Hoy curioseando el blog de Chema Alonso donde hablaba [sobre la posibilidad de poder atacar una intranet desde el panel de control de una impresora indexada] por Google, me he puesto a curiosear que era eso de los robot.txt y porque habían arañas buenas que hacían caso a estos robots y otras que no. 


Bien, pongámonos en situación y empezamos primero por las arañas de los buscadores. También llamadas Crawlers, son programas diseñados para buscar información de una pagina web automáticamente e indexarla/añadirla a un buscador. 

¿Que hacemos si no queremos que una de estas arañas llegue a nuestra pagina? Pues lo mas fácil seria proveernos de un archivo robot.txt. Este tipo de archivo sera el encargado de recomendar al Crawler que partes de esa pagina web no debe indexar. Como bien he dicho, no obliga a no indexar nada sino que recomienda así que si una Araña/Crawler esta hecha a maña leche no hará caso de ese robot. 

Para los que queráis aprender un poco mas sobre robots.txt os dejo la pagina: [http://www.robotstxt.org/] y para a los que os ha gustado la imagen os dejo el artículo al que le corresponde: [http://dontbeevil.es/el-seo-de-juego-de-tronos/] <-- vele la pena xD me he reído muchísimo xD 

No hay comentarios:

Publicar un comentario