Cómo hacer un robot web
Los motores de búsqueda, como Google o Yahoo!, introducen páginas web en sus resultados de búsqueda mediante el uso de bots web (a veces también llamados arañas o rastreadores), que son programas que escanean Internet e indexan sitios web en una base de datos. Los bots web se pueden crear con la mayoría de los lenguajes de programación, incluidos C, Perl, Python y PHP, todos los cuales permiten a los ingenieros de software escribir scripts que realizan tareas de procedimiento, como escaneo e indexación web.
Paso 1
Abra una aplicación de edición de texto sin formato, como el Bloc de notas, que se incluye con Microsoft Windows, o TextEdit de Mac OS X, donde creará una aplicación de bot Web de Python.
Paso 2
Inicie el script de Python incluyendo las siguientes líneas de código y reemplazando la URL de ejemplo con la URL del sitio web que desea escanear y el nombre de la base de datos de ejemplo con la base de datos que almacenará los resultados:
import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'
Paso 3
Incluya las siguientes líneas de código para definir la secuencia de operaciones que seguirá el bot web:
def uniq(seg):conjunto ={} mapa(conjunto.setitem , seq, []) devuelve set.keys()
Paso 4
Obtenga las URL en la estructura del sitio web utilizando las siguientes líneas de código:
def geturls(url):items =[] request =urllib2.Request(url) request.add.header('User', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', contenido) urls =[] devolver urls
Paso 5
Defina la base de datos que utilizará el bot web y especifique qué información debe almacenar para completar la creación del bot web:
db =open(db_name, 'a') allurls =uniq(geturls(enter_point))
Paso 6
Guarde el documento de texto y cárguelo en un servidor o computadora con conexión a Internet donde puede ejecutar el script y comenzar a escanear páginas web.