LinuxParty
Un Web crawler es un programa que navega por Internet de una manera predeterminada, configurable y automática, realizando acciones programadas en el contenido crawler. Los motores de búsqueda como Google y Yahoo utilizan rastreadores como medio de proporcionar datos de búsqueda, es decir, estos rastreadores encuentran y almacenan lo que luego tu vas a buscar.
El rastreador multi-hilo basado python es bastante simple y rápido. Es capaz de detectar y eliminar enlaces duplicados y guardar la fuente y el enlace de la que luego puede usarse en la búsqueda de enlaces entrantes y salientes para el cálculo de fila de la página. Es totalmente gratuito y el código se muestra a continuación:
(Puede que dependiendo de la seguridad de la página, no funcione en todas las webs)
import sys, thread, Queue, re, urllib, urlparse, time, os, sys dupcheck = set() q = Queue.Queue(100) q.put(sys.argv[1]) def queueURLs(html, origLink): for url in re.findall('''<a[^>]+href=["'](.[^"']+)["']''', html, re.I): link = url.split("#", 1)[0] if url.startswith("http") else '{uri.scheme}://{uri.netloc}'.format(uri=urlparse.urlparse(origLink)) + url.split("#", 1)[0] if link in dupcheck: continue dupcheck.add(link) if len(dupcheck) > 99999: dupcheck.clear() q.put(link) def getHTML(link): try: html = urllib.urlopen(link).read() open(str(time.time()) + ".html", "w").write("" % link + "\n" + html) queueURLs(html, link) except (KeyboardInterrupt, SystemExit): raise except Exception: pass while True: thread.start_new_thread( getHTML, (q.get(),)) time.sleep(0.5)
Guarde el código como LinuxPartyCrawler.py
Para iniciar el rastreo escriba:
python LinuxPartyCrawler.py http://es.wikipedia.org
Disfrute!
¡¡Atención!!
Algunas Webs, (incluida la nuestra) tienen herramientas que protegen de ciertos bots y crawlers, y pueden bloquearte el acceso a la web, incluso de forma permanente. Haz pruebas bajo tu responsabilidad.
En otros artículos intentaré mostrar otros códigos similares realizados en PHP.

-
UnionEuropea
- El experimento alemán de la "Renta Básica Universal" demuestra que no fomenta el desempleo.
- Las empresas tecnológicas europeas presionan a la UE para que dicte un mandato de "compra de tecnología europea"
- Google no añadirá comprobaciones de datos a pesar de la nueva ley de la UE
- La UE firma un acuerdo de 1.000 millones de dólares para una constelación de satélites soberanos para competir con Starlink
- ¿Puede la UE responsabilizar a los fabricantes de software por negligencia?
- La Identidad Digital de la UE: Todo lo que necesitas saber sobre los planes de la UE para un sistema de identidad digital universal
- Las perspectivas económicas de Europa empeoran a medida que los altos precios afectan el gasto del consumidor
- La UE nombra 19 grandes plataformas tecnológicas que deben seguir las nuevas reglas de Internet de Europa
- El código abierto ( y Linux ) se ve amenazado por la Ley de Resiliencia Cibernética
- La Unión Europea prepara DNS4EU, quiere sus propios DNS ¿independencia tecnológica o Censura Encubierta?
- Asesor del Tribunal Superior de la UE sugiere que la ley alemana de retención de datos a granel no es legal
- La Comisión Europea ha decidido que lo que se negocie por WhatsApp es Irrelevante
- Todos los partidos «Constitucionalistas» votaron a favor del Art. 13 y en contra del Sentido Común.
- Google implementará elegir el navegador al estilo Microsoft para dispositivos Android en la UE
- El artículo 13 del Copyright en la UE está de vuelta. Y lejos de mejorar va a peor.
Comentarios
Me sorprende que escribas eso, arriba ves el código y una explicación de cómo funciona. Evidentemente desde un Linux. Si no tienes Linux, deberás hacerlo correr desde la consola de tu sistema, y "python", deberá estar en el path para poder ejecutarse.