LinuxParty
NUESTRO SITIO necesita la publicidad para costear hosting y el dominio. Por favor considera deshabilitar tu AdBlock en nuestro sitio. También puedes hacernos una donación entrando en linuxparty.es, en la columna de la derecha.
Un Web crawler es un programa que navega por Internet de una manera predeterminada, configurable y automática, realizando acciones programadas en el contenido crawler. Los motores de búsqueda como Google y Yahoo utilizan rastreadores como medio de proporcionar datos de búsqueda, es decir, estos rastreadores encuentran y almacenan lo que luego tu vas a buscar.
El rastreador multi-hilo basado python es bastante simple y rápido. Es capaz de detectar y eliminar enlaces duplicados y guardar la fuente y el enlace de la que luego puede usarse en la búsqueda de enlaces entrantes y salientes para el cálculo de fila de la página. Es totalmente gratuito y el código se muestra a continuación:
(Puede que dependiendo de la seguridad de la página, no funcione en todas las webs)
import sys, thread, Queue, re, urllib, urlparse, time, os, sys dupcheck = set() q = Queue.Queue(100) q.put(sys.argv[1]) def queueURLs(html, origLink): for url in re.findall('''<a[^>]+href=["'](.[^"']+)["']''', html, re.I): link = url.split("#", 1)[0] if url.startswith("http") else '{uri.scheme}://{uri.netloc}'.format(uri=urlparse.urlparse(origLink)) + url.split("#", 1)[0] if link in dupcheck: continue dupcheck.add(link) if len(dupcheck) > 99999: dupcheck.clear() q.put(link) def getHTML(link): try: html = urllib.urlopen(link).read() open(str(time.time()) + ".html", "w").write("" % link + "\n" + html) queueURLs(html, link) except (KeyboardInterrupt, SystemExit): raise except Exception: pass while True: thread.start_new_thread( getHTML, (q.get(),)) time.sleep(0.5)
Guarde el código como LinuxPartyCrawler.py
Para iniciar el rastreo escriba:
python LinuxPartyCrawler.py http://es.wikipedia.org
Disfrute!
¡¡Atención!!
Algunas Webs, (incluida la nuestra) tienen herramientas que protegen de ciertos bots y crawlers, y pueden bloquearte el acceso a la web, incluso de forma permanente. Haz pruebas bajo tu responsabilidad.
En otros artículos intentaré mostrar otros códigos similares realizados en PHP.

-
Internet
- ¿Cómo instalar Drupal en un hosting?
- ExtreHost uno de los mejores Hosting de España ha mejorado sus planes, una gran oportunidad.
- ExtreHost tiene unos competitivos servicios de Hosting.
- IPTraf-ng: una herramienta de monitoreo de red basada en consola para Linux
- T-Mobile 5G está vinculando cámaras de IA de detección de incendios forestales para apagar incendios más rápido
- Cómo instalar WordPress en Rocky Linux y AlmaLinux
- 13 Comandos de solución de problemas y configuración de red de Linux
- Clientes de correo electrónico GUI útiles para escritorio Linux
- ¿Por qué utilizar siempre Nginx Con Microcaching?
- Trickle: Limitador de ancho de banda para Linux
- El limitador de ancho de banda para Linux: trickle
- Alexa ha muerto, las 20 mejores alternativas
- El auge y ascenso del WebAssembly
- Servy: un pequeño servidor web para ejecutar un sitio web básico
- Códigos html estados de respuesta del servidor
Comentarios
Me sorprende que escribas eso, arriba ves el código y una explicación de cómo funciona. Evidentemente desde un Linux. Si no tienes Linux, deberás hacerlo correr desde la consola de tu sistema, y "python", deberá estar en el path para poder ejecutarse.
Suscripción de noticias RSS para comentarios de esta entrada.