Email Scraper – ScrapeBox
Contenido
Extractor de correo electrónico
Este complemento (Email Scraper – ScrapeBox) lo tenemos en ScrapeBox de manera gratuita. Lo encontraremos en Manage Lists -> Grab/Check -> Grab emails from Local List/ Grab emails by Crawling Sites.
¿Necesita extraer las direcciones de correo electrónico de las páginas web y no sabes cómo hacerlo o no tienes una herramienta que sea capaz de hacerlo?
ScrapeBox tiene la capacidad de hacer scraping en los dominios a los que hemos recopilado a través de keywords, añadiendo una listado de url al «URL harvested» o añadiendo un .txt con URL’s.
En SB está integrado un potente extractor de correo electrónico multihilo que puede recolectar direcciones de correo electrónico de páginas web, también tiene soporte de proxy por lo que a cada solicitud se le asigna aleatoriamente un proxy de la lista para mantener tu identidad oculta o evitar que los sitios te bloqueen por dirección IP debido a demasiadas consultas.
El recolector de correo electrónico ScrapeBox también funciona con URLs https, por lo que puedes trabajar con sitios como FaceBook y Twitter que requieren una conexión segura. También tiene una opción de agente de usuario ajustable (spider), que puede establecer el agente de usuario a Googlebot para trabajar con sitios como SoundCloud.com o puedes establecerlo como un navegador normal e incluso un dispositivo móvil para la compatibilidad con la mayoría de los sitios.
Exportar emails de ScrapeBox.
Al exportar también tienes la opción de guardar la URL junto con la dirección de correo electrónico extraída para saber de dónde procede cada correo electrónico, así como opciones de filtrado para extraer sólo correos electrónicos específicos. Esta última parte es importante ya que, a medida que vamos extrayendo emails, muchas veces nos encontraremos con emails que sabemos que no son válidos como por ejemplo [email protected]. Lo mejor es ir añadiendo después de cada extracción, aquellos emails no válidos, de esta manera a medio/largo plazo tendremos un potente filtrado de emails NO VÁLIDOS, que nos ahorrarán tiempo a la hora de hacer una segunda limpieza o subirlos a nuestro proveedor de email marketing.
Multihilo, tiempo de espera y base de datos.
Debido a que la función Email Grabber es multihilo, también puedes seleccionar el número de conexiones simultáneas así como el tiempo de espera, por lo que puedes configurarlo para cualquier tipo de conexión, independientemente de si tienes un servidor potente o una conexión doméstica. Otra cosa destacable que el capturador de correo electrónico puede hacer es extraer los correos electrónicos de los archivos almacenados localmente en su ordenador, si tiene un archivo .txt o una base de datos .sql que contenga diversa información junto con los correos electrónicos, puede simplemente cargar el archivo en ScrapeBox y éste extraerá todos los correos electrónicos del archivo.
Como ya sabemos, en keyword harvester podemos introducir «x» palabras clave para encontrar URL’s y seguidamente subir todas esas URL al extractor de emails.
Introduce una URL manualmente y configura la profundidad.
Hay una opción relativamente «nueva» que da la posibilidad de introducir un sitio web y extraer los correos electrónicos mediante el rastreo de ese sitio que has introducido.
Otra opción muy importante es «la profundidad» de rastreo de correos en los sitios que ScrapeBox va hacer scraping. Lo que hará la tool es, rastrear los correos electrónicos y todos los enlaces internos de la página principal del sitio, y luego visitará cada una de esas páginas encontrando todos los correos electrónicos y recuperando los enlaces internos de esas páginas y así sucesivamente. Esto le permite desglosar exactamente los correos electrónicos de un sitio web específico.
Hasta aquí la información básica del extractor de email de ScrapeBox. Hemos visto que tenemos una herramienta muy muy potente para extraer correos publicados en los sitios web. Si los correos electrónicos no están publicados en las páginas, puedes utilizar el addon Whois Scraper incluido para scrapear el correo electrónico del registrante del dominio y los detalles de contacto.