Sitemap Scraper Addon – ScrapeBox

Cristian
Cristian

Te enseño como extraer URL’s a partir del sitemap (disponible) de cualquier web.

Este complemento lo tenemos en ScrapeBox de manera gratuita. Lo encontraremos en Addons -> Show available Addons -> ScrapeBox Sitemap Scraper.

Caracteristicas de este Addon
  • Incluido gratuitamente con ScrapeBox
  • Conexiones multihilo
  • Soporte de proxy
  • Soporte para Automator
  • Exportación de datos Excel y txt
  • Conexiones ajustables
  • Filtro de URL
  • Soporte de https
  • Scraping profundo

Scrapeando Sitemap

Hola de nuevo y ya estoy aquí para traer más características de nuestro scraper SB. Antes de empezar con este tutobox quiero comentar que he adquirido hoy (fecha de publicación del post) un vps de seo que da miedo de la cantidad de herramientas que trae 😀 😀 . No quiero subir mucho el hype pero es flipante y solo por 37$ aprox… ¡UNA LOCURA!

Hay un vídeo en noseseo dónde @KuunIsHere hace un pequeño tour por el vps, prometo (mano en los hue___) que traeré contenido de otras herramientas que hay (más de 300) e intentaré hacer tutobox interesantes para todos. Es una web para sacarle el máximo partido a ScrapeBox pero no seamos necios y hablemos de las muchas herramientas que existen y se complementan estupendamente en el SEO.

Así que después de este pequeño «hype» comenzamos con el Addon.

Tutobox

Este addon te permite recoger todas las URLs contenidas en el XML de un sitio como alternativa al scraping de las páginas indexadas de Google con el operador «site:.» . También tiene una función adicional de «scrape profundo» que visita todas las URL del mapa del sitio y extrae las URL de esas páginas, lo que permitirá descubrir otras URL no presentes en el mapa del sitio.

Dentro de este addon tenemos la posibilidad de configurar los diferentes «Useragent» disponibles además de configurar los proxys y sus conexiones.

Paso 1 Introducimos la web

Es momento de introducir el sitio o los sitios que quieras buscar su sitemap y por conisguiente sacar las url de estos.

Si haces web Automáticas, esto te puede ayudar mucho para encontrar keywords

Paso 2 Scrapeando el mapa del sitio

Seguimos, ahora ya tenemos los sitios elegidos y vamos abrir el addon y cargaremos las url, tienes 3 maneras para cargar las url:

  1. Cargando un archivo.
  2. Cargando desde URL’ Harvester.
  3. Copiando y pegando.

Ya veis que he añadido diferentes sitios para que podáis ver la variabilidad de sitios con los cuales se puede scrapear el mapa del sitio. En otro post anterior mencioné como encontrar el «sitemap» de un sitio haciendo unas búsquedas avanzadas en Google, si no sabes de lo que te hablo te lo dejo a continuación.

Opción 1: Introduce "robots.txt" a la url de la web a scrapear, para sacar la url del sitemap.
Opción 2: Introduce en google site:paginaascrapear.com inurl:sitemap
Opción 3: Introduce en google site:paginaascrapear.com inurl:xml

Pero todavía hay un extra para los más vagos xD. El propio addon tiene la opción de acortar cualquier URL hasta el nombre del dominio y añadir la coletilla de «sitemap.xml», ¡ya ves que rápido!

La opción está dentro del addon y -> Tools -> Trim to root and add sitemap.xml.

Paso 3 ¿Y ahora qué?

¡No entres en crisis y dale a la almendra!

He dicho muchísimas veces que SB tiene casi infinidad de funciones para todos nosotros, lo único es pensar con la almendra y sacar el aceite que tiene dentro cuando la moles…

Puedes utilizar filtros de palabras clave para decidir que url extraer y cuales no, también te ayudará a quitarte un montón de basura scrapeada como: imagenes, calendarios, archivos, tag…
Otra de las cualidades es buscar por http o https, esto es interesante si quieres scrapear tu sitio en busca de url que no contienen el certificado SSL.

Paso 4 Exportación de las url

Extrae las url haciendo clic en «Show download folder»

Una vez extraídas las URL del mapa del sitio, verás que tienes un .txt preparado para que empieces a trabajar con el, ya sea dentro de Scrapebox o en un Excel e incluso lo vuelques en otra herramienta como un indexador si de tu web se trata.

Te recomiendo que pongas un poco de orden a ese .txt y lo separes diferentes sitios en una hoja de Excel si has crawleado más de una web.

Paso extra para usar en ScrapeBox

Si quieres usar estas url dentro de SB junto con los diferentes addon que hay, te dejo algunas cosas que puedes hacer.

  • Comprobar el Pagerank de todas las URL.
  • Crear un mapa del sitio en HTML.
  • Extraer los Títulos, Descripciones y Palabras Clave de las páginas.
  • Comprobar las fechas de la caché de Google o incluso escanear la lista en el addon de comprobación de malware de ScrapeBox para asegurarse de que todas tus páginas están limpias.
Recuerda: ScrapeBox también cuenta con un creador de mapas del sitio que te permite crear un mapa del sitio a partir de una lista de URL. Te lo explico en otro tutobox

Ya has visto como crawlear sitios a partir de su sitemap, decirte que esta práctica se usa mucho más ahora (fecha del post) que las web automáticas están a la alza. Aún así, es muy interesante este addon por que puedes conseguir infinidad de cosas con el mapa del sitio de una web.

Espero que te haya servido este tutobox básico del Sitemap Scraper addon y empieces hacer pruebas y haber las diferentes posibilidades que hay.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

scrapebox, tutobox, scrapebox hispano