Sitemap Scraper Addon – ScrapeBox
Contenido
Te enseño como extraer URL’s a partir del sitemap (disponible) de cualquier web.
Este complemento lo tenemos en ScrapeBox de manera gratuita. Lo encontraremos en Addons -> Show available Addons -> ScrapeBox Sitemap Scraper.
Scrapeando Sitemap
Hola de nuevo y ya estoy aquí para traer más características de nuestro scraper SB. Antes de empezar con este tutobox quiero comentar que he adquirido hoy (fecha de publicación del post) un vps de seo que da miedo de la cantidad de herramientas que trae 😀 😀 . No quiero subir mucho el hype pero es flipante y solo por 37$ aprox… ¡UNA LOCURA!
Hay un vídeo en noseseo dónde @KuunIsHere hace un pequeño tour por el vps, prometo (mano en los hue___) que traeré contenido de otras herramientas que hay (más de 300) e intentaré hacer tutobox interesantes para todos. Es una web para sacarle el máximo partido a ScrapeBox pero no seamos necios y hablemos de las muchas herramientas que existen y se complementan estupendamente en el SEO.
Así que después de este pequeño «hype» comenzamos con el Addon.
Tutobox
Este addon te permite recoger todas las URLs contenidas en el XML de un sitio como alternativa al scraping de las páginas indexadas de Google con el operador «site:.» . También tiene una función adicional de «scrape profundo» que visita todas las URL del mapa del sitio y extrae las URL de esas páginas, lo que permitirá descubrir otras URL no presentes en el mapa del sitio.
Dentro de este addon tenemos la posibilidad de configurar los diferentes «Useragent» disponibles además de configurar los proxys y sus conexiones.
Paso 1 Introducimos la web
Es momento de introducir el sitio o los sitios que quieras buscar su sitemap y por conisguiente sacar las url de estos.
Paso 2 Scrapeando el mapa del sitio
Seguimos, ahora ya tenemos los sitios elegidos y vamos abrir el addon y cargaremos las url, tienes 3 maneras para cargar las url:
- Cargando un archivo.
- Cargando desde URL’ Harvester.
- Copiando y pegando.


Ya veis que he añadido diferentes sitios para que podáis ver la variabilidad de sitios con los cuales se puede scrapear el mapa del sitio. En otro post anterior mencioné como encontrar el «sitemap» de un sitio haciendo unas búsquedas avanzadas en Google, si no sabes de lo que te hablo te lo dejo a continuación.
Opción 1: Introduce "robots.txt" a la url de la web a scrapear, para sacar la url del sitemap.
Opción 2: Introduce en google site:paginaascrapear.com inurl:sitemap
Opción 3: Introduce en google site:paginaascrapear.com inurl:xml
Pero todavía hay un extra para los más vagos xD. El propio addon tiene la opción de acortar cualquier URL hasta el nombre del dominio y añadir la coletilla de «sitemap.xml», ¡ya ves que rápido!
Paso 3 ¿Y ahora qué?
¡No entres en crisis y dale a la almendra!
He dicho muchísimas veces que SB tiene casi infinidad de funciones para todos nosotros, lo único es pensar con la almendra y sacar el aceite que tiene dentro cuando la moles…
Puedes utilizar filtros de palabras clave para decidir que url extraer y cuales no, también te ayudará a quitarte un montón de basura scrapeada como: imagenes, calendarios, archivos, tag…
Otra de las cualidades es buscar por http o https, esto es interesante si quieres scrapear tu sitio en busca de url que no contienen el certificado SSL.
Paso 4 Exportación de las url
Extrae las url haciendo clic en «Show download folder»


Una vez extraídas las URL del mapa del sitio, verás que tienes un .txt preparado para que empieces a trabajar con el, ya sea dentro de Scrapebox o en un Excel e incluso lo vuelques en otra herramienta como un indexador si de tu web se trata.
Paso extra para usar en ScrapeBox
Si quieres usar estas url dentro de SB junto con los diferentes addon que hay, te dejo algunas cosas que puedes hacer.
- Comprobar el Pagerank de todas las URL.
- Crear un mapa del sitio en HTML.
- Extraer los Títulos, Descripciones y Palabras Clave de las páginas.
- Comprobar las fechas de la caché de Google o incluso escanear la lista en el addon de comprobación de malware de ScrapeBox para asegurarse de que todas tus páginas están limpias.
Ya has visto como crawlear sitios a partir de su sitemap, decirte que esta práctica se usa mucho más ahora (fecha del post) que las web automáticas están a la alza. Aún así, es muy interesante este addon por que puedes conseguir infinidad de cosas con el mapa del sitio de una web.
Espero que te haya servido este tutobox básico del Sitemap Scraper addon y empieces hacer pruebas y haber las diferentes posibilidades que hay.