Cómo construir mejores footprints para scrapear datos

Cristian
Cristian

Hola a [email protected],
Hagamos algo cortito y al pie (a no!! esto es del lobo carrasco en su sección para el mundodeportivo xD). Fuera bromas, os traigo algo fácil de entender para los semi-nuevos (me costó una barbaridad integrar que son los footprints) y que algun@ puede que no lo tenga en cuenta. ¡Empecemos!

El scraping eficiente de Google a través de footprints es posiblemente una de las mejores habilidades que puede tener un SEO. Sin embargo, no solo extrae cualquier dato antiguo, sino que puedes profundizar y encontrar hasta el último bit de lo que estás buscando.

Construir Footprints

Voy a trabajar a través de un ejemplo y scrapear la «superficie» para mostrar que difícil puede ser😝. Digamos que estoy tratando de encontrar blogs de SEO que hayan escrito sobre «Scrapebox».

Voy a comenzar con mi operador favorito, inurl:

inurl: scrapebox

Ok, tenemos algunos resultados ya sobre Scrapebox, pero queremos blogs de SEO. Vamos afinar más.

inurl: scrapebox «by»

Agregué «by» porque eso es muy común en los blogs antes del nombre del autor. Incluso podríamos agregar «blog» o «comentarios» ya que muchas personas también tienen ese texto en la web.

inurl: scrapebox «by» «blog» o inurl: scrapebox «por» «Comentarios»

Por último, no queremos que nos aparezca la web oficial de Scrapebox.com, así que terminemos dando el toque final.

inurl: scrapebox «by» -scrapebox.com
Nota: No te preocupes, Google te enviará un captcha cada 2 segundos a día de hoy. Solventalo y pasa este ligero trámite.

Modifica las fechas y los resultados que te muestra Google

También podríamos manipular el rango de fechas hasta el año pasado únicamente, por ejemplo. Y no olvidemos añadir scrapebox.com y ponerlo en ahrefs. Puedes exportar todos los enlaces y filtrar los foros y la m____a, luego excluir cada URL que contenga «ScrapeBox», y analizarlos para construir aún más Footprints para tratar de tener todo lo que nos falta con nuestra footprint actual o replicar enlaces😎.

Recuerda prestar atención al número de resultados que se devuelven en Google. Si el número es inferior a unos pocos miles, tu huella (footprint) es MUY específica. Si los resultados son de varios millones, es probable que la huella sea demasiado amplia. Encentra el punto óptimo, luego combina las palabras del diccionario y detén las palabras para profundizar en la consulta y extraer aún más resultados.

inurl: scrapebox «por» «mi» -scrapebox.com inurl: scrapebox «por» «the» -scrapebox.com inurl: scrapebox «by» «etc.»-scrapebox.com inurl: scrapebox «by» «me» -scrapebox.com

Solía usar una lista realmente grande de palabras vacías pero luego la reduje a las más populares con «» coincidencia exacta de los resultados de Google. Puedes tener palabras populares de detención gratis si lo quieres (Te dejo el descargable a cambio de un poquito de ayuda😇). Siempre las tengo a mano en mi escritorio para fusionarlos en un raspado.

[sociallocker id=»637″] [/sociallocker]
[signinlocker id=»655″] [/signinlocker]

Además, si solo estás haciendo un scrpeo rápido o no tienes ningún proxy a mano. Todo lo que tiene que hacer es colocar tu configuración para mostrar 100 resultados.

Luego, simplemente haz clic en el marcador para obtener cada página de 100 resultados. Lo he usado varias veces, es bastante útil.

Todo lo que se necesita es practicar y aprender, entonces serás un maestro de la extracción de datos en poco tiempo. Si quieres que te ayude en la construcción de algunas huellas más, simplemente comenta a continuación con una idea. Luego intentaré agregarlo a la publicación.

Hasta entonces, feliz scraping😁

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

scrapebox, tutobox, scrapebox hispano