Cómo construir mejores footprints para scrapear datos
Hola a [email protected],
Hagamos algo cortito y al pie (a no!! esto es del lobo carrasco en su sección para el mundodeportivo xD). Fuera bromas, os traigo algo fácil de entender para los semi-nuevos (me costó una barbaridad integrar que son los footprints) y que algun@ puede que no lo tenga en cuenta. ¡Empecemos!
El scraping eficiente de Google a través de footprints es posiblemente una de las mejores habilidades que puede tener un SEO. Sin embargo, no solo extrae cualquier dato antiguo, sino que puedes profundizar y encontrar hasta el último bit de lo que estás buscando.
Construir Footprints
Voy a trabajar a través de un ejemplo y scrapear la «superficie» para mostrar que difícil puede ser😝. Digamos que estoy tratando de encontrar blogs de SEO que hayan escrito sobre «Scrapebox».
Voy a comenzar con mi operador favorito, inurl:
inurl: scrapeboxOk, tenemos algunos resultados ya sobre Scrapebox, pero queremos blogs de SEO. Vamos afinar más.
inurl: scrapebox «by»Agregué «by» porque eso es muy común en los blogs antes del nombre del autor. Incluso podríamos agregar «blog» o «comentarios» ya que muchas personas también tienen ese texto en la web.
inurl: scrapebox «by» «blog» o inurl: scrapebox «por» «Comentarios»Por último, no queremos que nos aparezca la web oficial de Scrapebox.com, así que terminemos dando el toque final.
inurl: scrapebox «by» -scrapebox.comModifica las fechas y los resultados que te muestra Google
También podríamos manipular el rango de fechas hasta el año pasado únicamente, por ejemplo. Y no olvidemos añadir scrapebox.com y ponerlo en ahrefs. Puedes exportar todos los enlaces y filtrar los foros y la m____a, luego excluir cada URL que contenga «ScrapeBox», y analizarlos para construir aún más Footprints para tratar de tener todo lo que nos falta con nuestra footprint actual o replicar enlaces😎.
Recuerda prestar atención al número de resultados que se devuelven en Google. Si el número es inferior a unos pocos miles, tu huella (footprint) es MUY específica. Si los resultados son de varios millones, es probable que la huella sea demasiado amplia. Encentra el punto óptimo, luego combina las palabras del diccionario y detén las palabras para profundizar en la consulta y extraer aún más resultados.
inurl: scrapebox «por» «mi» -scrapebox.com inurl: scrapebox «por» «the» -scrapebox.com inurl: scrapebox «by» «etc.»-scrapebox.com inurl: scrapebox «by» «me» -scrapebox.comSolía usar una lista realmente grande de palabras vacías pero luego la reduje a las más populares con «» coincidencia exacta de los resultados de Google. Puedes tener palabras populares de detención gratis si lo quieres (Te dejo el descargable a cambio de un poquito de ayuda😇). Siempre las tengo a mano en mi escritorio para fusionarlos en un raspado.
Además, si solo estás haciendo un scrpeo rápido o no tienes ningún proxy a mano. Todo lo que tiene que hacer es colocar tu configuración para mostrar 100 resultados.
Luego, simplemente haz clic en el marcador para obtener cada página de 100 resultados. Lo he usado varias veces, es bastante útil.
Todo lo que se necesita es practicar y aprender, entonces serás un maestro de la extracción de datos en poco tiempo. Si quieres que te ayude en la construcción de algunas huellas más, simplemente comenta a continuación con una idea. Luego intentaré agregarlo a la publicación.
Hasta entonces, feliz scraping😁