Factores que afectan al rastreo de tu Web
Acaban de publicar en el blog de Google un análisis pormenorizado de los factores que afectan al rastreo por parte de su buscador.
Estos factores, realmente son una luz que ilumina qué es lo que debemos hacer cuando publicamos un nuevo artículo; cuando damos contenido a nuestas páginas o, cómo cambiar las que ya tenemos circulando por Internet, para facilitar la llegada de visitas orgánicas, esas que llegan cuando un usuario realiza una búsqueda.
Lo cierto es que es un documento muy clarificador.
Si no quieres que todo tu trabajo realizado en tus páginas se vaya al traste, convendría que leyeras su contenido.
Véamoslo…
El Crawl Budget. Concepto: Crawl rate limit o límite de la tasa de rastreo
Los buscadores cuentan con unos recursos (físicos y temporales) que deben emplear de la mejor manera posible. Por ello, asignan un tiempo determinado y concreto para realizar esa tarea de la que venimos hablando: el rastreo.
Es decir, cuando el robot del buscador analiza cada página, lo hace por un tiempo tasado, eso es lo que se conoce como «crawl budget«.
Dependiendo del resultado que obtenga cuando rastrea tu página, si la considera apropiada, accesible, si es rápida en la carga, si no muestra errores del servidor o de otra índole, le dedicará más o menos tiempo, y eso traerá como consecuencia que tu página tenga más o menos tráfico orgánico. Es lo que se conoce como ‘límite de la tasa de rastreo‘.
Lógicamente, a mayor tiempo rastreando tu web, mejores resultados.
Y, aquí llega la ‘gracia’. Si tu sitio no es rastreado lo suficiente, es muy probable que muchas de tus páginas no queden bien indexadas por el buscador, el robot de Google, el Googlebot pase de largo y no vea tus actualizaciones. En definitiva, que todo tu trabajo no obtenga resultados.
La importancia del rastreo
Es fácil llegar a la conclusión de que el rastreo es importante para Google.
- En primer lugar, solo con visitar las ‘herramientas» en la Google Search Console, veremos que la primera página que aparece cuando accedemos es, precisamente, la correspondiente al Estado actual de tu sitio –> «Errores de Rastreo«. No es casual que esa sea la primera página que podrás ver en el panel de control.
- Por otra parte, si lo pensamos, ese rastreo es la primera oportunidad que tenemos para que los buscadores nos vean, comprendan nuestras intenciones y, finalmente, nos indexen con ‘cariño‘.
El análisis de Google, que siguen el resto de buscadores
Vayamos ahora, punto por punto, viendo en qué consiste este rastreo, no sin antes indicar que Google, en su informe, indica que este asunto no debe quitar el sueño a los webmaster o a los propietarios de páginas Web, sobre todo porque dicen que su robot realiza la tarea de rastreo de una manera eficiente.
No obstante, una tarea lleva a otra y, bajo mi punto de vista, sí es más que interesante, reparar en toda esta cuestión porque nos ayudará a mejorar el posicionamiento, sí o sí.
1. El primer punto: Según este análisis que nos presenta Google, tener muchas URL de bajo valor añadido puede afectar negativamente el rastreo y la indexación de un sitio.
En este sentido, lo que queda claro -una vez más- es que el contenido sigue siendo el ‘rey’, y que si las imágenes, videos, infografías o los textos que decoran nuestras páginas no son interesantes para algún sector del público, pasarán desapercibidas; primero para los robots de Google, Bing, Yahoo… y, por último, y en consecuencia, para el público internauta.
2. En aquellos casos en los que el robot pueda ser confundido, sin intención por parte del webmaster (por ejemplo en ecommerce, páginas de venta de productos donde varias url pueden llevar idénticos contenidos).
En este caso, se recomienda ser claros con las categorías indicadas y que exista una ruta clara a todas las páginas que conducen al producto en cuestión.
3. Contenido duplicado. Evita tener dos páginas con el mismo contenido. Sobre este asunto, también en las herramientas de Google a las que me refería anteriormente podemos ver si tenemos contenido duplicado en nuestros sitios.
Cuidado con el contenido duplicado
4. Igualmente, las páginas hackeadas son evitadas por el Googlebot. Como no podía ser de otra forma.
5. Espacios Infinitos. Así denominado a aquellos enlaces que no proporcionan contenido nuevo para que sea indexado. El rastreo de esos enlaces puede provocar que el tiempo que Googlebot le dedica a tu sitio sea concentrado en esa tarea, dejando de lado lo que realmente interesa, que indexe el nuevo contenido.
6. Y, como no podía ser de otra forma, el contenido de baja calidad y el spam.
7. Utilizar muchos recursos como CSS y JavaScript, obligan a realizar tasas de rastreo que consumen parte del tiempo dedicado a dicho rastreo de un sitio, por lo que hay que observar esta parte de la programación.
¿Qué páginas Web son más o menos rastreadas?
En este punto encontramos que son más rastreadas:
- Aquellas páginas que gozan de mayor ‘popularidad’. (Cría fama…)
- Y, menos rastreadas, aquellas paginas que se quedan obsoletas. Por ejemplo, una noticia en un periódico de hace x años. No es que no sea rastreada, pero si no se operan cambios sobre ellas, lo será menos que las noticias actuales.
En base a estos criterios, el algoritmo será programado para que esté más o menos tiempo en tu sitio, observando qué has publicado y tomando la decisión de ubicarlo en un resultado de la búsqueda determinado.
Parece cierto que una tasa de rastreo incrementada no necesariamente llevará a mejores posiciones en los resultados de búsqueda.
Google utiliza cientos de señales para clasificar los resultados, y mientras que el rastreo es necesario para estar en los resultados, no es una señal de clasificación, pero seguro que ayuda.
¿Y qué hay de los enlaces nofollow, son rastreados?
Pues no queda claro qué ocurre con los enlaces nofollow. Google se despacha con un «depende», aunque luego, dice que «incluso si su página marca una URL como nofollow, todavía se puede rastrear si otra página de su sitio o cualquier página de la web no etiqueta el enlace como nofollow».
Las políticas sobre este asunto siguen siendo las mismas que emplea Google desde 2009, según concluye su informe.