en indexación

¿Qué ha cambiado en el uso de asteriscos en el robots.txt para Google?

Tweet about this on TwitterShare on LinkedInShare on FacebookShare on Google+

Actualización del 22/05/2016

 

 

Actualización 22/05/2016 Google ha actualizado la herramienta de Google Search Console y ya no aparece el error al poner el asterisco delante de cada regla. El resumen es que se recomienda empezar todas las reglas del robots.txt con “/” aunque Google también interpreta sin problemas si empezamos una regla con asterisco.

 

 

Esta semana un twit de Jhon Mueller hacía a los Seos plantearse si Google había realizado algún cambio en como interpreta el asterisco en los archivos robots.txt y si podríamos tener algún problema de indexación en los portales. Voy a intentar explicar lo que ha pasado y lo que para mi si ha sido un cambio en como google interpreta el archivo robots.txt.

En su comentario Jhon Mueller dice que siempre se tiene que empezar cualquier regla  disallow o allow en el robots.txt con slash “/” y Lino Uruñuela hace un gran análisis en este post con la herramienta de Google Search Console de las cosas que nos pueden pasar si empezamos una regla sin “/” al principio de su declaración. Os recomiendo leerlo antes de seguir con este post.

Es interesante que Lino comenta como según las revisiones del histórico de directivas de Google nos podemos cerciorar de que siempre a dicho que esto es así, incluso si nos retomamos a copias de varias años atrás. Siempre hay que empezar con “/” al principio y si no lo hacemos estamos incumpliendo la directiva de uso del robots.txt y podemos tener problemas.

¿Entonces ha sido una aclaración por parte de Jhon Mueller o un cambio en Google?

Yo lo entiendo como un cambio de Google ya que pese a que en sus directrices siempre ha dicho que tenemos que empezar cualquier regla con “/” hasta ahora si que entendía el uso de un asterisco al principio de la directiva disallow como “cualquier cosa”.

Ejemplo: Si nosotros queríamos evitar el rastreo de todas las paginaciones de nuestro blog de wordpress podíamos añadir esta línea que funcionaba perfectamente:

User-agent: *

Disallow: */page/

y aquí esta el cambio, ahora si añadimos esta linea Google no lo reconoce como vemos en este ejemplo:

Captura

 

 

Si nos vamos a otro buscador como Yandex vemos que si lo interpreta (como antes lo hacía Google).

Captur4a

Siguiendo con el ejemplo, realmente lo correcto para bloquear el rastreo de todas las paginaciones de nuestro wordpress estén en cualquier posición dentro de nuestra estructura de carpetas tendríamos que poner esta doble regla:

Disallow: /page/

Disallow: /*/page/

Desaconsejo el uso de esta variante:

Disallow: /*page/

Con esta opción podríamos bloquear un post que termine en “tag” y no solo la carpeta.

La opción de poner Disallow: */page/ nunca ha sido correcta pero Google antes si la reconocía, ahora no.

Lo que yo revisaría tras este cambio:

Podemos tener dos casos.

1.- Que tengamos una regla del tipo:

Disallow: *tag

o

Disallow:  *tag*

o incluso:

Disallow: tag*

Estas hipotéticamente nos bloquearan toda la web como explica y desarrolla Lino Uruñuela en su post y tendríamos que cambiarlas por su versión con “/”.

2.- Que tengamos una regla del tipo disallow: */tag/ que no nos bloquee todo el portal pero que no este funcionando correctamente por los cambios en Google.

En cualquiera de los dos tendríamos que cambiar las reglas entendiendo que es lo que se pretendía bloquear y pasarlo al formato con slash delante teniendo en cuenta que si queremos bloquear una carpeta que este en cualquier posición dentro de nuestro sitio tendríamos que usar una doble regla:

Disallow: /carpeta/

Disallow:/*/carpeta/

 

Tweet about this on TwitterShare on LinkedInShare on FacebookShare on Google+

Comentarios

Comentario

  1. Acabo de leer el comentario en mi blog… soy un desastre 🙁

    Buen análisis, la verdad es que siempre me he tenido que “pegar” con la tool de robots de GSC para que hiciese lo que yo quería, y hablo desde hace años… y ahora entiendo dónde estaba mi fallo jeje.

    Thanks por la mención, y me apunto el blog que me parece muy interesante 🙂

    Saludos

    • Gracias! un honor que te haya gustado 🙂

      yo también soy un poco desastre 🙁 …

      Saludos!