Qué es y cómo crear un fichero robots.txt

07/03/2016
Si tienes un sitio web, probablemente tengas un fichero robots.txt . Pero, ¿sabes para qué sirve y cómo utilizarlo?
Bad Robot image by clry2 CC-BY-SA 2.0 https://www.flickr.com/photos/clry2/14708102344

Bad Robot image by clry2 CC-BY-SA 2.0 https://www.flickr.com/photos/clry2/14708102344

¿Qué es un fichero robots.txt?

Es un fichero de texto que se coloca en un sitio web para indicar a los buscadores como Google sobre si deben acceder a tus contenidos.

¿Por qué me debería importar el robots.txt?

  • Si lo utilizas mal puedes perjudicar tu posicionamiento en Google.
  • Puede ser de mucha ayuda para resolver algunos problemas.
  • Todos los buscadores (no sólo Google) leen el robots.txt.
  • Es lo primero que consultan los buscadores al acceder a tu sitio web.

¿Tengo robots.txt en mi sitio web?

Pruébalo tú misma. Basta con escribir en tu navegador la dirección de tu sitio web con /robots.txt por detrás. Así:

http://www.tudominio.com/robots.txt

Por ejemplo, en nuestro caso:

http://www.codesyntax.com/robots.txt

Si el servidor te da un error NotFound o No Encontrado, tampoco deberías preocuparte. El robots.txt no es necesario y en sí no perjudica no tenerlo.

¿Qué significa lo que pone en el robots.txt?

Generalmente el fichero tiene dos instrucciones principales:

User-agent:

Con User-agent se indica para qué buscador estamos determinando las siguientes instrucciones. Podemos poner el nombre en clave de cada buscador que queramos especificar, pero generalmente se pone un asterisco, que significa todos los buscadores.

User-agent: * 

Disallow:

Con disallow indicamos a los buscadores qué es lo que no queremos que visite ni indexe. Se puede especificar un directorio determinado o los ficheros que cumplan un determinado patrón.

Disallow: 

Ésta es la opción más abierta, no prohibimos nada, los buscadores pueden entrar líbremente. Si no tienes nada que ocultar, esta es la opción que deberías tener en tu sitio web.

Si por el contrario quieres ocultar una carpeta determinada, tienes que poner el path o camino a esa carpeta, siempre empezando con la barra inicial ( / ), que significa raíz del sitio web. En este ejemplo, prohibimos el acceso del buscador a la carpeta cosasviejas.

Disallow: /cosasviejas/

¿Por qué interesa tener un robots.txt?

  • Si tienes secciones poco relevantes o duplicadas que no quieres que Google visite.
  • Para no saturar tu servidor con visitas de Google. A veces la combinación de etiquetas en un blog por ejemplo, puede dar lugar a miles de páginas.

Si lo que quieres es ocultar contenidos para que no salgan en Google, es mejor que utilices si es posible otras soluciones, como protección con contraseñas o etiquetas noindex, que se insertan en cada página que no queremos que se indexe.

¿Cómo modificar y cargar mi robots.txt?

Basta con que crees un fichero de texto normal en el Bloc de Notas o la aplicación similar que tengas a mano (no... no sirve con tu Word) y guardes el fichero como robots.txt y lo subas a la carpeta principal o raíz de tu sitio web

Te recomendamos que busques más información sobre el robots.txt para asegurarte, mires los robots.txt de otros sitios web e intentes aprender más. Recuerda que sin querer puedes cerrar el paso a secciones fundamentales de tu sitio web y quedarías fuera de Google en cuestión de días.

Algunos recursos para tu robots.txt

Comentar

Para dejar un comentario tiene que identificarse. Para ello puede utilizar su cuenta de Facebook, Twitter o Google+

Gari Araolaza

Ingeniero, dirección de proyectos. Python, Whitesnake, Scrum, Yngwie Malmsteen.