¿Que función tiene el archivo robots.txt?
La función principal es la de impedir que los bots puedan escanear determinadas secciones de nuestro sitio o restringir el acceso a algún archivo en particular.
Antes de escanear un sitio web, los robots siempre consultan el robots.txt.
1º de todo: El archivo robots.text tiene que estar en la raiz de tu sitio.
Las reglas son sencillas:
- User-Agent: Indica el nombre del robot, si no se queriere definir uno en particular se puede aplicar la regla para todos con el *.
- Disallow: URL a bloquear.
Ejemplos rapidos:
Bloquear carpeta de imágenes para que no salga en google images:
User-agent: Googlebot-Image
Disallow: /fotosvacaciones/
Bloquear una carpeta a todos los robots:
User-Agent: *
Disallow: /proyectos/
Bloqueamos la indexacion del robot de google para la carpeta de archivos contables
User-Agent: Googlebot
Disallow: /archivos-contables/
Bloqueamos un pdf concreto para todos los robots.
User-Agent: *
Disallow: /manuales/guia-interna-estilo.pdf
Y para terminar un poco de humor, el archivo robots de la web oficial de la casa real.
Enlace a la base de datos de todos los robots. Hay que tener en cuenta de que no todos los robots hacen lo mismo, no solo indexan información.