· Tutorial ·

¿Cómo crear un fichero robots.txt?

¿Cómo crear un fichero robots.txt?

¿Qué es? El fichero robots.txt es un fichero de texto sin formato que debe cumplir el estándar de exclusión de robots.

Puedes crear el fichero con el bloc de notas de Windows y guardarlo con el nombre robots.txt

Este archivo consta de una o varias reglas y cada una de ellas bloquea o permite el acceso de un determinado rastreador a una ruta de archivo concreto de un sitio web.

El archivo robots.txt se utiliza para gestionar el tráfico de los rastreadores a tu sitio.

Se utiliza para evitar que las solicitudes que recibe tu sitio web lo sobrecarguen, con el fichero robots.txt bien configurado, puedes evitar que la velocidad de tu web o incluso del propio Cloud se vea afectado negativamente cuando recibas varias visitas de estos indexadores al mismo tiempo.

¿Qué bloqueamos? Los crawler, también conocido como rastreador araña, robot o bot. Es un programa que analiza los documentos del sitio web. Los motores de búsqueda utilizan rastreadores muy potentes que navegan y analizan los sitios web creando una base de datos con la información recolectada.

¿Qué elementos forman el robots.txt? A la hora de generar el archivo robots.txt, debes tener en cuenta los comandos y las reglas específicas.

Comandos User agent: Es el comando que sirve para especificar los robots/arañas de los motores de búsqueda que permitimos que rastreen nuestra web.

La sintaxis de este comando es: User-agent: (nombre del robot)

(En cada regla debe haber por lo menos una entradaDisallow o Allow)

Disallow: Indica un directorio o una página del dominio raíz que no quieres que el user-agent rastree.

Allow: Indica los directorios o las páginas del dominio raíz que el user‑agent que se haya especificado en el grupo debe rastrear. Sirve para anular la directiva Disallow y permitir que se rastree un determinado subdirectorio o página de un directorio bloqueado.

Una opción es poner un asterisco, esto significa que permites rastrear la web a todos los motores de búsqueda.

User-agent: (*)
Disallow

El siguiente comando es para indicar a los motores de búsqueda que no rastreen, ni accedan ni indexen una parte concreta de la web, como por ejemplo la carpeta wp-admin.

Disallow: /wp-admin/
Allow

Con el siguiente comando indicas lo contrario, marcas a los motores de búsqueda qué es lo que pueden rastrear. En este ejemplo solo permite un fichero de una carpeta específica.

Allow: /wp-admin/admin-ajax.php

Otros elementos a tener en cuenta.

A la hora de añadir elementos para su bloqueo, deberás colocar la barra inclinada (/) a principio y final. El código se puede simplificar. *. El asterisco sirve para bloquear una secuencia de caracteres. $. El símbolo de dólar se emplea cuando quieres bloquear URL’s con una terminación concreta.

Ejemplos de comandos utilizados en robots.txt.

Excluir todos los robots del servidor:

User-agent: *
Disallow: /

Permitir que todos los robots tengan acceso a escanearlo todo:

User-agent: *
Disallow:

Excluir solo un bot, en este caso Badbot:

User-agent: BadBot
Disallow: /

Permitir solo un bot, en este caso Google:

User-agent: Google
Disallow:
User-agent: *
Disallow: /

Excluir un directorio para todos los bots:

User-agent: *
Disallow: /nombre-directorio/

Excluir una página en concreto:

User-agent: *
Disallow: /url-pagina.html

Bloquear las imágenes de la web:

User-agent: Googlebot-Image
Disallow: /

Bloquear una imagen solo para un bot:

User-agent: Googlebot-Image
Disallow: /imagen/bloqueada.jpeg

Excluir un tipo de archivo específico:

User-agent: Googlebot
Dissallow: /*.jpeg$

Excluir URL’s con una terminación determinada:

User-agent: *
Disallow: //pdf$

Estos son ejemplos de uso, utiliza el que se adapte a tus necesidades o crea uno a tu medida.

Una vez creado el fichero robots.txt, súbelo mediante FTP dentro del directorio /tudominio/datos/web/

i