El archivo robots.txt comprende una serie de instrucciones que le indican a los motores de búsqueda qué páginas deben rastrear y cuáles evitar. Esto no supone, sin embargo, que las páginas se mantengan fuera del índice de Google. ¿Y por qué es tan importante el archivo robots.txt? ¿Tiene algún impacto para el SEO de tu web? ¡Te lo cuento en este artículo!
¿Qué es el archivo robots.txt?
Un archivo robots.txt se utiliza en una web, como ya mencioné, para comunicar instrucciones a los motores de búsqueda sobre cómo deben interactuar con el contenido del sitio. El archivo se aloja en la raíz del dominio, por ejemplo, https://tuweb.com/robots.txt y forma parte del protocolo de exclusión de robots.
Este archivo es esencial para la gestión de un sitio. Estos son los beneficios más notables:

- Restringe el acceso a ciertas áreas del sitio. El archivo robots.txt le indica a los buscadores qué páginas o directorios no deben rastrear. Esto protege información confidencial y evita, a su vez, que el contenido duplicado sea indexado.
- Optimiza el presupuesto de rastreo. Con este archivo, los motores de búsqueda se centran en las páginas que son importantes para el sitio y se excluye a aquellas que no son relevantes para la indexación.
- Evitar la indexación de contenido duplicado. Robots.txt permite bloquear versiones alternativas de páginas, algo que, sin duda, quieres evitar por cuestiones de SEO y posicionamiento.
- Probar configuraciones antes del lanzamiento. Los desarrolladores de una web pueden utilizar este archivo para evitar que un sitio, que se encuentra en pleno desarrollo, sea rastreado e indexado por Google antes de estar listo.
Componentes del archivo robots.txt
El archivo utiliza una sintaxis muy simple en la que se incluye:
- User-agent. Especifica a qué motor de búsqueda o rastreador se aplican las reglas. En este sentido, puede ser general (*) o específico, como Googlebot, que se utiliza para Google.
- Disallow. Sirve para indicar qué rutas no deben rastrearse.
- Allow. Permite definir excepciones dentro de las reglas de exclusión.
- Sitemap. Le informa a los motores de búsqueda sobre la ubicación del archivo sitemap de la web.
Diferencias entre robots.txt, meta robots y x-robots
Al hablar del archivo robots.txt no puedo pasar por alto otros términos que son bastante similares y que pueden crear confusión si estás iniciándote en esto del marketing digital y la programación. Aquí entran en juego los meta robots y la etiquetas x-robots. Básicamente, los tres se encargan guiar a los motores de búsqueda en el manejo del contenido de una web, pero guardan diferencias entre sí en lo que a nivel de control y localización respecta.
El archivo robots.txt se encuentra, como ya adelanté, en el directorio raíz de una web. Su objetivo es proporcionar instrucciones para toda la web a los rastreadores de los motores de búsqueda y sobre qué áreas del sitio deben rastrearse y cuáles no. Por su parte, las etiquetas meta robots son fragmentos de código que se encuentran en la sección de páginas individuales; sirven para proporcionar instrucciones específicas de la página a los buscadores.

Por último, las etiquetas x-robot también son fragmentos de código que se utilizan, por lo general, para archivos que no son HTML. Por ejemplo, en documentos PDF e imágenes. Estas etiquetas se colocan en el encabezado HTTP de cada archivo.
¿Por qué es tan importante el archivo robots.txt para el SEO de una web?
Está claro que, si tienes una web, que esta sea visible para tu público objetivo es esencial. Es decir, que los usuarios a los que quieres llegar la encuentren fácilmente. ¿Cuál es el papel de robots.txt en todo esto? Básicamente, el archivo ayuda a administrar las actividades de los rastreadores para evitar que estos sobrecarguen tu página y rastreen (e indexen), las que no quieres que los usuarios visiten.
Yo te recomiendo incluir el archivo robots.txt dentro de tu sitio porque ofrece múltiples beneficios, aunque su comprensión, al principio, puede ser un poco liosa.
Optimiza el presupuesto de rastreo
Robots.txt bloquea páginas innecesarias y, por lo tanto, el rastreador de Google puede dedicar más presupuesto de rastreo en páginas que importan y que deseas que tu público objetivo visite. El presupuesto de rastreo (crawler budget), es la cantidad de páginas que Google rastrea en tu sitio en un período de tiempo específico. Este presupuesto varía en función del tamaño, la salud de tu web y la cantidad de backlinks de tu página.
Para que te hagas una idea, cuando tu sitio tiene más páginas que su presupuesto de rastreo, algunas de estas pueden no indexarse por parte de Google. Por lo tanto, estas páginas no se clasificarán y los usuarios no podrán verlas en las SERP.
Bloquea páginas duplicadas
No todas las páginas creadas tienen el objeto de mostrarse a los usuarios. Y, precisamente, el archivo robots.txt te permitirá bloquearlas para que los rastreadores no las indexen. Un claro ejemplo son las páginas de prueba, las de contenido duplicado y las de inicio de sesión. En este último caso, por ejemplo, WordPress no permite la página de inicio de sesión «wp-admin», para todos los rastreadores.
Por otra parte, no pierdas de vista que el contenido duplicado puede llevar a la canibalización de palabras clave. Es decir, que dos páginas compitan entre sí por posicionarse en Google. Esto tiene efectos negativos para el SEO de tu web.
Oculta tus recursos
Incluir el archivo robots.txt te permitirá excluir algunos recursos como imágenes, vídeos o archivos PDF en caso de que quieras mantenerlos privados. Por ejemplo, cuando se trata de contenido exclusivo para suscriptores.
El funcionamiento del archivo robots.txt
Ya sabes que el archivo robots.txt le indica a los rastreadores qué URL deben rastrear y cuál no. Los rastreadores funcionan con robots que son los encargados de buscar las páginas, descubrirlas y seguir enlaces, llevando al robot de un sitio a otro, pasando por varias páginas. Cuando el robot se encuentra con el archivo robots.txt, lo lee antes de hacer el rastreo.

Al archivo se asignan reglas que identifican al agente de usuario, es decir, el robot del motor de búsquedas y, además, se especifican una serie de reglas. Como ya mencioné, es posible utilizar un asterisco para asignar reglas a todos los agentes de usuario a la vez.
Quiero destacar que aunque el archivo proporciona indicaciones, no puede hacerlas cumplir. Los bots de los motores de búsqueda cumplirán las reglas, pero no así los bots de spam, que las ignoran.
¿Dónde se encuentra el archivo robots.txt?
Al igual que otros archivos de tu sitio, robots.txt se encuentra en tu servidor. Verlo es muy sencillo, solo tienes que escribir la URL de inicio de tu web en el navegador y añadir la coletilla «/robots.txt». Eso sí, es muy importante colocarlo en el dominio de raíz, pues, de lo contrario, los rastreadores podrían concluir que no tienes el archivo y comenzar a rastrear e indexar todas las páginas, incluso las que no deseas.
Creación de un archivo robots.txt
Genera un archivo
El primer paso es abrir un documento .txt en un editor de texto o en el navegador web. Es importante no utilizar un procesador de textos porque pueden guardar los archivos en otro tipo de formatos. El archivo debe nombrarse, literalmente, «robots.txt».
Añade indicaciones al documento
Como ya mencioné, el archivo robots.txt contiene una serie de indicaciones que son las que siguen los rastreadores. Estos son grupos de directrices y cada grupo está formado por varias líneas. Cada uno de estos grupos debe comenzar con un agente de usuario y se especifica a quién se aplica dicho grupo (agente), a qué directorios, páginas o archivos debe acceder el agente; también se determina a qué directorios no debe acceder, así como el mapa de sitio para indicarle al motor de búsqueda qué páginas y archivos se consideran importantes.
Un ejemplo, si no quieres que Google vea a tus clientes, sería así:
- User-agent: Googlebot
- Disallow: /clients/
La idea es ir añadiendo indicaciones de lo que Google puede y no rastrear e indexar. Es importante presionar «Enter» dos veces para comenzar con un nuevo grupo de indicaciones dentro del archivo, incluyendo el mapa de sitio. Ya solo te queda guardar el archivo.
Subir el archivo
Una vez que se ha creado el archivo robots.txt es momento de subirlo a tu sitio web para que los motores de búsqueda puedan encontrarlo. El proceso de carga del archivo depende del entorno del hosting que tengas contratado y, en este sentido, lo más recomendable, si es la primera vez que haces esto, es ponerte en contacto con tu proveedor. Cuando ya hayas subido el archivo, confirma que este sea accesible y que Google pueda leerlo.

Prueba tu archivo robots.txt
El siguiente paso es verificar que cualquiera puede ver el archivo que has creado. Para ello, es recomendable abrir una ventana privada en tu navegador web e ingresar la URL de tu sitio, terminando con la coletilla /robots.txt.
Para facilitarte las cosas, Google ofrece dos opciones para hacer estas pruebas. La primera es consultar en Search Console el informe «robots.txt»; la segunda, es utilizar un código abierto, pero se trata de una opción avanzada. Si no eres un experto en la materia y quieres que todo sea más fácil, yo te recomiendo mirar en Search Console. Es indispensable, en este caso, que tu cuenta esté configurada para poder probar el archivo.
A estas alturas, estoy seguro de que ya tienes más que configurada tu cuenta en GSC, así que solo te queda elegir en el menú desplegable el archivo en cuestión. La herramienta de Google te informará de posibles errores de sintaxis y te dará algunas advertencias. Si tienes que hacer modificaciones, es importante que estas las guardes en el documento real, pues no se guardan en el documento activo de tu web. Es decir, tienes que hacer un copy paste de las modificaciones en tu archivo original.
Errores comunes con los archivos robots.txt
Crear un archivo robots.txt puede parecer todo un reto, especialmente si no estás familiarizado con los términos. Hay algunos errores muy habituales a la hora de generar este documento y que deberías evitar a toda costa:
- No incluir el archivo en el directorio raíz de tu sitio. Si no lo incluyes aquí, los rastreadores no podrán encontrarlo con facilidad.
- Usar las instrucciones noindex. Se trata de una indicación que Google no admite, pero que sí admiten otros motores de búsqueda. En este caso, lo mejor es utilizar etiquetas meta robots en páginas individuales. De esta manera podrás controlar la indexación.
- Bloqueo de JavaScript y CSS. Lo más aconsejable es evitar bloquear el acceso a los archivos JavaScript y CSS, a menos que sea necesario. Si haces este bloqueo, dificultas al buscador que comprenda la estructura de tu web, así como su contenido, cosa que afecta a la clasificación.
- Impide a los motores de búsqueda que rastreen versiones inacabadas de tu web antes de que la pongas en marcha. Cuando los rastreadores indexan una página que no está terminada o que está en fase de desarrollo, es posible que se genere una UX negativa y aparezcan problemas de contenido duplicado.
- Utiliza URL relativas en el archivo robots para que la administración y mantenimiento sea más fácil.
- Mantén el archivo libre de errores, es decir, optimízalo para evitar problemas de rastreo, indexación y clasificación.


