Robots.txt es:

Un archivo simple que contiene componentes utilizados para especificar las páginas de un sitio web que los robots de los motores de búsqueda no deben rastrear (o deben rastrear solo en algunos casos). Este archivo debe colocarse en el directorio raíz de su sitio. El estándar para este archivo se desarrolló en 1994 y se conoce como Robots Exclusion Standard o Protocolo de exclusión de robots .

Algunos conceptos erróneos comunes sobre robots.txt:

  • Impide que el contenido se indexe y se muestre en los resultados de búsqueda.

Si incluyes una determinada página o archivo en un archivo robots.txt pero la URL de la página se encuentra en recursos externos, los robots de los motores de búsqueda aún pueden rastrear e indexar esta URL externa y mostrar la página en los resultados de búsqueda. Además, no todos los robots siguen las instrucciones dadas en los archivos robots.txt, por lo que algunos robots pueden rastrear e indexar páginas mencionadas en un archivo robots.txt de todos modos. Si deseas un bloque de indexación adicional, una meta etiqueta de robots con un valor 'noindex' en el atributo de contenido servirá como tal cuando se use en estas páginas web específicas, como se muestra a continuación:

<meta name=“robots” content=“noindex”>

Lea más sobre esto aquí .

  • Protege el contenido privado.

Si tienes contenido privado o confidencial en un sitio que deseas bloquear de los bots, no dependas solo de robots.txt. Es recomendable utilizar protección con contraseña para dichos archivos, o no publicarlos en línea.

  • No garantiza la indexación de contenido duplicado.

Como robots.txt no garantiza que una página no será indexada, no es seguro usarla para bloquear contenido duplicado en tu sitio. Si utilizas robots.txt para bloquear contenido duplicado, asegúrate de adoptar también otros métodos infalibles, como una etiqueta rel=canonical.

  • Garantiza el bloqueo de todos los robots.

A diferencia de los bots de Google, no todos los bots son legítimos y, por lo tanto, pueden no seguir las instrucciones del archivo robots.txt para bloquear la indexación de un archivo en particular. La única forma de bloquear estos bots no deseados o maliciosos es bloqueando su acceso a tu servidor web a través de la configuración del servidor o con un firewall de red, suponiendo que el bot opera desde una sola dirección IP.

Usos para Robots.txt:

En algunos casos, el uso de robots.txt puede parecer ineficaz, como se señaló en la sección anterior. Sin embargo, este archivo está allí por una razón, y esa es su importancia para el SEO en la página.

Las siguientes son algunas de las formas prácticas de usar robots.txt:

  • Para disuadir a los rastreadores de visitar carpetas privadas.
  • Para evitar que los robots rastreen contenido menos importante en un sitio web. Esto les da más tiempo para rastrear el contenido importante que se pretende mostrar en los resultados de búsqueda.
  • Para permitir que solo bots específicos accedan a rastrear su sitio. Esto ahorra ancho de banda. Los robots de búsqueda solicitan archivos robots.txt de forma predeterminada. Si no encuentran uno, informarán un error 404, que encontrará en los archivos de registro. Para evitar esto, debes utilizar al menos un archivo robots.txt predeterminado, es decir, un archivo robots.txt en blanco.
  • Para proporcionar la ubicación de su sitemap a los bots. Para hacer esto, ingrese una directiva en su robots.txt que incluya la ubicación de su sitemap:

    Sitemap: http://tusitio.com/ubicacion-sitemap.xml 
    

Puedes agregar esto en cualquier parte del archivo robots.txt porque la directiva es independiente de la línea user-agent. Todo lo que tienes que hacer es especificar la ubicación de tu sitemap en la parte de ubicacion-sitemap.xml de la URL. Si tienes varios sitemaps, también puedes especificar la ubicación de tu archivo de índice de sitemap. Obtenga más información sobre sitemaps en nuestro blog en XML Sitemaps .

Ejemplos de archivos Robots.txt:

Hay dos elementos principales en un archivo robots.txt: User-agent y Disallow.

User-agent: el user-agent se suele representar con un comodín (*) que es un signo de asterisco que significa que las instrucciones de bloqueo son para todos los bots . Si deseas que ciertos bots sean bloqueados o permitidos en ciertas páginas, puedes especificar el nombre del bot en la directiva de user-agent.

Disallow: cuando no se especifica nada, significa que los robots pueden rastrear todas las páginas de un sitio. Para bloquear una página determinada, debes usar solo un prefijo de URL por disallow. No puedes incluir múltiples carpetas o prefijos de URL debajo del elemento disallow en robots.txt.

Los siguientes son algunos usos comunes de los archivos robots.txt.

Para permitir que todos los bots accedan a todo el sitio (el archivo robots.txt predeterminado) se utiliza lo siguiente:

User-agent:*
 Disallow:

Para bloquear todo el servidor de los bots, se utiliza este robots.txt:

User-agent:*
 Disallow: /

Para permitir un solo robot y no permitir otros robots:

User-agent: Googlebot
 Disallow:

User-agent: *
 Disallow: /

Para bloquear el sitio de un solo robot:

User-agent: XYZbot
  Disallow: /

Para bloquear algunas partes del sitio:

User-agent: *
 Disallow: /tmp/
 Disallow: /junk/

Use este robots.txt para bloquear todo el contenido de un tipo de archivo específico. En este ejemplo, estamos excluyendo todos los archivos que son archivos de Powerpoint. (NOTA: El signo de dólar ($) indica el final de la línea):

User-agent: *
 Disallow: *.ppt$

Para bloquear bots de un archivo específico:

User-agent: *
 Disallow: /directorio/archivo.html

Para rastrear ciertos documentos HTML en un directorio que está bloqueado a los bots, puedes usar una directiva allow. Algunos rastreadores importantes admiten la directiva allow en robots.txt. A continuación un ejemplo:

User-agent: *
 Disallow: /carpeta/
 Allow: /carpeta1/miarchivo.html

Para bloquear las URL que contienen cadenas de consulta específicas que pueden dar como resultado contenido duplicado, se utiliza el archivo robots.txt a continuación. En este caso, se bloquea cualquier URL que contenga un signo de interrogación (?):

User-agent: *
 Disallow: /*?

A veces, una página se indexará incluso si la incluye en el archivo robots.txt debido a razones como los enlaces externos. Para que esa página no se muestre en los resultados de búsqueda, puedes incluir las meta etiquetas noindex de robots en esas páginas individualmente. También puedes incluir una etiqueta nofollow e indicar a los bots que no sigan los enlaces salientes insertando los siguientes códigos:

Para que la página no se indexe:

<meta name=“robots” content=“noindex”>

Para que la página no sea indexada y que los enlaces no se sigan:

<meta name=“robots” content=“noindex,nofollow”>

NOTA: Si agregas estas páginas al robots.txt y también agregas la meta etiqueta anterior a la página, no se rastreará, pero las páginas pueden aparecer en las listas de resultados de búsqueda de solo URL, ya que los robots no pudieron leer específicamente las meta etiquetas en la página.

Otra cosa importante a tener en cuenta es que no debes incluir ninguna URL que esté bloqueada en tu archivo robots.txt en tu sitemap.xml. Esto puede suceder, especialmente cuando utilizas herramientas separadas para generar el archivo robots.txt y el mapa del sitio. En tales casos, es posible que debas verificar manualmente si estas URL bloqueadas están incluidas en el mapa del sitio. Puedes probar esto en tu cuenta de Google Search Console si has enviado y verificado tu sitio en la herramienta y has enviado tu sitemap.

Ve a Google Search Console> Índice> Sitemaps y si la herramienta muestra algún error de rastreo en los mapas de sitio enviados, puedes verificar si se trata de una página incluida en robots.txt.

Esta herramienta es una excelente manera de aprender a usar su archivo robots.txt. Puedes ver cómo Googlebots trata las URL tras ingresar la URL que deseas probar.

Por último, hay algunos puntos importantes para recordar en cuanto a robots.txt:

  • Cuando utilizas una barra diagonal después de un directorio o una carpeta, significa que el robots.txt bloqueará el directorio o la carpeta y todo lo que contiene, como se muestra a continuación:

    Disallow: /junk-directory/
    
  • Asegúrate de que los archivos CSS y los códigos JavaScript que representan contenido enriquecido no estén bloqueados en robots.txt, ya que esto dificultará las vistas previas de fragmentos.

  • Verifica su sintaxis en Google Search Console o hazlo con alguien que sepa bien de robots.txt, de lo contrario corres el riesgo de bloquear contenido importante en tu sitio.

  • Si tienes dos secciones de user-agent, una para todos los bots y otra para un bot específico, digamos Googlebots, entonces debes tener en cuenta que el rastreador de Googlebot solo seguirá las instrucciones dentro del agente de usuario para Googlebot y no para el general con el comodín (*). En este caso, es posible que debas repetir las declaraciones de rechazo incluidas en la sección general de agente de usuario en la sección específica de Googlebots también. Echa un vistazo al siguiente texto:

    User-agent: *
    Disallow: /folder1/
    Disallow: /folder2/
    Disallow: /folder3/
    
    
    User-agent: googlebot
     Crawl-delay: 2
    Disallow: /folder1/
    Disallow: /folder2/
    Disallow: /folder3/
    Disallow: /folder4/
    Disallow: /folder5/