Si eres webmaster o desarrollador de sitios web, querrás que tu sitio se vea en los resultados de búsqueda. Y para que se muestre en los resultados de búsqueda, necesitas que tu sitio web y sus diversas páginas web sean rastreadas e indexadas por robots de motores de búsqueda.

Hay dos archivos diferentes en el lado técnico de tu sitio web que ayudan a estos bots a encontrar lo que necesitan: Robots.txt y XML sitemap.

Robots.txt

Robots.txt es un archivo de texto simple que se coloca en el directorio raíz de tu sitio. Es ese archivo en tu sitio web que le dice a estos robots de motores de búsqueda qué rastrear y qué no rastrear en tu sitio. También contiene comandos que describen qué robots de motores de búsqueda pueden rastrear y cuáles no.

Por lo general, los robots de búsqueda buscan el archivo robots.txt en un sitio web tan pronto como ingresan a uno. Por lo tanto, es importante tener un archivo robots.txt en primer lugar. Incluso si deseas que todos los robots de búsqueda rastreen todas las páginas de tu sitio, es necesario un archivo robots.txt predeterminado que lo permita.

Robots.txt también contiene una información importante, el mapa del sitio. En esta publicación hablaremos de esta característica de robots.txt. Pero antes de eso, veamos qué es un mapa de sitio y por qué es importante.

XML Sitemaps

Un mapa del sitio es un archivo XML que contiene una lista de todas las páginas web de tu sitio. También puede contener información adicional sobre cada URL en forma de metadatos. Y, al igual que robots.txt, un mapa del sitio es imprescindible. Ayuda a los robots de los motores de búsqueda a explorar, rastrear e indexar todas las páginas web de un sitio a través del mapa del sitio.

Obtén más información sobre los conceptos básicos en nuestra [guía de sitemaps XML] (https://www.woorank.com/es/edu/seo-guides/sitemap-xml).

¿Cómo se relacionan los robots.txt y los sitemaps?

En 2006, Yahoo, Microsoft y Google se unieron para respaldar el protocolo estandarizado de envío de páginas a un sitio a través de sitemaps. Debes enviar tus sitemaps a través de Google Search Console, Herramientas para webmasters de Bing, Yahoo, mientras que otros motores de búsqueda como DuckDuckGoGo utilizan resultados de Bing y Yahoo.

Después de aproximadamente seis meses, en abril de 2007, se unieron en apoyo de un sistema para encontrar el mapa del sitio a través de robots.txt llamado descubrimiento automático de mapas de sitio. Esto significaba que incluso si no habías enviado el mapa del sitio a los motores de búsqueda individualmente, no había problema. Primero encontrarían la ubicación del mapa del sitio del archivo robots.txt de tu sitio.

(NOTA: sin embargo, el envío del mapa del sitio todavía se puede realizar manualmente en la mayoría de los motores de búsqueda que permiten el envío de URL).

Por lo tanto, el archivo robots.txt se volvió aún más importante para los webmasters porque pudieron allanar fácilmente el camino para que los robots de los motores de búsqueda descubrieran todas las páginas en su página web.

¿Cómo crear un archivo Robots.txt con la ubicación del mapa del sitio?

Aquí hay tres pasos simples para crear un archivo robots.txt con la ubicación del sitemap:

Paso 1: Localiza la URL de tu mapa del sitio

Si tu sitio web ha sido desarrollado por un desarrollador externo, primero debes verificar si crearon un mapa del sitio. La URL de archivo generalmente se ve así: http://www.ejemplo.com/sitemap.xml

Así que escribe esta URL en tu navegador con tu dominio en lugar de 'ejemplo'.

También puedes ubicar tu mapa de sitio a través de una búsqueda de Google utilizando los operadores de búsqueda como se muestra en los ejemplos a continuación:

site:ejemplo.com filetype:xml

O

filetype:xml site:ejemplo.com inurl:sitemap

Pero esto solo funcionará si tu sitio ya está rastreado e indexado por Google.

Si no encuentras un mapa del sitio en tu sitio web, puedes crear uno tú mismo usando este generador de mapas de sitio XML o siguiendo el protocolo explicado en Sitemaps.org.

Paso 2: Localiza tu archivo Robots.txt

Puedes verificar si tu sitio tiene un archivo robots.txt escribiendo dominio.com/robots.txt.

Si no tienes un archivo robots.txt, deberás crear uno y agregarlo al directorio raíz de tu servidor web. Necesitarías acceso a tu servidor web. Por lo general, se coloca en el mismo lugar donde se encuentra el "index.html" principal de tu sitio. La ubicación de estos archivos depende del tipo de software de servidor web que tengas. Debes contar con la ayuda de un desarrollador web si no estás acostumbrado a estos archivos.

Solo recuerda utilizar minúsculas para el nombre del archivo que contiene tu contenido de robots.txt. No uses Robots.TXT o Robots.Txt como nombre de archivo.

Paso 3: Agrega la ubicación del mapa del sitio al archivo Robots.txt

Ahora, abre el archivo robots.txt en la raíz de tu sitio. Nuevamente, necesitas acceso a tu servidor web para hacerlo. Por lo tanto, solicita a un desarrollador web que lo haga por ti si no sabes cómo ubicar y abrir el archivo robots.txt de tu sitio.

Para facilitar el descubrimiento automático de tu archivo de mapa del sitio a través de tu robots.txt, todo lo que tienes que hacer es colocar una directiva con la URL en tu robots.txt, como se muestra en el ejemplo a continuación:

Sitemap: http://www.ejemplo.com/sitemap.xml

El archivo robots.txt se debería ver así:

Sitemap: http://www.ejemplo.com/sitemap.xml
User-agent:*
Disallow:

NOTA: La directiva que contiene la ubicación del mapa del sitio se puede colocar en cualquier lugar en el archivo robots.txt. Es independiente de la línea de user-agent, por lo que no importa dónde se coloque.

¿Qué sucede si tienes varios sitemaps?

Cada mapa del sitio puede contener no más de 50.000 URLs. Por lo tanto, en el caso de un sitio más grande con muchas URLs, puedes crear múltiples archivos de sitemap. Debes enumerar estas ubicaciones de múltiples archivos de sitemaps en un archivo de índice de sitemaps. El formato XML del archivo de índice del mapa del sitio es similar al archivo del mapa del sitio, lo que significa que es un mapa del sitio de mapas del sitio.

Cuando tienes varios mapas de sitio, puedes especificar la URL del archivo de índice del mapa del sitio en tu archivo robots.txt como se muestra en el siguiente ejemplo:

Sitemap: http://www.example.com/sitemap_index.xml
User-agent:*
Disallow

O puedes especificar URLs individuales de tus múltiples archivos de sitemap, como se muestra en el siguiente ejemplo:

Sitemap: http://www.example.com/sitemap_host1.xml
Sitemap: http://www.example.com/sitemap_host2.xml
User-agent:*
Disallow

Finalmente, hay una cosa a la que debes prestar atención al agregar la directiva Sitemap al archivo robots.txt.

En general, se recomienda agregar el derivado 'Sitemap' junto con la URL del mapa del sitio en cualquier parte del archivo robots.txt. Pero en algunos casos esto ha dado lugar a algunos errores de análisis. Puedes consultar Google Search Console para detectar dichos errores, aproximadamente una semana después de haber actualizado tu archivo robots.txt con la ubicación de tu mapa del sitio.

Para evitar este error, se recomienda dejar una línea de espacio después de la URL del mapa del sitio.