Rastreadores de motores de búsqueda

¿Qué es un rastreador?

Los rastreadores de motores de búsqueda, también llamados arañas, robots o simplemente bots, son programas o scripts que navegan de manera sistemática y automática por las páginas de la web. El propósito de esta navegación automatizada suele ser leer las páginas que visita el rastreador para agregarlas al índice del motor de búsqueda.

Los motores de búsqueda, como Google, utilizan rastreadores web para leer páginas web y almacenar una lista de las palabras que se encuentran en la página y dónde se encuentran esas palabras. También recopilan datos de usabilidad, como la velocidad y los estados de error HTTP encontrados.

Estos datos se almacenan en el índice de los motores de búsqueda, esencialmente grandes bases de datos de páginas web.

Cuando realizas una búsqueda en Google, en realidad estás buscando el índice de Google, no la web real. Google luego muestra las páginas indexadas relevantes para la consulta y proporciona enlaces a las páginas reales.

Dado que la web moderna contiene varios tipos diferentes de contenido y los motores de búsqueda tienen formas de buscar específicamente ese tipo de contenido, los motores de búsqueda más grandes tienen rastreadores dedicados a rastrear tipos específicos de páginas o archivos. Estos campos incluyen:

  • Contenido web general
  • Imágenes
  • Video
  • Noticias
  • Anuncios
  • Móvil

Cada tipo de rastreador tiene un agente de usuario diferente. Vea lo que cada agente de usuario está rastreando en nuestra guía robots.txt.

¿Cómo funcionan los rastreadores de motores de búsqueda?

En un nivel práctico, el "rastreo" ocurre cuando un rastreador recibe una URL para verificar, busca la página y luego la almacena en una computadora local. Puedes hacerlo tú mismo yendo a una página, haciendo clic derecho y luego haciendo clic en "Guardar como ..."

Los rastreadores reciben sus URL verificando el mapa del sitio de un dominio o siguiendo los enlaces que encuentra en otra página.

Los sitemaps desempeñan un papel importante en este paso, ya que proporcionan a los rastreadores una buena lista organizada de URL a las cuales acceder acceder. También proporcionan detalles que afectan cómo Google decide rastrear cada página.

¿Qué es el presupuesto de rastreo?

Por supuesto, incluso Google tiene recursos limitados (no importa cuán alto sea ese límite). Por lo tanto, Googlebot funciona con lo que se conoce como "presupuesto de rastreo". El presupuesto de rastreo es simplemente la cantidad de URLs en un sitio web que Google quiere y puede rastrear.

Hay dos ingredientes que se incluyen en el presupuesto de rastreo de Google para un sitio web:

  • Límite de velocidad de rastreo: Google no quiere afectar la experiencia del usuario de un sitio web mientras lo rastrea, por lo que limita el número de páginas que su rastreador puede buscar a la vez.

  • Solicitud de rastreo: En pocas palabras, este es el deseo de Google de rastrear tu sitio. Google no está interesado en rastrear URLs que no parecen agregar valor a los usuarios (parámetros de URL, navegación por etapas, identificadores de sesión, etc.). Entonces, incluso si Googlebot no alcanza su límite de frecuencia de rastreo, no desperdiciará sus propios recursos rastreando estas páginas.

La buena noticia es que el límite de frecuencia de rastreo y la demanda de rastreo pueden cambiar según lo que Google encuentre en tu sitio web. Estos factores afectan el presupuesto de rastreo de tu sitio:

  • Velocidad del sitio: A Google no le gusta esperar, por lo que las páginas rápidas lo atraerán a rastrear más páginas. Además, la velocidad es un signo de un sitio web saludable, por lo que Google podrá poner más recursos en el rastreo.

  • Páginas de error: Si un servidor responde a muchas solicitudes de Google con códigos de error, eso desalentará a Google de intentar rastrear páginas porque se verá como un sitio web con muchos problemas.

  • Popularidad: Cuanto más popular crea Google tu página, más a menudo la rastreará para mantenerla actualizada en su índice.

  • Frescura: No es ningún secreto que a Google le gusta el contenido nuevo (nuevo y actualizado). Publicar contenido nuevo le dirá a Google que tu sitio web tiene nuevas páginas para rastrear regularmente. Un contenido más fresco significa más rastreos.

Google puede rastrear URL alternativas como AMP o hreflang, lo mismo para JavaScript y CSS.

¿Qué es la indexación de búsqueda?

Una vez que se ha rastreado una página, Google necesita extraer información sobre la página para almacenarla en su índice. Los motores de búsqueda utilizan varios algoritmos y heurísticas para determinar qué palabras en el contenido de la página son importantes y relevantes. Agregar marcado semántico como Schema.org ayudará a los motores de búsqueda a comprender mejor tu página.

Una vez que una página ha sido recuperada, almacenada y analizada, la información extraída de ella se guarda en el índice del motor de búsqueda. Cuando alguien hace una consulta en una búsqueda, la información en el índice se usa para determinar las páginas relevantes para esa consulta.

Cómo optimizar el rastreo de Google

Para clasificar en los resultados de búsqueda, primero se debe indexar una página. Para poder indexarse, primero se debe rastrear una página. Por lo tanto, la capacidad de rastreo (o la falta de ella) tiene un gran impacto en el SEO.

No puedes controlar directamente qué páginas los rastreadores de Google deciden rastrear, pero puedes darles pistas sobre qué páginas serían mejores para que rastreen y cuáles deberían ignorar.

Hay tres formas principales de ayudar a controlar cuándo, dónde y cómo Google rastrea tus páginas. No son absolutos (Google tiene una mente propia), pero ayudarán a garantizar que los rastreadores encuentren tus páginas más importantes.

El rol de Robots.txt

Lo primero que hace un rastreador cuando entra en una página es abrir el archivo robots.txt. Esto hace que el archivo robots.txt sea la primera oportunidad para orientar a los rastreadores lejos de lo que considerarían URLs de bajo valor.

Puedes usar la directiva de rechazo de robots.txt para mantener a los rastreadores alejados de las páginas que no necesariamente te interesa que aparezcan en los resultados de búsqueda:

  • Página de agradecimiento o de confirmación de pedido
  • Contenido duplicado
  • Páginas de resultados de búsqueda del sitio
  • Agotado u otras páginas de error

No uses tu archivo robots.txt para no permitir las URL incrustadas como JavaScript o CSS. Los rastreadores tienen que usar su presupuesto de rastreo en estas URL, pero Google necesita poder renderizar completamente una página para comprenderla correctamente.

El bloqueo de archivos CSS y JS dará como resultado un rastreo e indexación inexactos o incompletos, lo que hará que Google vea una página diferente a la de los humanos, incluso podría resultar en un posicionamiento reducido.

El rol de los mapas de sitio XML

Lee nuestra guía guía sitemaps XML para aprender más acerca de cómo estos afectan el rastreo.

Los mapas de sitio XML son de alguna manera lo opuesto al archivo robots.txt. Le dicen a los motores de búsqueda qué páginas deberían rastrear. Y aunque Google no está obligado a rastrear todas las URL en un mapa del sitio (a diferencia de robots.txt, que es obligatorio), puedes usar la información incluida sobre las páginas para ayudar a Google a rastrear las páginas de manera más inteligente.

Tu mapa del sitio también es muy importante para asegurarte de que Google pueda encontrar páginas en tu sitio, una herramienta vital si tu estructura de enlaces internos no es muy sólida.

Usar etiquetas nofollow

Recuerda que los rastreadores se mueven de una página a otra siguiendo los enlaces. Sin embargo, puedes agregar el atributo rel="nofollow” para indicar a los rastreadores que no sigan los enlaces. Cuando un motor de búsqueda encuentra un enlace nofollow, lo ignorará.

Se puede seguir un enlace de dos maneras:

  • Meta etiqueta: si no deseas que los motores de búsqueda rastreen ningún enlace en una página, agrega el atributo content="nofollow” a la metaetiqueta de robots. La etiqueta se ve así:

    <meta name="robots” content=”nofollow”>

  • Etiquetas de anclaje: si deseas un enfoque particular para los enlaces nofollow, agrega el atributo rel="nofollow” a la etiqueta de enlace real, de esta manera:

    <a href="www.ejemplo.com” rel=”nofollow>anchor text</a>

De esta forma, los rastreadores no seguirán ese enlace, pero aún pueden seguir otros enlaces en la página.

El uso de rel="nofollow” en las etiquetas de enlace no transmitirá el link juice a la página de destino, pero ese enlace seguirá contando en función de la cantidad de link juice disponible para pasar a cada enlace.

En ambos casos (meta etiqueta o etiqueta de anclaje), la URL de destino aún podría rastrearse e indexarse ​​si otro enlace apunta a esa página. Por lo tanto, no permitas esa página a través de robots.txt; no confíes en nofollow para los enlaces internos.

Tal vez te preguntes cómo el uso del atributo "noindex" en la etiqueta de meta robots afecta el rastreo. En resumen, no lo hace. Google seguirá rastreando una página con el atributo noindex y seguirá todos los enlaces dofollow en la página. Simplemente no almacenará la página y sus datos en el índice.

Errores de rastreo

Los errores de rastreo se producen cuando Google intenta encontrar una página pero no puede acceder a una URL por algún motivo. Los errores de rastreo pueden ocurrir a nivel de todo el sitio (DNS, tiempo de inactividad del servidor o problemas de robots.txt), o en un nivel de página (tiempo de espera, 404 suave, no encontrado, etc.).

El informe de cobertura de índice en Google Search Console enumerará las páginas que Google encuentra que tiene problemas para rastrear, junto con el problema que impide que Google lo indexe correctamente.

Guías recientes