¿Qué son los errores de rastreo?

Posicionar en la parte superior de los resultados de búsqueda comienza por asegurarse de que Google pueda rastrear e indexar tu contenido. Cuando no puede abrir correctamente una página o moverse de una página a otra, no puede indexar el contenido. Estas instancias se conocen como errores de rastreo.

En este artículo, aprenderás:

  • ¿Qué es un error de rastreo?
  • Errores del sitio
  • Errores de URL
  • Herramienta de inspección de URL
  • ¿Cuál es el problema con los errores de rastreo?

¿Qué es un error de rastreo?

Los errores de rastreo son problemas encontrados por los motores de búsqueda cuando intentan acceder a tus páginas. Estos errores evitan que los robots de los motores de búsqueda lean tu contenido e indexen tus páginas.

Los errores de rastreo también pueden referirse a un informe disponible en la versión heredada de Google Search Console.

El informe de errores de rastreo tiene dos secciones principales:

  • Errores del sitio: estos errores impiden que Googlebot acceda a tu sitio web entero.

  • Errores de URL: estos errores se producen cuando Googlebot no puede acceder a una URL específica.

En la nueva Google Search Console, estos errores se informan URL por URL en el informe de cobertura.

Google Search Console indexing coverage report

La nueva sección Cobertura de Search Console también rastrea la indexación a lo largo del tiempo, mostrando cuántos:

  • Errores ha encontrado (y cuántos ha resuelto)
  • Páginas válidas que Google ha indexado
  • Páginas que Google ha encontrado pero no indexado
  • Páginas válidas que Google ha indexado pero en las que encontró errores

Index coverage tracking crawl errors

Solo discutiremos la sección Errores, ya que estos problemas son los que evitarán que Google rastree o indexe tus páginas.

Errores de sitio

Los errores de sitio son problemas que ocurren a nivel de sitio. Los errores del sitio significan que tus usuarios y Google no pueden acceder a ninguna de tus páginas.

Así que no te saltes estos errores.

Hay tres errores de sitio que Google cuenta como errores de rastreo.

Error de DNS

Un DNS, que por su sigla en inglés significa "sistema de nombre de dominio", traduce la dirección IP de un sitio web de una cadena de números a letras y números utilizables. Esencialmente, es lo que nos permite navegar por Internet sin tener que conocer la dirección IP de cada sitio web que deseamos visitar.

El sistema DNS funciona así:

  1. Escribes un nombre de dominio en tu navegador.

  2. El navegador verifica si la información de ese dominio está almacenada localmente en tu computadora.

  3. Si no es así, el navegador envía una solicitud a tu servidor DNS local (generalmente proporcionado por tu ISP).

  4. El servidor DNS local busca los detalles del nombre de dominio. Si no encuentra ninguna información, necesitará encontrar el [servidor de nombres raíz del dominio] (https://es.wikipedia.org/wiki/Servidor_ra%C3%ADz).

  5. Para encontrar el servidor, el servidor DNS dividirá la URL en trozos, de derecha a izquierda. Entonces, para www.ejemplo.com, divide la URL en "com", "ejemplo" y "www".

  6. El servidor DNS se conecta al servidor de nombres raíz DNS para conocer la ubicación del servidor para el primer fragmento del dominio: ".com". Esto se conoce como el servidor de nombres de dominio de nivel superior (TLD).

  7. El servidor DNS se conecta al servidor TLD.

  8. El servidor DNS le pedirá al servidor de nombres de TLD detalles sobre el servidor de nombres que contiene detalles sobre el nombre de dominio ("ejemplo" en nuestro caso).

  9. En este punto, el servidor DNS le pide al servidor de nombres la información sobre ejemplo.com y el servidor de nombres regresa con la dirección IP del dominio.

diagrama de búsqueda de DNS

Hacer una conexión DNS es vital ya que es el primer paso para acceder a un sitio web. Si Google no puede establecer una conexión DNS, no puede encontrar, y mucho menos acceder, a tu sitio web.

Hay dos tipos de errores de DNS que encuentra Google:

  1. Tiempo de espera de DNS: Tu servidor DNS no respondió a la solicitud de Google lo suficientemente rápido.

  2. Búsqueda de DNS: Google no pudo acceder a tu sitio web porque tu servidor DNS no pudo encontrar tu nombre de dominio.

Si no puedes acceder a tu sitio como Google usando su herramienta, consulta con tu proveedor de DNS.

Errores del servidor

Los errores de servidor son diferentes de los errores de DNS. Significa que Google pudo buscar tu URL en el servidor DNS. Sin embargo, no puede cargar la página debido a un problema del servidor.

Esto generalmente significa que tu servidor está tardando demasiado en responder y la solicitud de Google ha expirado. Google dedicará solo una cierta cantidad de tiempo a esperar una respuesta del servidor. Si toma demasiado tiempo el bot se dará por vencido.

Al igual que los errores de DNS, un error de servidor es un gran problema para tu sitio web. Significa que algo salió mal con tu servidor e impide que los usuarios y los robots accedan a tu sitio web.

La forma en que repares el error de tu servidor dependerá de cuál sea el error. Hay varios tipos de errores de servidor:

  • Tiempo de espera: el servidor simplemente tardó demasiado en responder a la solicitud de Googlebot.

  • Encabezados truncados: tu servidor terminó la conexión antes de que se enviaran los encabezados completos.

  • Restablecimiento de la conexión: Google pudo conectarse a tu sitio, pero no recibió nada porque la conexión se restableció a mitad de la respuesta.

  • Respuesta truncada: la conexión finalizó antes de que Google recibiera una respuesta completa.

  • Conexión rechazada: tu servidor se negó a conectarse con Googlebot.

  • Falló la conexión: la red de tu servidor estaba inactiva o inaccesible.

*Tiempo de espera de conexión: la conexión también tardó en procesarse.

  • Sin respuesta: la conexión con tu servidor finalizó antes de que se pudiera enviar cualquier respuesta.

Consulta el artículo de ayuda de Google para obtener recursos sobre cómo solucionar problemas de cada tipo de error del servidor.

Falla de robots

Las fallas del robot se refieren a la incapacidad de Google para encontrar y leer el archivo robots.txt de un sitio web en www.tusitio.com/robots.txt. Si DNS es el paso 1 y hacer una conexión con el servidor es el paso 2, entonces leer robots.txt es el paso 3 cuando Google rastrea un sitio web.

Google no quiere rastrear e indexar las páginas que tú no quieres, por lo que si no puede acceder a un archivo robots.txt, pospondrá el rastreo hasta que pueda leer el archivo. Sin embargo, si deseas que Google rastree cada página de tu sitio, puedes renunciar a agregar este archivo a tu dominio e ignorar este error.

Si ves este error en Google Search Console, compruebea cómo configuraste tu archivo robots.txt.

  • ¿Lo creaste como un archivo de texto sin formato?
  • ¿Has rechazado tu página de inicio?
  • ¿Tu archivo robots.txt devuelve un estado 200 o un error 404?
  • ¿Has verificado doble, triple y cuádruple las líneas Disallow: /?

Cuando encuentras un error de robot, vale la pena señalar que no tener un archivo robots.txt es mejor que tener uno mal configurado, ya que un archivo robots.txt roto hará que Google evite rastrear stu sitio por completo.

Errores de URL

Los errores de URL difieren de los errores de sitio en que solo se aplican a una página específica, no a tu sitio en general. Marcan las instancias en las que Google solicitó una página específica, pero no pudo leerla.

404 suaves

El nombre "404 suave" puede ser un poco engañoso para algunos. Estas no son páginas que devuelven un código de estado 404. De hecho, estas son páginas que devuelven un estado HTTP 200. El problema es que en su mayoría son páginas vacías.

Google es bastante bueno para encontrar dónde se encuentra el contenido en una página. Entonces, cuando una URL contiene una página que no tiene mucho o ningún "contenido principal", se llama "404 suave". Técnicamente, la página existe y devuelve un estado 200, pero es una página vacía.

Google marca estas páginas porque no son muy útiles para los usuarios, hacen que Googlebot funcione sin ningún motivo y reducen la eficiencia del rastreo de tu sitio.

Tu mejor opción es agregar contenido a estas páginas para que sean útiles o no indexarlas para que Google ya no las vea.

Ten en cuenta que si usas una página 404 personalizada que no devuelve un estado 404, Google probablemente la marcará como un 404 suave.

No encontrado

Las URL no encontradas son los errores 404 reales encontrados en un sitio web. Google ha solicitado una URL en tu sitio que no existe.

Si bien ver muchas URL "no encontradas" en tu informe de Errores de rastreo puede tirarte el alma al piso, no es tan desastroso como parece.

De hecho, según Google, los errores 404 no afectan la indexación o clasificación de tu sitio.

La gran mayoría de los errores 404 que verás no necesitarán ser reparados. Al decidir si corregir o no una URL 404, considera...

  • ¿La URL tiene muchos enlaces externos de alta calidad?
  • ¿Recibe mucho tráfico?
  • ¿Es una URL que los usuarios obviamente esperarían existir?

Si la respuesta a una o más de estas preguntas es sí, probablemente deberías investigar la causa del error. Si el 404 es causado por un enlace interno defectuoso, debes definitivamente arreglarlo.

Arreglar tus 404 dependerá de la causa. Podría ser tan simple como corregir errores tipográficos en un enlace interno. Si se trata de enlaces externos a páginas antiguas, usa una redirección 301 para redirigir a una nueva. Si parece una URL que la gente esperaría que existiera en tu sitio, considera agregar la página o redirigir al contenido relevante en otra parte de tu sitio.

Acceso denegado

Estos errores ocurren cuando a Google no se le permite acceder a una página determinada. Generalmente son causados ​​por:

  • Contraseña que protege la página
  • Páginas no permitidas por robots.txt
  • Tu proveedor de hosting bloquea Googlebot (¡puede suceder!)

Si no deseas que las URL enumeradas en esta área de Errores de rastreo aparezcan en los resultados de búsqueda, no necesitas hacer nada aquí. Esto es en realidad una confirmación de que algo está bien.

Sin embargo, si deseas que estas páginas aparezcan en los resultados de búsqueda, deberás corregir lo que bloquea a Google.

No seguido

No confundas este error con la directiva de enlace o la etiqueta de meta robots. Estas URL no tienen nada que ver con eso. Las URL no seguidas en Errores de rastreo son simplemente URL que Google no pudo seguir completamente a su destino.

Las razones para esto podrían ser:

  • Flash, JavaScript u otro contenido activo que bloquea Google
  • Redireccionamientos rotos, bucles o cadenas
  • Enlace relativo en redirecciones
  • URL redirigidas incluidas en tu mapa del sitio

Nuevamente, como con los 404 y el acceso denegado, decide si no vale la pena corregir las URL aquí. Si las páginas no importan realmente a tu sitio web, puedes decidir no preocuparte por arreglarlas.

Errores de servidor y errores de DNS

Estos son los mismos tipos de errores encontrados en los errores del sitio anteriores. Google no pudo encontrar el DNS de una URL, o algo salió mal con tu servidor al tratar de servir la página. La diferencia aquí es que estos errores se limitan a las URL individuales, en lugar de afectar a todo tu sitio.

Para obtener más orientación de Google sobre qué significa cada error y cómo solucionarlo, lee el [artículo de Ayuda de Google Search Console]
(https://support.google.com/webmasters/answer/35120?hl=es#diagnosing_url_errors) sobre errores de rastreo.

Herramienta de inspección de URL

Google Search Console te permite buscar páginas individuales en tu sitio web para detectar problemas de indexación y errores de rastreo. Puedes acceder a la inspección de URL para URLs individuales de varias maneras:

  1. Al hacer clic en el enlace de inspección de URL en la barra de navegación de la izquierda o ingresar la URL en la barra de búsqueda en la parte superior de la página. Después selecciona una propiedad de la página de bienvenida de Search Console.

  2. Al hacer clic en el icono de lupa en la fila de una URL en el informe de rendimiento.

Search Console URL inspection tool

La herramienta te indica si una página está o no en el índice de Google y detalla lo que Google encontró cuando intentó localizar la página.

  • La página en la que Google encontró el enlace a tu página.

  • La última vez que los rastreadores de Google intentaron acceder a la página

Esto es lo que incluye el informe de la herramienta para una página que devuelve un estado HTTP 404:

URL inspection tool report

¿Cuál es el problema con los errores de rastreo?

El problema más obvio de tener errores de rastreo en tu sitio es que estos errores impiden que Google acceda a tu contenido. Google no puede posicionar las páginas a las que no puede acceder. Una alta tasa de errores de rastreo también puede afectar la forma en que Google ve tu sitio web.

Muchos errores de rastreo también pueden tener un impacto en cómo Google ve la salud de tu sitio web en general. Cuando los rastreadores de Google tienen muchos problemas para acceder al contenido de un sitio, pueden decidir que no vale la pena rastrear estas páginas con mucha frecuencia. Esto hará que tus nuevas páginas tarden mucho más en ingresar al índice de Google de lo que lo harían de otra manera.

Guías recientes