A menudo en las comunidades de discusión sobre SEO aparecen preguntas de webmasters del estilo: "Si hago xyz, ¿causará una penalización por contenido duplicado?". El malentendido, desde la actualización Panda de Google, es que la penalización por contenido duplicado existe y arriesgas que tu sitio sea desindexado si tienes el mismo contenido en diferentes páginas de tu sitio.

En algún punto durante la creación de contenido de tu sitio habrás pensado acerca del contenido duplicado; usar la misma imagen varias veces en todo el sitio o, si es un sitio de comercio electrónico, preocuparse acerca de las páginas de categoría apareciendo en más de una URL con el mismo producto y descripción, o acerca de que tus artículos sean citados palabra por palabra en otros sitios.

Así que, ¿qué tanto debes preocuparte en cuestión de contenido duplicado? Comencemos con lo básico.

Si no tienes cuidado, podrías estar publicando sin darte cuenta contenido duplicado de varias maneras:

  • Varias URLs apuntando al mismo contenido

  • Versiones multilingües de la misma páginas

  • Contenido paginado

Las buenas noticias son que hay algunos métodos en página que puedes usar para deshacerte del contenido duplicado de tu sitio. Estos son conocidos como rel="canonical", hreflang y rel="prev"/rel="next" (paginación).

¿Qué es contenido duplicado?

Cualquier contenido que es idéntico a otro contenido que existe o bien en el mismo sitio web o en otro sitio web distinto.

Ejemplos:

  • El contenido de tu blog copiado en otro sitio.
  • Si tu página de inicio tiene múltiples URLs mostrando el mismo contenido, por ejemplo: http://tusitio.com, http://www.tusitio.com y http://www.tusitio.com/index.htm.
  • Páginas que han sido duplicadas debido a ID de sesiones y parámetros de URL, como http://tusitio.com/product y http://tusitio.com/product?sessionid=5486481.
  • Páginas que tienen opciones de ordenado en cuanto a tiempo, fecha, color u otros criterios pueden generar contenido duplicado, tales como http://tusitio.com/categoria y http://tusitio.com/categoria?=ordenar=medio.
  • Páginas con códigos de rastreo y códigos de afiliados, tales como http://tusitio.com/producto y http://tusitio.com/producto?ref=nombre.
  • Páginas compatibles con impresoras creadas por tu gestor de contenidos que tienen exactamente el mismo contenido que tus páginas web.
  • Páginas que son http antes del login y https luego.

¿Qué no es contenido duplicado?

Ejemplos:

  • Citas de otros sitios cuando son utilizadas con moderación en tu página entre comillas. Preferiblemente deben incluir el enlace de la fuente.
  • Imágenes de otros sitios o imágenes repetidas en tu propio sitio (esto no es considerado contenido duplicado dado que los motores de búsqueda no pueden rastrear contenido gráfico).
  • Infografías compartidas por códigos embebidos.

No existe tal cosa como la penalización por contenido duplicado. La prueba viene directa de Google en este enlace.

Pero eso no significa que haya que tomarse el contenido duplicado a la ligera. Las repercusiones de tener contenido duplicado en tus páginas web significan pérdida de tráfico, simplemente porque será omitido en los resultados de búsqueda. Exacto, no serás desindexado ni penalizado, sino que simplemente el contenido duplicado no aparecerá a los usuarios en los resultados de búsqueda.

En Google podrías llegar a ver un mensaje de este estilo:

Google message at the end of search results

Si un usuario hace clic en el enlace para repetir la búsqueda, se encontrará con estas páginas de contenido duplicado que faltan. Sin embargo, la posibilidad de que un usuario haga clic en este enlace es básicamente nula, ya que el mensaje se muestra en la última página de búsqueda: sí, en la página 8042 o en la cantidad de páginas que puede devolver una búsqueda. Además, si tienes una versión del contenido, ¿por qué necesitarías una repetición? Esta es una de las formas en que Google refina la experiencia del usuario de su motor de búsqueda, y con razón.

Entonces, ¿cómo se ve afectado su sitio por esto? Hay muchas formas en que su sitio puede verse afectado por la forma en que Google maneja el contenido duplicado:

  • Perder contenido original en resultados omitidos: Si tu blog original fue sindicado en muchos sitios web de terceros sin un enlace a tu contenido, existe una buena posibilidad de que tu contenido original sea omitido y reemplazado por las copias. Esto es especialmente cierto si el sitio de terceros tiene un PageRank más alto, mayor influencia y/o backlinks de mayor calidad que tu sitio.
  • Pérdida de tiempo de indexación para bots: Al indexar tu sitio, los robots de los motores de búsqueda tratan cada enlace como único e indexan el contenido de cada uno de ellos. Si tienes enlaces duplicados debido a IDs de sesión o cualquiera de los motivos mencionados anteriormente, los bots pierden su tiempo indexando contenido repetido en lugar de indexar otro contenido único en tu sitio.
  • Múltiples enlaces duplicados significa link juice diluido: Si creas enlaces que apuntan a una página que tiene múltiples URL, el link juice que pasa se distribuye entre ellos. Si todas las páginas se consolidan en una, el enlace también se consolidará, lo que podría aumentar el ranking de búsqueda de la página web. Para obtener más información, consulte la siguiente guía de SEO: Qué es el link juice .
  • Pérdida de tráfico: es obvio que si tu contenido no es la versión que Google elige mostrar en los resultados de búsqueda, perderás tráfico valioso a su sitio.

¿Cómo puedes detectar contenido duplicado en tu sitio?

El método más simple y lógico es copiar y pegar un fragmento de tu contenido en la búsqueda de Google y ver si aparece alguna otra página con exactamente el mismo contenido. También hay otras formas, y son las siguientes:

1. Google Search Console:

El contenido duplicado no se limita al contenido presente en una página web, sino que también puede verse contenido en fragmentos de búsqueda, como meta títulos y meta descripciones. La duplicación de dicho contenido se puede detectar fácilmente a través de Google Search Console en Optimización > Mejoras HTML.

2. Herramientas externas:

Copyscape.com es una excelente herramienta para verificar si hay contenido duplicado en tu sitio. Es una herramienta gratuita disponible tanto para Mac como para PC.

3. Operador de búsqueda "site":

Ingresa tu sitio en la barra de búsquedas utilizando el operador de búsqueda site: junto con parte del contenido de la página, de la siguiente manera:

site:www.tusitio.com [una parte del contenido copiado de tu sitio aquí ]

Si ves un mensaje de Google que habla de resultados omitidos (como se muestra en la primera captura de pantalla de este blog), es una indicación de que tu sitio tiene contenido duplicado presente en el sitio web o fuera de él.

Entonces, la pregunta final es...

¿Cómo puedes deshacerte del contenido duplicado? A continuación, algunas maneras:

Eliminar el contenido duplicado de tu sitio es posible, y vale la pena el tiempo y el esfuerzo para hacer que tu sitio sea lo más amigable posible para los motores de búsqueda. La eliminación de contenido duplicado de otros sitios que sindican tu contenido original debe hacerse de la manera que prefieras; ya sea enviándoles un correo electrónico, o una mención en los comentarios de su blog dando crédito y un enlace a su contenido original.

Las siguientes son formas de hacer frente al contenido duplicado generado en tu propio sitio:

1. Rel="canonical":

Si utilizas un sistema de gestión de contenido, distribuyes contenido o tienes un sitio de comercio electrónico, es fácil terminar con múltiples URL o dominios que apuntan al mismo contenido. Para combatir esto, dile a los motores de búsqueda dónde encontrarán el original usando la etiqueta rel="canonical". Cuando un motor de búsqueda ve esta anotación, sabe que la página actual es una copia y dónde encontrar el contenido canónico.

¿Cómo lo hago?

Comienza por decidir qué URL deseas que sea canónica. En general, debes elegir tu URL mejor optimizada como su URL canónica.

Para decirle correctamente a un motor de búsqueda que el contenido se copia de tu URL canónica, coloca la anotación rel="canonical" en el <head> de tu página. Debería verse así:

<link rel="canonical" href="<https://www.ejemplo.com>"

Si tienes una versión de un documento que no sea HTML (como un PDF para descargar o imprimir) se puede incluir la referencia canónica en la cabecera HTTP de esta manera: Link: <https://www.ejemplo.com/documento.html>">; rel="canonical"

Qué podría salir mal

Mientras que la etiqueta rel="canonical" parece bastante simple de implementar, equivocarse puede tener un gran impacto en tu rendimiento de búsqueda. Hay algunos errores comunes de canonicalización que debes evitar:

  • El contenido paginado apunta a la página uno: cuando agregas la anotación canónica al contenido paginado, haz coincidir la URL de tu página 1 con la URL de tu página canónica 1, de la página 2 a la página 2, etc. Cubriremos esto con un poco más de detalle más adelante.

  • URL canónicas que no son 100 % de coincidencias exactas: si tu sitio utiliza enlaces relativos al protocolo, dejar http/https seguirá dando como resultado que los motores de búsqueda vean contenido duplicado en esas dos direcciones. Siempre haz que tus URLs preferidas sean 100% coincidencias exactas.

  • Apuntar a URLs canónicas que devuelven un error 404: los motores de búsqueda ignorarán las etiquetas que apuntan a una página muerta.

  • Múltiples etiquetas canónicas: los motores de búsqueda solo admiten una anotación rel="canonical" por página. Puedes terminar con múltiples cuando se copia una plantilla de página que ya incluye rel="canonical" o un plugin inserta un rel="canonical" automáticamente. En casos de múltiples etiquetas canónicas, Google simplemente las ignorará.

2. Hreflang

Introducido por Google en 2011, la etiqueta hreflang permite decirle a un motor de búsqueda que una página está relacionada con otras páginas en diferentes idiomas y/o regiones. Si tu sitio web es https://ejemplo.com y tienes la misma página en inglés en [https://ejemplo.com/ez[https://ejemplo.com/], usa la etiqueta hreflang para decirle a los motores de búsqueda que muestres esa página a los buscadores de habla inglesa.

Es importante tener en cuenta que hreflang es un factor, no una directiva, en los resultados de búsqueda. Por lo tanto, si tienes páginas que son muy similares (como páginas en inglés dirigidas a Estados Unidos y Canadá), corres el riesgo de que se clasifique la versión incorrecta para un término de búsqueda. Los sitios multilingües deben ser parte de tu estrategia general de marketing.

¿Cómo lo hago?

La anotación hreflang se implementa en la sección de una página HTML. Para las páginas que no son HTML, la etiqueta se puede colocar en el encabezado HTTP. Cuando se hace correctamente, la etiqueta hreflang debería verse así:

  • HTML: <link rel="alternate" hreflang="en" href="<https://www.ejemplo.com>">

  • HTTP: link: <<https://www.ejemplo.com/>>; rel="alternate"; hreflang="en"

Debes incluir enlaces a cada versión de tu página. Si tienes copias en inglés, español y francés, coloca enlaces a los tres en la página .

Si tienes dos o más páginas en el mismo idioma pero orientadas a diferentes geografías (por ejemplo, EE. UU., Canadá y Reino Unido), puedes extender la variable hreflang para incluir el código de país de esta manera:

<link rel="alternate" hreflang="en-us" href="<https://www.ejemplo.com>">

<link rel="alternate" hreflang="en-ca" href="[https://www.ejemplo.com/ca](about:blank)">

<link rel="alternate" hreflang="en-gb" href="<https://www.ejemplo.com/uk>">

Si tienes una página que no es HTML en varios idiomas, separa cada anotación hreflang usando comas como esta:

link: <<https://www.ejemplo.com/>>; rel="alternate"; hreflang="en-us",

link: <<https://www.ejemplo.com/>ca/>; rel="alternate"; hreflang="en-ca",

link: <<https://www.ejemplo.com/>uk/>; rel="alternate"; hreflang="en-gb",

También hay una tercera opción para implementar etiquetas hreflang: tu mapa del sitio XML. En lugar de agregar marcas a tus páginas, incluye las versiones en idiomas extranjeros de tus URL en tu mapa del sitio. Al igual que con las otras anotaciones, incluye una URL para cada idioma.

¿Qué puede salir mal?

Un problema común al insertar anotaciones hreflang son "Errores de etiqueta de retorno". Estos errores provienen de anotaciones hreflang que no se vinculan entre sí. Las anotaciones son una calle de doble sentido; si tu página en inglés se vincula a tu página en alemán, tu página en alemán debe volver a vincularse a tu página en inglés. Posiblemente, el error de etiqueta de retorno más común es omitir la referencia propia: tu página en inglés debe vincularse a sí misma.

Para verificar si hay errores en la etiqueta de retorno, busca en los datos de orientación internacional de Google Search Console en Search Traffic. Esto le dirá cuántas etiquetas hreflang encontró Google y cuántas tienen errores.

Errores de devolución de etiquetas en Google Search Console

Otro problema común al implementar anotaciones hreflang es el idioma incorrecto o los códigos de país. El valor hreflang debe estar en formato ISO 639-1 para el idioma y el formato ISO 3166-1 Alpha 2 para el país. Usar 'uk' para el Reino Unido es el culpable más común; en este sistema, el valor debería ser 'gb', por Gran Bretaña. Tenga en cuenta que su valor hreflang debe comenzar con el código de idioma y que la orientación por región se limita a los países; por ejemplo, no puede orientar a la Unión Europea o América del Norte.

3. Redirecciones 301:

Puedes usar redirecciones 301 en páginas duplicadas que se generan automáticamente y que el usuario no necesita ver. Agregar etiquetas rel="canonical" a las páginas duplicadas mantiene la página visible para los usuarios, mientras que los redireccionamientos 301 apuntan tanto a los bots de los motores de búsqueda como a los usuarios a la página preferida. Esto debe hacerse específicamente para las URL de la página de inicio desde la URL WWW a la URL no WWW o viceversa, dependiendo de qué URL se usa más. Del mismo modo, si tienes contenido duplicado en varios sitios web con diferentes nombres de dominio, puedes redirigir las páginas a una URL utilizando una redirección 301. NOTA: Las redirecciones 301 son permanentes, así que ten cuidado al elegir tu URL preferida.

4. Etiqueta de Meta Robots

Puedes usar la etiqueta de meta robots con los atributos nofollow y noindex si tienes que evitar que un motor de búsqueda indexe una página duplicada. Simplemente agrega el siguiente código a la página duplicada:

<meta name=”robots” content=”noindex”>

Hay otra forma de excluir páginas duplicadas de los índices del motor de búsqueda, y es no permitir los enlaces con caracteres especiales en los robots archivo .txt

Nota: Google ha aconsejado no rechazar páginas en base a contenido duplicado usando robots.txt, porque si la URL está completamente bloqueada, existe la posibilidad de que los robots de los motores de búsqueda encuentren las URL fuera del sitio web a través de enlaces y las traten como páginas únicas. Esto significa que los motores de búsqueda probablemente elegirán esta como la página preferida entre todos los duplicados, aunque esa no fuera tu intención.

5. Google Search Console:

Puedes establecer parámetros de URL para eliminar páginas duplicadas de la indexación de Google-bot. Esta opción también está disponible en Configuración en la subsección Parámetros de URL, sin embargo, el uso de esta opción puede causar la indexación de páginas importantes si no se configura correctamente, por lo tanto, no se recomienda si no estás completamente seguro de cómo hacerlo.

6. Seguimiento de hashtags:

En lugar de utilizar parámetros de seguimiento en URL (que crea páginas duplicadas con el mismo contenido), intenta utilizar el método de seguimiento de hashtags.

Los parámetros de seguimiento se utilizan para realizar un seguimiento de las visitas de sitios específicos a tu sitio, por ejemplo, desde el sitio de un vendedor afiliado. Estos parámetros generalmente están presentes después de un signo de interrogación (?) en la URL.

Con el método de hashtags, eliminamos el signo de interrogación y usamos un signo de numeral (#). ¿Por qué? Bueno, los robots de Google tienden a ignorar cualquier cosa presente después de un hashtag. Entonces, por ejemplo, puedes tener URL duplicadas como http://tusitio.com/producto/ y http://tusitio.com/producto/#utm_source=xyz.

Cuando utilizas un hashtag, Google ve ambos enlaces como http://tusitio.com/producto/.

7. Contenido en dominios de nivel superior específicos del país:

Cuando tienes negocios repartidos por todo el mundo, es natural tener múltiples dominios para cada ubicación y es probable que no sea posible crear contenido único para cada uno de estos sitios cuando el producto/servicio es el mismo. ¿Cómo manejas la duplicación de contenido dentro de los dominios específicos de tu país? Para comenzar, ve a Google Search Console>Configuración>Ajustes en cada uno de los dominios específicos del país y elige el país de la audiencia objetivo para cada sitio.

  • Si es posible, usa un servidor local para cada dominio específico del país.
  • Ingresa las direcciones locales y los números de teléfono en cada uno de los sitios específicos del país.
  • Usa geoetiquetas. Google no puede utilizar estas etiquetas, ya que ya ha configurado la opción de usuarios objetivo en Google Search Console, pero pueden ser útiles para que los motores de búsqueda secundarios, como Bing, sepan que su sitio está dirigido a un país específico.
  • Utiliza <a href="https://support.google.com/webmasters/answer/189077?hl=es" target="_blank">rel=“alternate” hreflang=“x”</a> para informar a los robots de Google sobre tus páginas extranjeras con el mismo contenido y muestra qué página debe devolverse para qué público en los resultados de búsqueda.

Algunos SEO pueden sugerir el uso de rel="canonical" para hacer frente a los duplicados entre dominios, pero aún no está claro si usar esto para redirigir páginas de múltiples dominios es la solución correcta, ya que es necesario que aparezcan los sitios geo-dirigidos en los resultados de búsqueda para tus respectivas búsquedas específicas por país. Por ahora, recomendamos aclarar que tu contenido está orientado geográficamente para que los motores de búsqueda sepan qué contenido mostrar a qué público, evitando confusiones.

8. Contenido paginado:

Cuando tienes contenido con componentes cohesivos repartidos entre varias páginas y deseas enviar usuarios a páginas específicas a través de resultados de búsqueda, usa rel="next" y rel="prev" para que los motores de búsqueda sepan que estas páginas son parte de una secuencia. Obtén más información sobre la implementación de estos atributos rel en el blog de Google Webmaster Central sobre paginación con rel="next" y rel="prev". Hay otro tipo de paginación cuando se trata de comentarios de blog. Deshabilita la paginación de comentarios en su gestor de contenidos, de lo contrario (en la mayoría de los sitios) se crearán diferentes URL del mismo contenido.

Nota: Una vez que hayas utilizado estas estrategias para deshacerte del contenido duplicado, recuerda actualizar tu sitemap.xml eliminando las URL duplicadas y dejando solo las URL canónicas, luego vuelve a enviar el sitemap a Google Search Console. Lee nuestra guía de sitemaps.xml para obtener más información.

También hay algunas cosas que puedes hacer para luchar contra el contenido duplicado en tu sitio regularmente. Por ejemplo, mejora tu enlazado interno y enlaza a dominios preferidos. A medida que se encuentren más enlaces que apunten a las URL preferidas, será más fácil para los motores de búsqueda juzgar cuál es la página preferida. Además, en los sitios de comercio electrónico, cuando tienes productos que se clasifican en función de colores, tamaños o cualquier otra cosa, cada vez que un usuario hace clic en el tamaño o el color, la URL cambia debido a un parámetro de clasificación, y esto crea contenido duplicado. En tales casos, brinda la opción de elegir criterios de selección en la misma página, de modo que la URL no cambie.